説明

音声認識装置及び音声認識方法

【課題】ハードウェア資源の大幅な増加を伴わず、また実環境での不安定性の少ない特徴をもった、様々な環境で高い認識性能が得られる音声認識装置及び音声認識方法を提供することにある。
【解決手段】減算処理部は、過去Lフレーム分の観測信号Y(f,m−1)〜Y(f,m−L)を記憶する信号記憶部8と、現在の時間フレームの観測信号Y(f,m)から、信号記憶部8に記憶した過去の時間フレームの各観測信号Y(f,m−1)〜Y(f,m−L)に対応する減算係数記憶部9の減算係数α〜αを夫々乗じた信号をパワースペクトル減算してその結果を推定信号Sest(f,m)として出力する減算部10とで構成され、音声特徴量抽出部4は推定信号Sest(f,m)から音声特徴量を抽出する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、居室内など残響のある環境において、利用者の入力した音声を認識する音声認識装置及び音声認識方法に関するものである。
【背景技術】
【0002】
音声認識技術は、優れたヒューマンインターフェースを具現する上で重要な役割を担っている。音声認識技術を適用した音声認識装置としては図7に示すような構成の装置が従来提供されている(例えば特許文献1)。
【0003】
この音声認識装置は、音声を入力するマイクロフォンからなる音声入力部1と、音声入力部1からの出力信号をA/D変換するA/D変換部2と、A/D変換部2からの出力信号を周波数変換する周波数変換部3と、周波数変換部3からの出力信号から音声の特徴量を抽出する音声特徴量抽出部4と、標準音声から作成された音声認識用の標準パターンを記憶している標準パターン記憶部7と、音声特徴量抽出部4から出力される入力音声の音声特徴量と標準パターン記憶部7に記憶されている標準パターンとの類似度を計算して認識結果6を出力するパターン照合部5とから構成されており、標準パターン記憶部7に記憶させる標準パターンは、予め標準音声の特徴パターンを収集し、これを隠れマルコフモデルなどのモデル化手法を用いて作成したものが用いられている。
【0004】
ところで、装置の使用環境と標準パターンを作成したときの環境が異なる場合に、利用者の音声と標準パターンとの間に相違が生じることにより、認識率が低下するという問題があるため、特許文献1に開示されている音声認識装置では環境の残響時間に応じた複数の標準パターンを標準パターン記憶部7に記憶しておき、環境に応じて標準パターンを選択して使用するようになっている。
【0005】
また、入力音声を分析することにより、環境の逆フィルタを推定し、入力音声を環境の影響をうけていない状態に変換してから認識する音声認識装置も提供されている(例えば非特許文献1)
【特許文献1】特開2004−117724号公報(図1,段落番号0025)
【非特許文献1】「調波構造を用いた残響除去法の明瞭性と認識率による音声品質評価」、日本音響学会講演論文集、611頁〜612頁、2004年3月発行
【発明の開示】
【発明が解決しようとする課題】
【0006】
特許文献1に開示されている音声認識装置のような、複数の標準パターンを使用する方式では、複数の標準パターンを保持するためにメモリ容量が増加するという問題がある。音声認識装置では、メモリ容量全体に占める標準パターンの割合が大きいので、複数の標準パターンを用意すると、全体のメモリ容量が倍増するという問題がある。
【0007】
また非特許文献1に開示されている、環境の逆フィルタを入力音声から推定する手法は、十分に精度良く逆フィルタを推定するためには、大量の入力音声が必要となる。しかしながら、環境の特性はユーザーの位置変化や、室内の温度変化により変化するので、環境の特性が一定な期間内に必要な入力音声データ量を得ることは難しいので、結果として不安定な逆フィルタが学習され、十分な認識性能を得ることは困難である。
【0008】
本発明は上述の点に鑑みて為されたもので、その目的とするところはハードウェア資源の大幅な増加を伴わず、また実環境での不安定性の少ない特徴をもった、様々な環境で高い認識性能が得られる音声認識装置方法及び音声認識方法を提供することにある。
【課題を解決するための手段】
【0009】
上述の目的を達成するために、請求項1の音声認識装置の発明では、残響環境下で音声を捉える音声入力部と、該音声入力部からの出力信号をA/D変換するA/D変換部と、該A/D変換部からの出力信号を周波数変換して現在の時間フレームの観測信号を出力する周波数変換部と、過去の所定時間フレームの観測信号を記憶し、現在の時間フレームの観測信号から、前記過去の所定時間フレームの観測信号に所定の減算係数を乗じて得られた信号を減算して推定信号として出力する減算処理部と、該減算処理部から出力される推定信号から音声の特徴量を抽出する音声特徴量抽出部と、残響時間が異なる環境下での標準音声から作成された標準パターンを記憶している標準パターン記憶部と、前記音声特徴量抽出部から抽出された特徴量と前記標準パターン記憶部で記憶している標準パターンとのとの類似度を求めて認識結果を出力するパターン照合部とを備えていることを特徴とする。
【0010】
請求項1の音声認識装置の発明によれば、複数の標準パターンを記憶する必要がなくなって容量の大きな標準パターン記憶部を必要とせず、しかも残響環境下で捉えた音声の成分から残響によって遅延する音声成分を除去して標準パターンと同質とした推定信号から音声の特徴量を抽出することができるため、様々な環境において高い性能で音声認識が行える音声認識装置を実現できる。
【0011】
請求項2の音声認識装置では、残響環境下で音声を捉える音声入力部と、該音声入力部からの出力信号をA/D変換するA/D変換部と、該A/D変換部からの出力信号を周波数変換して現在の時間フレームの観測信号を出力する周波数変換部と、現在の時間フレームの観測信号から、過去の所定時間フレームに対応する所定の信号に所定の減算係数を乗じて得られた信号を減算して推定信号として出力し、且つ前記所定の信号に用いる信号として前記推定信号を記憶する減算処理部と、該減算処理部から出力される前記推定信号から音声の特徴量を抽出する音声特徴量抽出部と、残響時間が異なる環境下での標準音声から作成された標準パターンを記憶している標準パターン記憶部と、前記音声特徴量抽出部から抽出された特徴量と前記標準パターン記憶部で記憶している標準パターンとのとの類似度を求めて認識結果を出力するパターン照合部とを備えていることを特徴とする。
【0012】
請求項2の音声認識装置の発明によれば、複数の標準パターンを記憶する必要がなくなって容量の大きな標準パターン記憶部を必要とせず、しかも残響環境下で捉えた音声の成分から残響によって遅延する音声成分を除去して標準パターンと同質とした推定信号から音声の特徴量を抽出することができるため、様々な環境において高い性能で音声認識が行え、特に減算に使用する過去の所定フレームまでの時間フレームに対応する信号がより正確となる音声認識装置を実現できる。
【0013】
請求項3の音声認識装置の発明では、請求項1又は2の発明において、前記減算係数は、前記残響環境の伝達関数の1フレーム目の観測信号と所定フレーム目の観測信号のパワー比に所定の係数を乗じた値とすることを特徴とする。
【0014】
請求項3の音声認識装置の発明によれば、減数係数をより正確に導出することができ、その結果音声認識の性能を一層向上させることができる。
【0015】
請求項4の音声認識装置の発明では、請求項1乃至3の何れかの発明において、減算に使用する前記過去の所定時間フレームが複数のフレームであって、各所定時間フレームの信号に対して夫々の所定時間フレームに対応する所定の減算係数を乗じるとともに乗じた結果を加算して該加算結果を現在の時間フレームの観測信号から減算することを特徴とする。
【0016】
請求項4の音声認識装置の発明によれば、様々な遅れ時間で到来する音声の遅れ成分に対しても、より正確に残響抑圧が行え、その結果音声認識の性能を更に向上させることができる。
【0017】
請求項5の音声認識装置の発明では、請求項1乃至4の何れかの発明において、前記減算処理部は、減算処理においてスムージングにより残響の揺らぎを緩和する機能を備えたことを特徴とする。
【0018】
請求項5の音声認識装置の発明によれば、残響の揺らぎを緩和させることができ、その結果音声認識の性能を向上させることができる。
【0019】
請求項6の音声認識装置の発明では、請求項1乃至3の何れかの発明において、前記減算処理部は、前記推定信号の出力に対して前記過去の所定時間 フレームを一つ用いる場合、減算処理を行う周波数帯毎又は周波数毎に前記過去の所定時間フレームを選択することを特徴とする。
【0020】
請求項6の音声認識装置の発明によれば、周波数によって遅れ時間が異なる遅れ成分に対してもより正確に残響抑圧が行え、その結果音声認識の性能を向上させることができる。
【0021】
請求項7の音声認識方法の発明では、残響環境下で捉えた音声の特徴量と、標準音声から作成した標準パターンとの類似度を求めて認識結果を得る音声認識方法であって、残響環境下で捉えた音声信号を周波数変換する過程と、周波数変換されて得られた現在の時間フレームの観測信号から、過去の所定時間フレームの観測信号に所定の減算係数を乗じて得られる信号を減算して推定信号を得る過程と、前記推定信号から音声の特徴量を抽出する過程と、該抽出した特徴量と前記標準パターンとの類似度から音声認識を行う過程とを有することを特徴とする。
【0022】
請求項7の音声認識方法の発明によれば、残響環境下で捉えた音声の成分から残響によって遅延する音声成分を除去して標準パターンと同質とした推定信号から音声の特徴量を抽出することができるため、ハードウェアの大幅な増加を伴うことなく、様々な環境で音声認識の性能の向上が図れる。
【0023】
請求項8の音声認識方法の発明では、残響環境下で捉えた音声の特徴量と、標準音声から作成した標準パターンとの類似度を求めて認識結果を得る音声認識方法であって、残響環境下で捉えた音声信号を周波数変換する過程と、周波数変換されて得られた現在の時間フレームの観測信号から、過去の所定時間フレームに対応する所定の信号に所定の減算係数を乗じて得られる信号を減算して推定信号を得、且つ前記所定の信号に用いる信号として前記推定信号を記憶する過程と、前記推定信号から音声の特徴量を抽出する過程と、該抽出した特徴量と前記標準パターンとの類似度から音声認識を行う過程とを有することを特徴とする。
【0024】
請求項8の音声認識方法の発明によれば、残響環境下で捉えた音声の成分から残響によって遅延する音声成分を除去して標準パターンと同質とした推定信号から音声の特徴量を抽出することができるため、ハードウェアの大幅な増加を伴うことなく、様々な環境で音声認識の性能の向上が図れ、特に減算に使用する過去の所定フレームまでの時間フレームに対応する信号がより正確となる。
【発明の効果】
【0025】
音声認識装置の発明は、数の標準パターンを記憶する必要がなくなって容量の大きな標準パターン記憶部を必要とせず、しかも残響環境下で捉えた音声の成分から残響によって遅延する音声成分を除去して標準パターンと同質とした推定信号から音声の特徴量を抽出することができるため、様々な環境において高い性能で音声認識が行える音声認識装置を実現できるという効果がある。
【0026】
また音声認識方法の発明は、残響環境下で捉えた音声の成分から残響によって遅延する音声成分を除去して標準パターンと同質とした推定信号から音声の特徴量を抽出することができるため、ハードウェアの大幅な増加を伴うことなく、様々な環境で音声認識の性能の向上が図れる。
【発明を実施するための最良の形態】
【0027】
以下本発明を実施形態により説明する。
【0028】
(実施形態1)
図1は本実施形態の構成を示しており、本実施形態では、周波数変換部3で周波数変換された観測信号Y(f,m)を所定フレームまでの過去の時間フレーム、例えばLフレーム分、つまりY(f,m−1)〜Y(f,m−L)まで記憶する信号記憶部8と、この信号記憶部8で記憶されているL個の過去の観測信号Y(f,m−1)〜Y(f,m−L)夫々に対応するL個の減算係数α〜αを記憶している減算係数記憶部9と、信号記憶部8に記憶している過去の各観測信号Y(f,m−1)〜Y(f,m−L)に、減算係数記憶部9に記憶している夫々の観測信号観測信号Y(f,m−1)〜Y(f,m−L)に対応する減算係数α〜αを乗じ、その乗じて得られた信号を、周波数変換部3から出力されている現在の時間フレームの観測信号から減算することでパワースペクトルの減算を行う減算部10とを減算処理部として備え、減算部10から出力される減算結果を、音声特徴量を抽出する推定信号として音声特徴量抽出部4へ出力する点に特徴がある。
【0029】
信号記憶部8は周波数変換部3から出力される観測信号を上述のようにLフレーム分記憶するもので、観測信号が入力されるたびに最も旧いフレームの観測信号を消去して新たなフレームの観測信号を記憶するようになっている。
【0030】
尚マイクロフォンからなる音声入力部1は従来例と同様に残響環境下で音声を捉え、音声入力部1から出力される音声信号はA/D変換部2でA/D変換された後周波数変換部3で周波数変換されるようになっている。
【0031】
またパターン照合部5は音声特徴量抽出部4で抽出された音声特徴量と、標準パターン記憶部7で記憶されている標準音声の標準パターンとの類似度を求めて類似度に対応した認識結果6を出力するようになっている。標準パターン記憶部7は複数の環境下での標準パターンを記憶するのではなく、一つの標準音声による音声パターンを記憶しているのみで、従来例のように複数の標準パターンを記憶する場合に比して大幅に少ない記憶容量のメモリで構成している。
【0032】
次に本実施形態の動作を説明する。
【0033】
まず、ユーザーは、装置が利用される環境におけるユーザー位置からマイクロフォンたる音声入力部1までの伝達関数を測定する。図2は伝達関数h(t)のその測定の結果例を示している。
【0034】
次に、例えば式(1)のようなのフレーム間のパワー比に所定の定数βを乗算した値をαとする。ここで、窓幅Wは例えば周波数変換部3での窓長と同じ値とし、窓のシフト幅(図2ではt=0からt=Tまでの幅)も同様に周波数変換部3での窓シフト幅と同じ値とする。
【0035】
【数1】

【0036】
図3は求まったαの値と各フレームとの関係例を示す。
【0037】
以上のように算出されたαを、予め減算係数記憶部9に記憶させておくのである。この記憶させる手段には適宜な手段を用いれば良いのでここでは省略する。
【0038】
上述のように算出されたαを減算係数記憶部9にLフレーム分(α〜α)記憶させて準備が完了することになる。
【0039】
さて本実施形態の音声認識装置が入力音声の認識を行う動作は次の通りである。今既にLフレーム分の過去の観測信号Y(f,m−1)〜Y(f,m−L)が信号記憶部8に記憶されている状態において、現在の時間フレームに対応する観測信号Y(f,m)が減算部10に入力すると、減算部10は信号記憶部8に対して観測信号Y(f,m−1)〜Y(f,m−L)を順次読み出すとともに減算係数記憶部9からLフレーム分の減算係数α〜αを読み出し、例えば式(2−1)のようなパワースペクトル領域での減算処理を行い、推定信号Sest(f,m)を出力する。
【0040】
【数2】

【0041】
尚、減算した結果(式(2−2)で示す)が負の値となった場合には、式(3)のようなフロアリング処理、あるいは式(4)のように零信号として処理しても良い。
【0042】
Sest(f,m)=Y(f,m)×0.5 …(3)
Sest(f,m)=Y(f,m)×0 …(4)
以上のように本実施形態の音声認識装置では、信号記憶部8、減算係数記憶部9、減算部10からなる減算処理部を有するので、壁や床などに反射することにより遅延して音声入力部1に入力される音声の成分を、観測信号から除去することができ、そのため減算処理によって減算部10から出力される推定信号が標準パターンと同質になり、この推定信号から音声特徴量抽出部4で抽出した特徴量と標準音声による標準パターンとの類似度をパターン照合部5で計算してその結果に基づいて出力する認識結果6が高い認識率によって得られ、装置としての音声認識の性能が向上する。
【0043】
また、複数のフレームによって減算処理を行うので、床や壁など様々な反射経路による複数の遅延成分に対応することができ、より認識性能の向上が得られる。
【0044】
更にまた、減算係数αを伝達関数から算出しているので、より正確な減算処理を行うことができ、その結果認識性能が向上する。
【0045】
尚αは音声認識装置が実際に使用される環境下で測定した伝達関数に基づいて上述のように算出しているが、例えば音声認識装置が利用されうる複数の環境下において算出したαの平均値としても良い。
【0046】
また減算処理により得られる推定信号を逆周波数変換すると、残響感の減少した音声信号を得ることができるので、音声認識装置以外にもハンズフリー電話やインターホンなどに応用できる。
(実施形態2)
本実施形態は、実施形態1の構成に加え、図4に示すように信号記憶部8と減算部10の間に信号記憶部8に記憶している過去のフレームの観測信号Y(f,m−p)を周波数軸方向への平滑化を行うフィルタ部11を設けた点に特徴がある。
【0047】
その他の構成は実施形態1と同じであるので、実施形態1と共通の構成要素には同一符号を付して、その共通の構成要素についての説明は省略する。
【0048】
而して減算部10が、信号記憶部8に記憶されている過去のフレームの観測信号Y(f,m−p)の読み出しを行うと、前後の周波数に相当する信号Y(f−1,m−p)、Y(f+1,m−p)を信号記憶部8から読み出し、例えば式(5)に示すような平滑化処理を行った信号を減算部10に出力する。
【0049】
【数3】

【0050】
図5は音声信号が空間を伝わる際の周波数の様子を示しており、同図(a)は周波数の揺らぎがない場合を示し、同図(b)は壁等で音声が反射する際に、周波数が揺らぐ様子を示している場合を示す。
【0051】
図5(a)の(イ)に示すように、例えばKフレーム前にユーザーが発生した音声の周波数fの要素(●印)が、空間を伝わり壁等の反射を経てKフレームの遅延を生じ、現在のフレームに減衰して混入されると、現在のフレームでは、図5(a)の(ロ)に示すようにユーザーの発生する音声の周波数fの要素(▲印)が観測されているので、観測信号は両者が混合された音声となり、前述のような残響のある音声が観測される。
【0052】
一方壁等で音声が反射する際には、図5(b)の(イ)に示すように、Kフレーム前にユーザーが発生した音声の周波数fの要素(●印)は、周波数の揺らぎにより、図5(b)の(ロ)に示すように、例えば現在のフレームの周波数f−1の要素(△印)に混入されるが、フィルタ部11により上述した(5)式に基づいて平滑化処理するのである。
【0053】
尚減算部10の減算処理で得られた推定信号Sest(f,m)から認識結果を得るまでの処理動作は実施形態1と同じであるので、説明は省略する。
【0054】
以上のように本実施形態の音声認識装置では、残響による遅延成分が周波数軸方向に揺らいでいる場合においても、減算に用いる過去の時間フレームの観測信号Y(f,m−p)をフィルタ部11により平滑化してYave(f,m−p)とすることで、現在の観測信号Y(f,m)の周波数成分から遅延成分を減算部10で減算処理することが可能となり、その結果遅延成分を除去することができ、その結果認識性能が向上する。
(実施形態3)
上述の実施形態1では減算処理において過去の時間フレームの観測信号を使用しているが、観測信号の代わりに本実施形態は過去の推定信号を減算に用いる点に特徴がある。
【0055】
つまり本実施形態では、図6に示すように減算部10での減算結果として出力される推定信号Sest(f,m)を音声特徴量抽出部4へ出力するとともに、信号記憶部8へも出力するようになっている。
【0056】
信号記憶部8は減算部10から出力される推定信号を過去Lフレーム分に渡って記憶しておき、減算部10からの読み出しに応じて順次出力するようになっている。
【0057】
その他の構成には実施形態1と同じであるので、共通の構成要素には同一符号を付して、その共通の構成要素についての説明は省略する。
【0058】
而して本実施形態の音声認識装置の減算部10では信号記憶部8から読み出した推定信号Sest(f,m−p)とともに対応して減算係数記憶部9から読み出す減算係数αを用いて実施形態1の場合と同様な減算処理を行うのである。
【0059】
このように減算部10での減算処理に使用する信号が、観測信号Y(f,m−p)ではなく反射による遅れ成分の取り除かれた推定信号Sest(f,m−p)になるので、本実施形態の音声認識装置では、より正確に遅れ成分だけを減算することができ、その結果認識性能が向上する。
【0060】
尚本実施形態では初期においては信号記憶部8には過去の時間フレームに対応する推定信号Sest(f,m−p)が記憶されていない零信号で状態あるので、このときの減算結果はSest(f,m)=Y(f,m)×ejarg(Y(f,m)) となって、これが1フレーム前の推定信号Sest(f,m−p)として信号記憶部8に記憶されることになる。以後Lフレーム分の推定信号Sest(f,m−1)〜Sest(f,m−L)が記憶されるまで、推定信号が記憶されていない過去の時間フレームについては零信号が当該フレームの推定信号として用いられる。
【0061】
また本実施形態において、信号記憶部11から出力される推定信号Sest(f,m−p)に対して平滑処理するために実施形態2と同様なフィルタ部11を設けても良い。
(実施形態4)
まず、実施形態1において、減算処理に使用する過去の観測信号として1フレームだけを用いる場合には、減算処理部は、過去Kフレーム目の過去の観測信号Y(f,m−K)を用いて減算処理を行う。但し、Kは、1,2,…Lの何れか一つの値である。
【0062】
ここで、本実施形態では、周波数帯毎又は周波数毎に上述のKの値を変更する点が実 施形態1とは異なる箇所である。本実施形態では、例えば、Kとしてお互い異なるK、K、K3を選択する。
【0063】
そして、周波数0〜fについては、Kフレーム前の観測信号Y(0,m−K)、
Y(1,m−K)、…、Y(f,m−K)を信号記憶部8に記憶させる。また、周波数帯域f1+1〜f2についてはK2フレーム前の観測信号Y(f+1,m−K)、Y(f+2,m−K)、…、Y(f,m−K)を信号記憶部8に記憶させる。また、周波数f+1についてはKフレーム前の観測信号Y(f+1,m−K)を信号記憶部8に記憶させる。
【0064】
而して信号記憶部8は、周波数変換部3から周波数変換された信号を受信すると、周波数帯毎に所定の時間フレーム数だけ遅延させて各観測信号を上述のように記憶しておき、減算部10から読み出し信号を受信すると、記憶している観測信号を順次減算部10へ出力するのである。尚減衰係数記憶部9で記憶させる減衰係数も対応させる形で記憶させる。
【0065】
その他の構成及び動作は実施形態1と同じであるので、構成は図1を参照して説明は省略する。
【0066】
以上のように本実施形態の音声認識装置では、音声の反射等による遅れ成分に相当する信号を、周波数帯毎に遅れ量を変えて記憶しておくことができるので、周波数毎に異なる遅れ成分を精度良く減算することができ、その結果結果認識性能が向上する。
【0067】
尚減算係数αと乗じる信号を観測信号Y(f,m−p)の代わりに実施形態3と同様に過去の所定フレームに対応する推定信号Sest(f.m−p)を用いるようにしても良い。
【図面の簡単な説明】
【0068】
【図1】実施形態1及び実施形態4の回路構成図である。
【図2】使用環境での伝達関数の測定例図である。
【図3】実施形態1に用いる減衰係数値とフレームとの関係説明図である。
【図4】実施形態2の回路構成図である。
【図5】音声信号が空間を伝わる際の周波数の揺らぎの説明図である。
【図6】実施形態3の回路構成図である。
【図7】従来例の回路構成図である。
【符号の説明】
【0069】
1 音声入力部
2 A/D変換部
3 周波数変換部
4 音声特徴量抽出部
5 パターン照合部
6 認識結果
7 標準パターン記憶部
8 信号記憶部8
9 減算係数記憶部9
10 減算部

【特許請求の範囲】
【請求項1】
残響環境下で音声を捉える音声入力部と、該音声入力部からの出力信号をA/D変換するA/D変換部と、該A/D変換部からの出力信号を周波数変換して現在の時間フレームの観測信号を出力する周波数変換部と、過去の所定時間フレームの観測信号を記憶し、現在の時間フレームの観測信号から、前記過去の所定時間フレームの観測信号に所定の減算係数を乗じて得られた信号を減算して推定信号として出力する減算処理部と、該減算処理部から出力される推定信号から音声の特徴量を抽出する音声特徴量抽出部と、残響時間が異なる環境下での標準音声から作成された標準パターンを記憶している標準パターン記憶部と、前記音声特徴量抽出部から抽出された特徴量と前記標準パターン記憶部で記憶している標準パターンとのとの類似度を求めて認識結果を出力するパターン照合部とを備えていることを特徴とする音声認識装置。
【請求項2】
残響環境下で音声を捉える音声入力部と、該音声入力部からの出力信号をA/D変換するA/D変換部と、該A/D変換部からの出力信号を周波数変換して現在の時間フレームの観測信号を出力する周波数変換部と、現在の時間フレームの観測信号から、過去の所定時間フレームに対応する所定の信号に所定の減算係数を乗じて得られた信号を減算して推定信号として出力し、且つ前記所定の信号に用いる信号として前記推定信号を記憶する減算処理部と、該減算処理部から出力される前記推定信号から音声の特徴量を抽出する音声特徴量抽出部と、残響時間が異なる環境下での標準音声から作成された標準パターンを記憶している標準パターン記憶部と、前記音声特徴量抽出部から抽出された特徴量と前記標準パターン記憶部で記憶している標準パターンとのとの類似度を求めて認識結果を出力するパターン照合部とを備えていることを特徴とする音声認識装置。
【請求項3】
前記減算係数は、前記残響環境の伝達関数の1フレーム目の観測信号と所定フレーム目の観測信号のパワー比に所定の係数を乗じた値とすることを特徴とする請求項1又は2に記載の音声認識装置。
【請求項4】
減算に使用する前記過去の所定時間フレームが複数のフレームであって、各所定時間フレームに対応する信号に対して夫々の所定時間フレームに対応する所定の減算係数を乗じるとともに乗じた結果を加算して該加算結果を現在の時間フレームの観測信号から減算することを特徴とする請求項1乃至3の何れか記載の音声認識装置。
【請求項5】
前記減算処理部は、減算処理においてスムージングにより残響の揺らぎを緩和する機能を備えたことを特徴とする請求項1乃至4の何れか記載の音声認識装置。
【請求項6】
前記減算処理部は、前記推定信号の出力に対して前記過去の所定時間フレームを一つ用いる場合、減算処理を行う周波数帯毎又は周波数毎に前記過去の所定時間フレームを選択することを特徴とする請求項1乃至3の何れか記載の音声認識装置。
【請求項7】
残響環境下で捉えた音声の特徴量と、標準音声から作成した標準パターンとの類似度を求めて認識結果を得る音声認識方法であって、残響環境下で捉えた音声信号を周波数変換する過程と、周波数変換されて得られた現在の時間フレームの観測信号から、過去の所定時間フレームの観測信号に所定の減算係数を乗じて得られる信号を減算して推定信号を得る過程と、前記推定信号から音声の特徴量を抽出する過程と、該抽出した特徴量と前記標準パターンとの類似度から音声認識を行う過程とを有することを特徴とする音声認識方法。
【請求項8】
残響環境下で捉えた音声の特徴量と、標準音声から作成した標準パターンとの類似度を求めて認識結果を得る音声認識方法であって、残響環境下で捉えた音声信号を周波数変換する過程と、周波数変換されて得られた現在の時間フレームの観測信号から、過去の所定時間フレームに対応する所定の信号に所定の減算係数を乗じて得られる信号を減算して推定信号を得、且つ前記所定の信号に用いる信号として前記推定信号を記憶する過程と、前記推定信号から音声の特徴量を抽出する過程と、該抽出した特徴量と前記標準パターンとの類似度から音声認識を行う過程とを有することを特徴とする音声認識方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2006−72127(P2006−72127A)
【公開日】平成18年3月16日(2006.3.16)
【国際特許分類】
【出願番号】特願2004−257390(P2004−257390)
【出願日】平成16年9月3日(2004.9.3)
【出願人】(000005832)松下電工株式会社 (17,916)
【Fターム(参考)】