説明

ノイズパワー推定装置及びノイズパワー推定方法並びに音声認識装置及び音声認識方法

【課題】レベルに基づいたしきい値パラメータを必要とせず、ノイズ環境の変化に対して高いロバスト性を有する、ノイズパワー推定装置を提供する。
【解決手段】本発明による周波数スペクトルの成分ごとのノイズパワーを推定するノイズパワー推定装置であって、横軸がパワーの大きさのインデクスであり縦軸が累積頻度である、指数移動平均の重みをつけた累積ヒストグラムを、時系列入力信号の周波数スペクトルの成分ごとに生成する累積ヒストグラム生成部と、該時系列入力信号の周波数スペクトルの成分ごとに、該累積ヒストグラムからノイズパワーの推定値を求めるノイズパワー推定部と、を備えている。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ノイズパワー推定装置及びノイズパワー推定方法並びに音声認識装置及び音声認識方法に関する。
【背景技術】
【0002】
自然な人間・ロボット間の対話を実現するには、ノイズや残響が存在してもロボットが人間の音声を認識する必要がある。背景ノイズなどの障害による自動音声認識装置の性能劣化を避けるために、ロボットの音処理システムに多くの音声強調処理が適用されている(非特許文献1乃至4)。音声強調処理にはノイズスペクトル推定処理が必要である。
【0003】
たとえば、ノイズスペクトル推定にMCRA(Minima-Controlled Recursive Average)法が適用されている(引用文献5)。MCRAは最小レベルのスペクトルを追跡し、入力信号のエネルギと最小エネルギの比に基づいて、しきい値演算の後に、現在の入力信号が音声であるかそうではないか(ノイズであるか)判断する。このことは、MCRAがノイズスペクトルの最小レベルが変化しないことを暗に仮定していることを意味する。したがって、ノイズが定常状態ではなく、最小レベルが変化する場合には、しきい値パラメータを固定値に設定するのが困難である。さらに、MCRAにおいて非定常状態ノイズに対して微調整されたパラメータが適切に機能するとしても、他のノイズ、通常の定常状態ノイズに対してさえもうまく機能しない。
【0004】
このように、ノイズ環境の変化に対応して適切にパラメータを設定し、音声強調処理を行うのは困難であった。
【0005】
すなわち、レベルに基づいたしきい値パラメータを必要とせず、ノイズ環境の変化に対して高いロバスト性を有する、ノイズパワー推定装置及びノイズパワー推定方法並びに音声認識装置及び音声認識方法は開発されていない。
【先行技術文献】
【非特許文献】
【0006】
【非特許文献1】K. Nakadai, et.al., “An open source software system for robot audition HARK and its evaluation,” in 2008 IEEE-RAS Int’l. Conf. on Humanoid Robots(Humanoids2008).IEEE,2008.
【非特許文献2】J. Valin, et.al., “Enhanced robot audition based on microphone array source separation with post-filter,” in IROS 2004.IEEE/RSJ,2004,pp.2123-2128.
【非特許文献3】S. Yamamoto, et.al., “Making a robot recognize three simultaneous sentences in real-time,” in IROS2005. IEEE/RSJ, 2005,pp.897-892.
【非特許文献4】N. Mochiki, et.al., “Recognition of three simultaneous utterance of speech by four-line directivity microphone mounted on head of robot,” in2004 Int’l Conf. on Spoken Language Processing(ICSLP2004),2004,p.WeA1705o.4.
【非特許文献5】I. Cohen and B. Berdugo, “Speech enhancement for non-stationary noise environments,” Signal Processing, vol.81,pp.2403-2481,2001.
【発明の概要】
【発明が解決しようとする課題】
【0007】
したがって、レベルに基づいたしきい値パラメータを必要とせず、ノイズ環境の変化に対して高いロバスト性を有する、ノイズパワー推定装置及びノイズパワー推定方法並びに音声認識装置及び音声認識方法に対するニーズがある。
【課題を解決するための手段】
【0008】
本発明の第1の態様によるノイズパワー推定装置は、周波数スペクトルの成分ごとのノイズパワーを推定するノイズパワー推定装置であって、横軸がパワーの大きさのインデクスであり縦軸が累積頻度である、指数移動平均の重みをつけた累積ヒストグラムを、時系列入力信号の周波数スペクトルの成分ごとに生成する累積ヒストグラム生成部と、該時系列入力信号の周波数スペクトルの成分ごとに、該累積ヒストグラムからノイズパワーの推定値を求めるノイズパワー推定部と、を備えている。
【0009】
本態様によるノイズパワー推定装置は、時系列入力信号の周波数スペクトルの成分ごとに、移動平均の重みをつけた累積ヒストグラムからノイズパワーの推定値を求めるので、ノイズ環境の変化に対して高いロバスト性を有する。また、移動平均の重みをつけた累積ヒストグラムを使用するので、レベルに基づいたしきい値パラメータを必要としない。
【0010】
本発明の一つの実施形態によるノイズパワー推定装置は、第1の態様のノイズパワー推定装置であって、前記ノイズパワー推定部が、前記累積ヒストグラムにおいて累積頻度の最大値に対する所定の比率の累積頻度に対応するパワーの大きさをノイズパワーの推定値とする。
【0011】
本実施形態によれば、ノイズパワーに対応する累積頻度を、累積頻度の最大値に対する所定の比率から簡単に定めることができる。上記所定の比率は、たとえば目的とする音声の頻度を考慮することにより定めることができる。
【0012】
本発明の第2の態様による音声認識装置は、周波数スペクトルの成分ごとに、第1の態様または上記の実施形態のノイズパワー推定装置によって求めたノイズパワーの推定値を使用してスペクトル減算を行う。
【0013】
したがって、本態様による音声認識装置は、レベルに基づいたしきい値パラメータを必要とせず、ノイズ環境の変化に対して高いロバスト性を有する。
【0014】
本発明の第3の態様によるノイズパワー推定方法は、周波数スペクトルの成分ごとのノイズパワーを推定するノイズパワー推定方法である。本方法は、累積ヒストグラム生成部が、横軸がパワーの大きさのインデクスであり縦軸が累積頻度である、指数移動平均の重みをつけた累積ヒストグラムを、時系列入力信号の周波数スペクトルの成分ごとに生成するステップと、ノイズパワー推定部が、該時系列入力信号の周波数スペクトルの成分ごとに、該累積ヒストグラムからノイズパワーの推定値を求めるステップと、を含む。本方法は、上記二つのステップを繰り返すことによって連続的にノイズパワーを推定する。
【0015】
本態様によるノイズパワー推定方法は、時系列入力信号の周波数スペクトルの成分ごとに、移動平均の重みをつけた累積ヒストグラムからノイズパワーの推定値を求めるので、ノイズ環境の変化に対して高いロバスト性を有する。また、移動平均の重みをつけた累積ヒストグラムを使用するので、レベルに基づいたしきい値パラメータを必要としない。
【0016】
本発明の一つの実施形態によるノイズパワー推定方法は、第3の態様のノイズパワー推定方法であって、前記ノイズパワー推定部が、前記累積ヒストグラムにおいて累積頻度の最大値に対する所定の比率の累積頻度に対応するパワーの大きさをノイズパワーの推定値とする。
【0017】
本実施形態によれば、ノイズパワーに対応する累積頻度を、累積頻度の最大値に対する所定の比率から簡単に定めることができる。上記所定の比率は、たとえば目的とする音声の頻度を考慮することにより定めることができる。
【0018】
本発明の第4の態様による音声認識方法は、周波数スペクトルの成分ごとに、本発明の第3の態様または上記の実施形態のノイズパワー推定方法によって求めたノイズパワーの推定値を使用してスペクトル減算を行うステップを含む。
【0019】
したがって、本態様による音声認識方法は、レベルに基づいたしきい値パラメータを必要とせず、ノイズ環境の変化に対して高いロバスト性を有する。
【図面の簡単な説明】
【0020】
【図1】本発明の一実施形態による音声認識装置の構成を示す図である。
【図2】繰り返しノイズパワー推定部の構成を示す図である。
【図3】累積ヒストグラム生成部によって作成される累積ヒストグラムを説明するための図である。
【図4】繰り返しノイズパワー推定部の動作を説明するための流れ図である。
【図5】マイクロフォン及び音源の位置を示す図である。
【図6】定常ノイズ及び比定常ノイズに対するノイズ推定誤差を示す図である。
【図7】それぞれのノイズ条件の下での3システムによるWCRを示す図である。
【発明を実施するための形態】
【0021】
図1は、本発明の一実施形態による音声認識装置の構成を示す図である。音声認識装置は、音検出部100と、音源分離部200と、繰り返しノイズパワー推定部300と、スペクトル減算部400と、音特徴抽出部500と、音声認識部600と、を含む。
【0022】
音検出部100は、たとえばロボットに設置された、複数のマイクロフォンからなるマイクロフォンアレイなどである。
【0023】
音源分離部200は、線形音声強調処理を実施する。音源分離部200は、マイクロフォンアレイから音データを取得し、たとえば、幾何学的音源分離(Geometric Source Separation, GSS)と呼ばれる線形分離アルゴリズムを使用して音源を分離する。本実施形態においては、GSSを改良し。ステップ・サイズ適応技術を備えたGSS−ASという方法を使用した(H. Nakajima, et.al., “Adaptive step-size parameter control for real-world blind source separation,” in ICASSP2008.IEEE,2008,pp.149-
152.)。音源分離部200は、方向性を有する音源を分離することのできる、上記の構成以外のどのような構成によって実現してもよい。
【0024】
繰り返しノイズパワー推定部300は、音源分離部200によって分離された音源からの音の周波数スペクトルの成分ごとにノイズパワーを繰り返し推定する。繰り返しノイズパワー推定部300の構成及び機能の詳細については後で説明する。
【0025】
スペクトル減算部400は、音源分離部200によって分離された音源からの音の周波数スペクトルの成分から、繰り返しノイズパワー推定部300によって推定された周波数スペクトルの成分ごとにノイズパワーを減算する。スペクトル減算については、文献(I.CohenandB.Berdugo,“Speechenhancementfornon-stationarynoiseenvironments,”SignalProcessing,vol.81,pp.2403-2481,2001.)、(M.Delcroix,et.al.,“Staticanddynamicvariancecompensationforrecognitionofreverberantspeechwithdereverberationprocessing,”IEEETrans.onAudio,Speech,andLanguageProcessing,vol.17,no.2,pp.324-334,2009.)及び(Y.Takahashi,et.al.,“Real-timeimplementaionofblindspatialsubtactionarrayforhands-freerobotspokendialoguesystem,”inIROS2008.IEEE/RSJ,2008,pp.1687-1692.)に記載されている。スペクトル減算の代わりに最小二乗平均誤差法を使用してもよい(J.Valin,et.al.,“Enhancedrobotauditionbasedonmicrophonearraysourceseparationwithpost-filter,”inIROS2004.IEEE/RSJ,2004,pp.2123-2128.)、(S.Yamamoto,et.al.,“Makingarobotrecognizethreesimultaneoussentencesinreal-time,”inIROS2005.IEEE/RSJ,2005,pp.897-892.)。
【0026】
このように、繰り返しノイズパワー推定部300及びスペクトル減算部400は、非線形音声強調処理を実施する。
【0027】
音特徴抽出部500は、スペクトル減算部400の出力に基づいて音特徴を抽出する。
【0028】
音声認識部600は、音特徴抽出部500の出力に基づいて音声認識を行なう。
【0029】
繰り返しノイズパワー推定部300について説明する。
【0030】
図2は繰り返しノイズパワー推定部300の構成を示す図である。繰り返しノイズパワー推定部300は、累積ヒストグラム生成部301とノイズパワー推定部303とを含む。累積ヒストグラム生成部301は、横軸がパワーの大きさのインデクスであり縦軸が累積頻度である、移動平均の重みをつけた累積ヒストグラムを、時系列入力信号の周波数スペクトルの成分ごとに生成する。移動平均の重みをつけた累積ヒストグラムについては後で説明する。ノイズパワー推定部303は、入力信号の周波数スペクトルの成分ごとに、累積ヒストグラムからノイズパワーの推定値を求める。
【0031】
図3は、累積ヒストグラム生成部301によって作成される累積ヒストグラムを説明するための図である。図3の左側の図は、ヒストグラムを示す図である。横軸はパワーの大きさのインデクスであり縦軸は頻度である。図3の左側の図において、
【数1】

はパワーの最小レベルを表し、
【数2】

はパワーの最大レベルを表す。ロボットが動作しながら音声認識を行う場合には、ノイズは主にロボットのファンなどによる自己ノイズであり、目標とする信号は話者による音声である。このような場合に、一般的に、ノイズのパワーのレベルは、話者による音声のレベルよりも小さい。また、ノイズの頻度は、話者による音声の頻度に比較してかなり多い。図3の右側の図は、累積ヒストグラムを示す図である。横軸はパワーの大きさのインデクスであり縦軸は累積頻度である。図3の右側の図において、
【数3】

のxは累積ヒストグラムの縦軸方向の位置を示し、たとえば、
【数4】

は縦軸方向の50に対応するメディアン(中間値)を示す。ノイズのパワーのレベルは、話者による音声のレベルよりも小さく、また、ノイズの頻度は、話者による音声の頻度に比較してかなり多いので、図3の右側の図に示すように、所定の範囲のxに対応する
【数5】

の値は同じである。したがって、上記の所定の範囲のxを定め、
【数6】

を求めることによりノイズのパワーレベルを推定することができる。
【0032】
図4は、繰り返しノイズパワー推定部300の動作を説明するための流れ図である。ここで、流れ図の説明に使用する符号は以下のとおりである。
【数7】

【0033】
図4のステップS010において、累積ヒストグラム生成部301が入力信号のパワーを以下の式によってインデクスに変換する。
【数8】

【0034】
パワーからインデクスへの変換は、計算時間を削減するため変換テーブルを使用して行われる。
【0035】
図4のステップS020において、累積ヒストグラム生成部301が累積ヒストグラムを以下の式を使用して更新する。
【数9】

【0036】
ここで、αは時間減衰パラメータであり、時定数
【数10】

及びサンプリング周波数
【数11】

から以下の式によって定まる。
【数12】

このようにして作成された累積ヒストグラムは、データの古さにしたがって重みが小さくなるように構成されている。このような累積ヒストグラムを移動平均の重みをつけた累積ヒストグラムと呼称する。式(3)においては、全てのインデクスにαを乗じ、インデクス
【数13】

のみに(1−α)を加算する。実際の計算においては、計算時間を削減するため式(3)を計算せずに直接式(4)を計算する。すなわち、式(4)において、全てのインデクスにαを乗じ、
【数14】

から
【数15】

までのインデクスに(1−α)を加算する。さらに実際には、
【数16】

から
【数17】

までのインデクスに(1−α)の代わりに指数的に増分した値
【数18】

を加算することによって、全てのインデクスにαを乗じる処理を避けることができ、さらに計算時間が削減される。しかし、この方法は、
【数19】

を指数的に増加させる。したがって、
【数20】

が変数の最大値に近づいた際に、
【数21】

の大きさを正規化する処理が必要である。
【0037】
図4のステップS030において、ノイズパワー推定部303は、xに相当する累積ヒストグラムのインデクスを以下の式にしたがって求める。
【数22】

【0038】
ここで、argminは、 []内の値を最小値とするIであることを意味する。1から
【数23】

までの全てのインデクスについて式(5)の判定を行なう代わりに、前回検出されたインデクス
【数24】

から一方向の探索を行なうことによって計算時間が大幅に削減される。
【0039】
図4のステップS040において、ノイズパワー推定部303は、ノイズパワーの推定値を以下の式にしたがって求める。
【数25】

【0040】
図4に示した方法は5個のパラメータを使用する。最小パワーレベル
【数26】

、1ビンのパワーレベル幅
【数27】

及び累積ヒストグラムの最大インデクス
【数28】

は、ヒストグラムの範囲及び急峻度を定める。これらのパラメータは、入力信号の範囲をカバーするように定めれば、ノイズの推定値に影響しない。一般的な値は以下のとおりである。
【数29】

スペクトル成分の最大レベルは、96dB(1Pa)に正規化されるとした。
【0041】
x及びαは、ノイズ推定値に影響する主要なパラメータである。しかし、パラメータxは、ノイズパワーのレベルが安定していれば、ノイズパワーの推定値
【数30】

に敏感ではない。たとえば、図3において、xが30%から70%の範囲で変化しても、
【数31】

の値は変化しない。不安定なノイズに対して、ノイズパワーのレベルの範囲の推定レベルを定める。実際には、時間周波数領域において、音声の信号はまばらであるので、音声出現頻度は、ほとんどの場合、ノイズ出現頻度の20%よりも小さく、この値はSN比及び周波数と無関係である。したがって、パラメータxは、SN比または周波数ではなく、推定したいノイズのパワーのレベルのみに従って設定することができる。たとえば、音声出現頻度が20%であれば、中間値のノイズパワーのレベルに対して、x=40を設定し、最大値に対してx=80を設定する。
【0042】
時定数
【数32】

も、SN比または周波数にしたがって変化させる必要はない。時定数
【数33】

は、ヒストグラム計算の等価平均時間を制御する。時定数
【数34】

は、ノイズ及び音声の双方の長さに対して、十分大きい値に設定すべきである。質問及び回答のような一般的な繰り返し対話に対して、ほとんどの音声の発話期間は10秒よりも小さいので、時定数
【数35】

の一般的な値は10秒である。
【0043】
このように、パラメータをSN比または周波数に関係なく簡単に定めることができるのが本発明の大きな利点である。これに対して、たとえば、従来技術のMCRAは、ノイズ及び信号を区別するためのしきい値パラメータを必要とし、このパラメータは、周波数によって変化するSN比にしたがって調整する必要がある。
【0044】
実験
本発明によるノイズパワー推定装置を使用した音声認識装置の性能を確認するための実験について説明する。
【0045】
1)実験の設定
図5はマイクロフォン及び音源の位置を示す図である。SN比を制御し、真のノイズレベルを測定するために、ノイズ信号及びインパルス応答を測定し、静かな環境で記録した音声信号とともに入力信号を合成した。インパルス応答は、2台のスピーカ(S1及びS2)とともに、人間型ロボットの頭部に埋め込まれたマイクロフォンを使用して測定した。音源信号としてATR(国際電気通信基礎技術研究所)が作成したATR音素バランス単語(216語)から抽出した音声信号を使用した。このATR音素バランス単語は、それぞれのスピーカの216語を含む。定常ノイズとしてロボットノイズ(主にファンノイズ)を使用し、非定常ノイズとして音楽信号を使用した。全ての実験は、時間周波数領域で実施された。本発明の有効性を示すために、従来のMCRA法と比較した。
【0046】
表1は、音検出部100、本発明の実施形態による繰り返しノイズパワー推定部200及び従来のMCRA法のパラメータを示す。MCRA法のパラメータは、MCRA法の原論文(I. Cohen and B. Berdugo, “Speech enhancement for non-stationary noise environments,” Signal Processing, vol.81,pp.2403-2481,2001.)に記載されたものと同じである。
【表1】

【0047】
2)実験の結果
図6(a)は、定常ノイズに対するノイズ推定誤差を示す図である。図6(a)の横軸は時間(単位は秒)を示し、縦軸はノイズ推定誤差(単位はdB)を示す。図6(a)の実線は、本実施形態の繰り返しノイズパワー推定部による結果を示し、点線は、MCRAによる結果を示す。
【0048】
図6(b)は、非定常ノイズに対するノイズ推定誤差を示す図である。図6(b)の横軸は時間(単位は秒)を示し、縦軸はノイズ推定誤差(単位はdB)を示す。図6(b)の実線は、本実施形態の繰り返しノイズパワー推定部による結果を示し、点線は、MCRAによる結果を示す。
【0049】
図6(a)に示す定常ノイズの場合は、1秒経過後は、本実施形態による推定誤差もMCRAによる推定誤差も小さく両者の差はほとんどない。しかし、図6(b)に示す非定常ノイズに対して、本実施形態の推定誤差は、MCRAの推定誤差よりも2乃至5dB低く、本実施形態の収束速度は、MCRAの収束速度よりも大きい。これらの結果から、本実施形態の繰り返しノイズパワー推定部によるノイズ推定は、MCRAを使用したノイズ推定よりもノイズの環境変化に対してロバストであると判断される。
【0050】
本実施形態の繰り返しノイズパワー推定部をロボット音処理システム(K. Nakadai, et.al., “An open source software system for robot audition HARK and its evaluation,” in 2008 IEEE-RAS Int’l. Conf. on Humanoid Robots (Humanoids2008).IEEE, 2008.)によって評価した。上記音処理システムは、音源位置特定と、音声活動検出と、音声強調を統合したものである。ATR216単語及び自動音声認識用のJulius(A. Lee, et. al., “Julius-an open source real-time large vocabulary recognition engine,” in 7th European Conf. on Speech Communication and Technology, 2001, vol.3,pp.1691-1694.)を使用し、評価基準に語正答率(word correct rate, WCR)を使用した。自動音声認識の音モデルは、大きなデータ・コーパス日本語新聞記事文章(JNAS)に適用されたGSS−ASのみを使用して強調した音声を使用してトレーニングした。ベース・システム、MCRAシステム及び本実施形態のシステムの3システムについて評価を行なった。線形プロセスであるGSS−ASは、全てのシステムに適用される。ベース・システムは、非線形音声強調処理を含まないシステムである。MCRAシステムは、スペクトル減算(SS)及びMCRAに基づく非線形音声強調処理を使用するシステムである。本実施形態のシステムは、図1に示したシステムである。公正に比較を行なうために、MCRAに対して推定されたノイズパワーを拡大するゲインパラメータGを導入した。その他のパラメータは表1に示したものと同じである。実験的に定めた最良のパラメータとして、本実施形態に対してx=20%、MCRAに対してG=0.4を使用した。
【0051】
表2はノイズ条件を示す表である。ファン(定常ノイズ)及び音楽(非定常ノイズ)の2個のノイズタイプに対して、WCRを評価した。音声用及びノイズ用スピーカの位置は、図5に示すとおりである。
【表2】

入力データは236個の独立した発話であり、推定されるノイズは発話ごとに初期化した。ロボットシステムは、新たなスピーカが現れたときに新たな推定を行い、そのスピーカが消えたときに初期化を行なうので、スピーカが頻繁に変わる動的な環境が生成されたと考える。
【0052】
図7は、それぞれのノイズ条件の下での3システムによるWCRを示す図である。図7の横軸はノイズ条件を表し、縦軸はWCR[%]を表す。本実施形態のシステムは、ファン(定常ノイズ)及び音楽(非定常ノイズ)に対して、ベース・システム及びMCRAシステムよりも高いWCRを示す。
【符号の説明】
【0053】
100…音検出部、200…音源分離部、300…繰り返しノイズパワー推定部、400…スペクトル減算部、500…音特徴抽出部、600…音声認識部

【特許請求の範囲】
【請求項1】
周波数スペクトルの成分ごとのノイズパワーを推定するノイズパワー推定装置であって、
横軸がパワーの大きさのインデクスであり縦軸が累積頻度である、指数移動平均の重みをつけた累積ヒストグラムを、時系列入力信号の周波数スペクトルの成分ごとに生成する累積ヒストグラム生成部と、
該時系列入力信号の周波数スペクトルの成分ごとに、該累積ヒストグラムからノイズパワーの推定値を求めるノイズパワー推定部と、を備えたノイズパワー推定装置。
【請求項2】
前記ノイズパワー推定部が、前記累積ヒストグラムにおいて累積頻度の最大値に対する所定の比率の累積頻度に対応するパワーの大きさをノイズパワーの推定値とする請求項1に記載のノイズパワー推定装置。
【請求項3】
周波数スペクトルの成分ごとに、請求項1または2に記載のノイズパワー推定装置によって求めたノイズパワーの推定値を使用してスペクトル減算を行う音声認識装置。
【請求項4】
周波数スペクトルの成分ごとのノイズパワーを推定するノイズパワー推定方法であって、
累積ヒストグラム生成部が、横軸がパワーの大きさのインデクスであり縦軸が累積頻度である、指数移動平均の重みをつけた累積ヒストグラムを、時系列入力信号の周波数スペクトルの成分ごとに生成するステップと、
ノイズパワー推定部が、該時系列入力信号の周波数スペクトルの成分ごとに、該累積ヒストグラムからノイズパワーの推定値を求めるステップと、を含み、
上記二つのステップを繰り返すことによって連続的にノイズパワーを推定するノイズパワー推定方法。
【請求項5】
前記ノイズパワー推定部が、前記累積ヒストグラムにおいて累積頻度の最大値に対する所定の比率の累積頻度に対応するパワーの大きさをノイズパワーの推定値とする請求項4に記載のノイズパワー推定方法。
【請求項6】
周波数スペクトルの成分ごとに、請求項4または5に記載のノイズパワー方法によって求めたノイズパワーの推定値を使用してスペクトル減算を行うステップを含む音声認識方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2012−88404(P2012−88404A)
【公開日】平成24年5月10日(2012.5.10)
【国際特許分類】
【出願番号】特願2010−232979(P2010−232979)
【出願日】平成22年10月15日(2010.10.15)
【出願人】(000005326)本田技研工業株式会社 (23,863)
【Fターム(参考)】