マスク作成装置、雑音スペクトル推定装置及び音声認識装置

【課題】過去のフレームから未来のフレームに渡る時間スペクトルパターンを参照することによって、帯域の音声らしさを正しく推定できるマスク作成装置を提供することを目的とする。
【解決手段】音声入力部１は、音声信号を入力し分析フレームを生成する。帯域分析部２は、音声入力部１が生成した分析フレームの音声信号から帯域パワーを求める。遅延メモリ３は、帯域分析部２が求めた帯域パワーの時系列を記憶する。時間長探索部６１は、帯域パワーの時系列に基づいて、パターンの時間長を求める。時間長メモリ６２は、時間長を記憶する。音声らしさ推定部４は、帯域パワーの時系列及びパターンの時間長に基づいて、現在のフレームにおける帯域の音声らしさを推定する。そして、音声らしさに基づいてマスク出力５する。

【発明の詳細な説明】
【技術分野】
【０００１】
この発明は、入力された音声を分析し、目的周波数の帯域成分の音声らしさを推定するマスク作成装置と、マスク作成装置の出力するマスク値に基づいて雑音スペクトルを推定する雑音スペクトル推定装置、及び、入力された音声の尤度を算出する音声認識装置に関するものである。
【背景技術】
【０００２】
従来、雑音除去技術として、音声スペクトルから雑音スペクトルを引き去るスペクトルサブトラクション法が知られている（例えば、非特許文献１、非特許文献２参照）。音声スペクトルから引き去るべき雑音抑圧量は、雑音スペクトルに雑音抑圧係数αを掛けて求められる。
ここで、雑音抑圧係数αを求める技術としては、入力スペクトルと雑音スペクトルのＳＮ比から求める技術（例えば、特許文献１参照）や、ＳＮ比と音声信号と雑音の位相差に基づいて求める技術（例えば、特許文献１参照）、現在の入力スペクトルと雑音の平均値だけでなく雑音の標準偏差に基づいて求める技術（例えば、特許文献２参照）等が公開されている。
【０００３】
一方、雑音スペクトルを求める技術としては、定常的な雑音の場合、音声区間直前の非音声区間の入力スペクトルを平均して雑音スペクトルを求める技術（例えば、非特許文献３参照）や、非定常な雑音の場合や音声区間検出を陽に行わない場合、過去及び現在の入力スペクトルに基づいて雑音スペクトルを逐次更新する技術等が公開されている。ここで、後者の雑音スペクトルを逐次更新する技術としては、帯域毎に、過去のスペクトル値を保存しておき、保存されたスペクトル値の最小値を雑音スペクトルとして更新する技術（例えば、特許文献１、特許文献３、特許文献４、非特許文献４参照）や、入力スペクトルの雑音らしさ（或いは音声らしさ）を求め、雑音らしさが大きい（或いは音声らしさが小さい）とき、入力スペクトルに近づくように雑音スペクトルを修正する技術（例えば、特許文献５参照）が公開されている。
【０００４】
なお、入力スペクトルの雑音らしさ（或いは音声らしさ）を求める技術として、音声信号の分析で得られる特徴量（例えば、自己相関係数の正のピーク値とローパス残差信号のパワーとフレームパワー）から求める技術（例えば、特許文献５参照）や、入力スペクトルの形状を解析して求める技術（例えば、特許文献６参照）が公開されている。
【０００５】
スペクトルサブトラクション法以外の雑音除去技術としては、音声を周波数分析して時間スペクトルパターンを求め、時間軸上でパターンとして連続するフレーム数が所定数に満たない場合や、周波数軸上でパターンとして連続して現れたチャネル数が所定数に満たないとき、該当する部分のパターンを除去する技術（例えば、特許文献７参照）が公開されている。この場合、時間スペクトル上の孤立したパターンを雑音によるものとして除去していると解釈される。
【０００６】
また、上記以外の耐雑音技術として、音声認識の分野で、音声を帯域分析し、音声成分が支配的な帯域の音声らしさの信頼度を１、雑音成分が支配的な帯域の音声らしさの信頼度を０とするマスクを作成し、このマスクの有する音声らしさの信頼度１の帯域成分だけに基づいて入力音声を識別する技術（例えば、非特許文献５参照）が公開されている．ここで、マスクの音声らしさの信頼度を求める技術としては、帯域ごとのＳＮ比に基づく技術（例えば、非特許文献５参照）や、入力スペクトルの特徴量を識別機に通して求める技術（例えば、非特許文献６参照）が公開されている。
【０００７】
【特許文献１】特開２００３−４４０８６号公報
【特許文献２】特開２００３−３１６３８１号公報
【特許文献３】特許３４９９１１３号公報
【特許文献４】特開２００２−２５８８９３号公報
【特許文献５】特開２００２−３６６２００号公報第３頁
【特許文献６】特開２００４−３４１３３９号公報
【特許文献７】特開平２−２７８２９９号公報
【非特許文献１】“Suppression of acoustic noise in speech using spectral subtraction”， IEEE Trans. ASSP， Vol.27 No.2， Apr.1979
【非特許文献２】“Experiments with a nonlinear spectral subtractor （NSS）， hidden Markov models and the projection， for robust speech recognition in cars”， Speech Communication 11（1992）215-228
【非特許文献３】“スペクトルサブトラクションと時間方向スムージングを用いた雑音環境下音声認識”，電子情報通信学会論文誌D-II， Vol.J85-D-II， 2000年2月 504頁
【非特許文献４】“A multidimensional robust front-end feature extraction with a noise reduction procedure based on improved spectral subtraction algorithm”， Eurospeech2001， pp.197-200
【非特許文献５】“Robust automatic speech recognition with missing and unreliable acoustic data”， Speech Communication 34（2001）267-285
【非特許文献６】“Classifier-based mask estimation for missing feature methods of robust speech recognition”， ICSLP2000， pp.III-538-541
【発明の開示】
【発明が解決しようとする課題】
【０００８】
従来のマスク作成装置は、過去のフレーム或いは現在のフレームの入力スペクトルに基づいて、帯域の音声らしさを推定していたので、未来のフレームに渡る時間スペクトルパターンを参照しないと音声が支配的か雑音が支配的か判断がつかないような帯域の音声らしさを正しく推定できないという課題があった。
また、従来のマスク作成装置は、背景音楽等による継続時間の長い狭帯域雑音の音声らしさを誤って大きい値として推定するという課題があった。
更に、従来のマスク作成装置は、背景に音楽等の雑音パワーの時間的な変化が激しい雑音が存在すると、雑音スペクトルの更新が追随することができない。その結果、音声成分が支配的である帯域を検出できず、音声らしさを誤って小さい値として推定するという課題があった。
【０００９】
この発明は上記のような課題を解消するためになされたもので、過去のフレームから未来のフレームに渡る時間スペクトルパターンを参照することによって、未来のフレームに渡る時間スペクトルパターンを参照しないと判断がつかないような帯域の音声らしさを正しく推定できるマスク作成装置を提供することを目的とする。
【課題を解決するための手段】
【００１０】
この発明に係るマスク作成装置は、入力音声を分析し、前記入力音声に含まれる帯域成分を求める帯域分析部と、前記帯域分析部で求められた前記帯域成分を記憶する遅延メモリと、目的の時刻における目的の周波数を含む目的の帯域成分の周辺に存在する、前記目的の時刻より未来の時刻における目的の周波数と同一または異なる周波数を含む帯域成分を参照し、前記目的の帯域成分の音声らしさを推定する音声らしさ推定部とを備えたマスク作成装置。
【発明の効果】
【００１１】
この発明によれば、前記遅延メモリに記憶された、前記目的の時刻に対して過去から未来に渡る帯域成分の時系列を参照して、前記目的の帯域成分の音声らしさを推定するように構成されているので、前記目的の帯域成分の音声らしさを正確に推定することができる。
【発明を実施するための最良の形態】
【００１２】
実施の形態１．
以下、この発明の実施の形態１について説明する。図１は、この発明の実施の形態１に係るマスク作成装置を示す構成図である。
図１において、音声入力部１は、音声信号を入力し分析フレームを生成する。
帯域分析部２は、音声入力部１が生成した分析フレームの音声信号に対して時間窓を掛けてＦＦＴにより周波数スペクトルを求め、帯域パワー（帯域成分）を求める。
遅延メモリ３は、帯域分析部２が求めた帯域パワーの時系列を記憶する。
時間長探索部６１は、遅延メモリ３に記憶された帯域パワーの時系列に基づいて、パターンの時間長を探索し、時間長を求める。
時間長メモリ６２は、時間長探索部６１が求めた時間長を記憶する。
音声らしさ推定部４は、遅延メモリ３に記憶された帯域パワーの時系列及び時間長メモリに記憶されたパターンの時間長に基づいて、現在のフレームｔにおける周波数ｋの帯域の音声らしさψ（ｔ，ｋ）を推定する。そして、音声らしさψ（ｔ，ｋ）に基づいて、マスク値ｍ（ｔ，ｋ）を出力する（マスク出力５）。
【００１３】
次に、動作について説明する。帯域分析部２は、音声入力部１が作成した長さＬ（例えば２５６点）のフレームｔの音声信号にハミングの時間窓を掛け、Ｎ点（Ｎは例えば２５６）のＦＦＴを実行し、周波数スペクトルを求める。そして、周波数スペクトル（Ｒ（ｋ），Ｉ（ｋ））から生の帯域パワーＥ（ｋ）を求める。生の帯域パワーＥ（ｋ）は、周波数スペクトルの実数部Ｒ（ｋ）と虚数部Ｉ（ｋ）のそれぞれの２乗の和として求める。ここで、ｋは周波数である。実数数列のパワースペクトルはＮ／２を中心に対称となるため、以下、０，．．．Ｎ／２の範囲の周波数のみを処理の対象とする。
【００１４】
平滑化部８１は、帯域分析結果の特定の周波数ｋの生の帯域パワーＥ（ｔ，ｋ）をフレーム方向に平滑化する。平滑化は例えば、数式１の非線形フィルタを用い、ピークの包絡を保存した平滑パターンを出力する。平滑化された帯域パワーは遅延メモリ３のセルＹ（ｔ，ｋ）に記憶される。
【数１】

遅延メモリ３は、ｔ−Ｔ１からｔ＋Ｔ２までのフレームの帯域パワーＹ（ｔ’，ｋ’）（ｔ’＝ｔ−Ｔ１，．．．ｔ＋Ｔ２）を記憶する。なお、Ｔ２はＴ４より大きい値に設定されている。Ｔ４は時間長の閾値とする。
【００１５】
図２は、図１中の遅延メモリ３に記憶された帯域パワーの時間周波数パターンを模式的に示した図である。図２において、帯域パワーの時系列パターンＡは、音楽による狭帯域雑音のパターンでＴ４を超える時間長Ｔａを有する。また、帯域パワーの時系列パターンＢは、音声のパターンでＴ４より短い時間長Ｔｂを有する。同様に帯域パワーの時系列パターンＣも音声のパターンでＴ４より短い時間長Ｔｃを有する。また、ｔ０はパターンＡ及びパターンＢの開始フレームを示し、ｔは音声らしさψ（ｔ，ｋ）を求める現在のフレームの位置を示し、ｔ−Ｔ１は遅延メモリ３に記憶された最も過去のフレームを示し、ｔ＋Ｔ２は遅延メモリに記憶された最新のフレームの位置を示す。
【００１６】
図３は、図２に示したパターンについて、遅延メモリ３に記憶された特定の帯域ｋ１及び帯域ｋ２における帯域パワーの時系列Ｙ（ｔ，ｋ１）、Ｙ（ｔ，ｋ２）を模式的に示した図である。図３において、θは帯域パワーの閾値を示し、従来の方法では、θより高い帯域パワーは音声の成分と判断されていたものである。このため、θ以下の時間パターンの形状は図３では割愛して示している。なお、θは別の実施の形態で後述するようにフレームｔと周波数ｋの関数θ（ｔ，ｋ）として求めることができる。ここでは、説明の便宜上、周波数ｋの帯域のノイズレベルよりもδ（例えば、６ｄＢ）だけ高い値に設定されているものとする。
【００１７】
以下、図３を用いて帯域ｋ１と帯域ｋ２の処理について説明する。先ず、帯域ｋ１の時系列パターンの処理について説明する。時間長探索部６１は、帯域ｋ１について、フレームｔ’をフレームｔから過去の方向にフレームｔ−Ｔ１まで帯域パワーＹ（ｔ’，ｋ１）を探索し、帯域パワーＹ（ｔ’，ｋ１）が閾値θ未満となるか、フレームｔ’がｔ−Ｔ１に達するまで、帯域パワー時系列（この例ではパターンＢ）の開始フレームｔ０を探す。
【００１８】
次に、探索された開始フレームｔ０から、フレーム数のカウンタｃを０に設定して、未来のフレームｔ０＋Ｔ４までカウンタｃを進める。カウンタｃを進める途中でもし帯域パワーＹ（ｔ０＋ｃ，ｋ１）が閾値θ未満となるかｔ０＋Ｔ４に達した時、カウンタｃの値を時間長メモリ６２のセルｄ（ｔ，ｋ１）に記憶する（この例では、ｔ０＋ＴｂでパターンＢが終了しているのでセルｄ（ｔ，ｋ１）の値はＴｂとなる）。
【００１９】
時間長探索部６１の動作の後、音声らしさ推定部４は、帯域ｋ１について、時間長メモリ６２のセルｄ（ｔ，ｋ１）に記憶された時間長の値を調べ、時間長（Ｔｂ）がＴ４未満のとき、帯域パワーＹ（ｔ，ｋ１）は音声パターンの一部であると判定し、帯域パワーＹ（ｔ，ｋ１）の音声らしさψ（ｔ，ｋ１）を大きい値１とする。
【００２０】
次に、帯域ｋ２の時系列パターンの処理について説明する。時間長探索部６１は、帯域ｋ２について、先ず、フレームｔ’をフレームｔから過去の方向にフレームｔ−Ｔ１まで帯域パワーＹ（ｔ’，ｋ２）を探索し、帯域パワーＹ（ｔ’，ｋ２）が閾値θ未満となるか、フレームｔ’がｔ−Ｔ１に達するまで、帯域パワー時系列（この例ではパターンＡ）の開始フレームｔ０を探す。
【００２１】
次に、探索された開始フレームｔ０から、フレーム数のカウンタｃを０に設定して、未来のフレームｔ０＋Ｔ４までカウンタｃを進める。カウンタｃを進める途中で帯域パワーＹ（ｔ０＋ｃ，ｋ２）が閾値θ未満となるかカウンタｃがＴ４に達したとき、カウンタｃの値を時間長メモリ６２のセルｄ（ｔ，ｋ２）に記憶する（この例ではｔ＋Ｔ４までにパターンは終了しないのでカウンタｃの値はＴ４となる）。
【００２２】
時間長探索部６１の動作の後、音声らしさ推定部４は、帯域ｋ２について、時間長メモリ６２のセルｄ（ｔ，ｋ２）に記憶された時間長を調べる。時間長（Ｔ４）がＴ４以上なので、帯域パワーＹ（ｔ，ｋ１）は雑音パターン（この例では帯域パターンＡ）の一部であると判定し、音声らしさψ（ｔ，ｋ１）を小さい値０とする。
【００２３】
以上の動作に引き続いて、音声らしさ推定部４は、周波数ｋの帯域の音声らしさψ（ｔ，ｋ）をマスクとして出力する（マスク出力５）。図４は、図１中のマスク出力５の時間周波数パターンを模式的に示した図である。図４において、パターンＡは雑音と判定されマスク値は０となる。また、パターンＢやパターンＣは音声成分と判定されマスク値は１となる。従来の未来のフレームを用いない方法では、パターンＡも音声成分と判断され、そのマスク値は誤って１となるが、実施の形態１によれば、パターンＡは雑音成分と判定され、そのマスク値を０とすることができる。
【００２４】
以上のように、この実施の形態１によれば、遅延メモリ３に記憶された過去のフレームｔ−Ｔ１から未来のフレームｔ＋Ｔ４に渡る帯域パワーの時系列Ｙ（ｔ’，ｋ）を参照して、フレームｔ、帯域ｋの音声らしさψ（ｔ，ｋ）を算出するように構成されているので、未来のフレームを参照しないとわからないような音声らしさを推定できるマスク作成装置を提供することができる。
【００２５】
実施の形態２．
以下、この発明の実施の形態２について説明する。実施の形態１では、雑音と音声の判別に用いる時間長の閾値Ｔ４を一定の値としたものであるが、実施の形態２では、時間長の閾値Ｔ４を周波数ｋの関数としたものである。図５は、この発明の実施の形態２において、数式２で与えられる時間長の閾値を表す関数ｆ（ｋ）の特性を示した図である。実施の形態２に係るマスク作成装置は、実施の形態１（図１）と同様であるので説明を省略する。
【００２６】
実施の形態２では、実施の形態１で所定の値であるとしたＴ４を周波数ｋの関数ｆ（ｋ）としている。関数ｆ（ｋ）は、例えば、数式２で与えられる周波数ｋの関数で、図５に示す特性を有しており、周波数Ｋ２（例えば、４ＫＨｚ）以上の高域ではＴ４（例えば、２５０ｍｓ）、周波数Ｋ１（例えば、３ＫＨｚ）以下の低域ではＴ４＋Ｔ５（例えば、２５０ｍｓ＋２５０ｍｓ）で、周波数Ｋ１からＫ２の範囲では、直線的に変化する。
【数２】

【００２７】
図６は、周波数ｋ１にＴ４以上長く続く音声のパターンＤを示した図である。図６において、実施の形態１では、音声のパターンＤは時間長がＴ４以上であるので、誤って雑音のパターンと判断され、そのマスク値は０として出力される。一方、実施の形態２によれば、パターンＤの時間長が周波数ｋ１における閾値ｆ（ｋ１）＝Ｔ４＋Ｔ５より短いので、パターンＤは音声のパターンと正しく判定することができる。また、高域に存在する周波数ｋ２のパターンＡは、時間長が閾値ｆ（ｋ２）＝Ｔ４以上あるので正しく雑音パターンと判定され、マスク値０が出力される。図７は、図１中のマスク出力５の時間周波数パターンを模式的に示した図である。
【００２８】
以上のように、この実施の形態２によれば、周波数の高い高域では実施の形態１と同じ時間長Ｔ４で判定し、周波数の低い低域ではＴ４より長い時間長Ｔ４＋Ｔ５で判定するので、低域で音声の時系列パターンが長く続く場合、誤って、雑音と判断することがないマスク作成装置を提供することができる。
【００２９】
実施の形態３．
以下、この発明の実施の形態３について説明する。実施の形態１、２では、雑音と音声の判別に用いる時間長の閾値Ｔ４を所定の値や周波数の関数としたものであるが、実施の形態３では、雑音と音声の判別に帯域幅の閾値を用いるものである。図８は、この発明の実施の形態３に係るマスク作成装置を示す構成図である。図８において、図１の構成に帯域幅探索部７１、帯域幅メモリ７２が追加されている。その他の構成は実施の形態１（図１）と同様であるので説明を省略する。
【００３０】
図９は、図８中の遅延メモリ３に記憶された帯域パワーの時間周波数パターンを模式的に示した図である。図９において、パターンＡは帯域幅がＢａの音楽による狭帯域雑音である。また、パターンＥは帯域幅がＢｅである音声によるパターンである。いずれも、時間長はＴ４より大きいため、実施の形態１、２では、両者が雑音パターンと判定される。
【００３１】
次に、動作について説明する。図１０は、図９に示した時間周波数パターンのフレームｔにおける帯域の周波数パターンを模式的に示した図である。あるフレームｔの特定の周波数ｋ３において、帯域幅探索部７１は、周波数ｋ’を周波数ｋ３から周波数の低い０の方に向けて、帯域パワーＹ（ｔ，ｋ’）を探索し、帯域パワーＹ（ｔ，ｋ’）が閾値θ未満となる周波数ｋ０を探索し、カウンタｃを０に設定し、今度は周波数ｋ’を周波数ｋ０から周波数の高い方にカウンタｃを進め、帯域パワーＹ（ｔ，ｋ’）を探索し、帯域パワーＹ（ｔ，ｋ’）が閾値θ未満となるときのカウンタｃの値（この例では周波数パターンＥの帯域幅であるＢｅ）を帯域幅メモリ７２のセルＢ（ｔ，ｋ３）に記憶する。
【００３２】
帯域幅探索部７１の上記の動作の後、音声らしさ推定部４は、周波数ｋ３において、帯域幅メモリ７２のセルＢ（ｔ，ｋ３）に記憶された帯域幅（Ｂｅ）が所定の帯域幅の閾値Ｂ４より大きいので、帯域パワーＹ（ｔ，ｋ３）を音声成分と判定し、音声らしさψ（ｔ，ｋ３）として、大きい値１を出力する。
【００３３】
同様に、あるフレームｔの特定の周波数ｋ２において、帯域幅探索部７１は、周波数ｋ’を周波数ｋ２から周波数の低い０の方に向けて、帯域パワーＹ（ｔ，ｋ’）を探索し、帯域パワーＹ（ｔ，ｋ’）が閾値θ未満となる周波数ｋ４を探索し、カウンタｃを０に設定し、今度は周波数ｋ’を周波数ｋ４から周波数の高い方にカウンタを進め、帯域パワーＹ（ｔ，ｋ’）を探索し、帯域パワーＹ（ｔ，ｋ’）が閾値θ未満となるときのカウンタの値（この例では周波数パターンＡの帯域幅であるＢａ）を帯域幅メモリ７２のセルＢ（ｔ，ｋ２）に記憶する。
【００３４】
帯域幅探索部７１の上記の動作の後、音声らしさ推定部４は、周波数ｋ２において、帯域幅メモリ７２のセルＢ（ｔ，ｋ２）に記憶された帯域幅（Ｂａ）が帯域幅の閾値Ｂ４より小さく、かつ、時間長メモリ６２のセルｄ（ｔ，ｋ２）が判定閾値Ｔ４より長いので、帯域パワーＹ（ｔ，ｋ２）を雑音成分と判定し、音声らしさψ（ｔ，ｋ２）として、小さい値０を出力する。
【００３５】
以上のように、この実施の形態３によれば、実施の形態１、２では時間長が長いため音声と判定することができなかった、帯域幅の広い時間周波数パターンに含まれる帯域パワーを音声成分と正しく判定し、大きいマスク値を出力することができる。
【００３６】
実施の形態４．
以下、この発明の実施の形態４について説明する。実施の形態１〜３では、閾値θは過去のフレームの雑音レベル等から決定するものであるが、実施の形態４では、閾値を未来の帯域パワーも用いて決定するものである。図１１は、この発明の実施の形態４に係るマスク作成装置を示す構成図である。図１１において、図８の構成に最大値／最小値探索部８３、閾値算出部８４が追加されている。その他の構成は実施の形態３（図８）と同様であるので説明を省略する。
【００３７】
図１２は、図１１中の遅延メモリ３に記憶された周波数ｋの帯域パワーの時間パターンを模式的に示した図である。図１２において、フレームｔｎ付近から以降のフレームで雑音が重畳し、パターンの振幅の下側に見られるように雑音レベルが増大していることを示している。
【００３８】
最大値／最小値探索部８３は、特定の帯域ｋについて、遅延メモリ３のセルＹ（ｔ’，ｋ）をフレームｔ’について探索し、現在のフレームｔを基準に過去ｔ−Ｔ１フレームまでの範囲の過去の最小値ｍｉｎ１と最大値ｍａｘ１、及び、過去ｔ−Ｔ３フレームまでの第２の過去の最小値ｍｉｎ３と最大値ｍａｘ３、更に、未来ｔ＋Ｔ２フレームまでの範囲の未来の最小値ｍｉｎ２と最大値ｍａｘ２を求める。
【００３９】
閾値算出部８４は、第２の過去の最大値と最小値の差（ｍａｘ３−ｍｉｎ３）より未来の最大値と最小値の差（ｍａｘ２−ｍｉｎ２）が小さいので、差の小さい方（ｍａｘ２−ｍｉｎ２）に基づくフレームｔの閾値θ（ｔ，ｋ）を算出する。例えば、数式３によって、フレームｔの閾値θ（ｔ，ｋ）を算出する。なお、数式３において、Ｒｍｉｎ（例えば、数値７．５（単位ｄＢ））は閾値を適応的に求める場合の最大値と最小値の差の下限であり、最大値と最小値の差がＲｍｉｎを下回るときは、最大値と最小値の差としてＲｍｉｎを用いる。また、ｒ０（例えば数値０．４０）は最大値と最小値のどの付近に閾値を設けるかを決める数であり、この例では最小値に近い方に閾値を算出している。
【数３】

【００４０】
図１２には、従来の閾値と、本発明（実施の形態４）の閾値が図示の全フレームについて示してある。従来の過去のフレームの最小値と最大値に基づく閾値では、フレームｔｓにおいて若干閾値が上昇するだけであり、それ以前のフレームｔｎにおいては小さい値のままであるため、重畳雑音成分が誤って音声として検出されてしまう。それに対して、実施の形態４による閾値はフレームｔｓよりＴ２だけまえのフレームｔｓ−Ｔ２において、上昇するため、フレームｔｎより開始する重畳雑音を誤って検出することはなく、しかも、フレームｔとフレームｔｓの間で開始する音声を正しく検出する様子が示されている。
【００４１】
図１３は、少なくともｔ−Ｔ１からこれまで存在した雑音がフレームｔｎｅ以降でなくなる場合を模式的に示した図である。図１３の場合、フレームｔにおいて、第２の過去の最大値と最小値の差（ｍａｘ３−ｍｉｎ３）の方が未来の最大値と最小値の差（ｍａｘ２−ｍｉｎ２）より小さいので、差の小さい方を用いる数式４を用いて、閾値を算出する。
【数４】

【００４２】
図１３には、従来の過去の最小値と最大値に基づく閾値と、実施の形態４による閾値が図示の範囲の全フレームについて示してある。従来の閾値では、重畳雑音成分が音声として検出されるが、実施の形態４による閾値では音声の時間パターンだけが音声として検出される様子が示されている。
【００４３】
以上のように、この実施の形態４によれば、遅延メモリに記憶された未来のフレームの帯域パワーの最大値と最小値に基づいて、現在のフレームの閾値を適応的に求めているので、雑音レベルが途中で上昇する場合でも、雑音を誤って音声として検出することがなく、音声を正しく検出することができる正確なマスク作成装置を提供することができる。
【００４４】
実施の形態５．
以下、この発明の実施の形態５について説明する。実施の形態５では、実施の形態４で得られた最小値ｍｉｎと最大値ｍａｘを用いて、マスク値ｍ（ｔ，ｋ）を数式５のように算出する。図１４は、この発明の実施の形態５に係るマスク作成装置を示す構成図である。
【００４５】
図１４において、マスク値変換部８６は、最大値／最小値探索部８３の内部で得られる最小値ｍｉｎと最大値ｍａｘを用いて、マスク値ｍ（ｔ，ｋ）を数式５のように算出する。ここで、数式５中のｒ（ｔ，ｋ）は、正規化ＳＮ比算出部８５により算出され、数式６で示される正規化された局所ＳＮ比である。また、ｒ１とｒ２はマスク値として、０と１の中間の値を出力するあいまい性を許す範囲である。例えば、数式３、４のｒ０（例えば０．４０）を中心として、ｒ１＝０．３、ｒ２＝０．６と設定する。
【数５】

【数６】

図１５は、数式５を正規化された局所ＳＮ比ｒ（ｔ，ｋ）の関数として模式的に示した図である。
【００４６】
以上のように、この実施の形態５によれば、実施の形態４のような閾値θと帯域パワーの比較でマスク値を０，１で出力するよりも、ｒ１とｒ２の範囲にある帯域パワーについて０と１の中間のマスク値を出力できるので、閾値付近の帯域パワーが上下に連続する場合に見られる判定誤りのバタつきをより滑らかにすることができる。
【００４７】
実施の形態６．
以下、この発明の実施の形態６について説明する。実施の形態１〜５は、マスク作成装置の性能改善に関するものであるが、実施の形態６では、以上示したマスク作成装置を雑音スペクトル推定装置に応用する。図１６は、この発明の実施の形態６に係る雑音スペクトル推定装置を示す構成図である。図１６の各構成のうち、図１と重複する構成については同様であるので説明を省略する。
【００４８】
図１６において、雑音スペクトル更新部１０は、遅延メモリ３に記憶された帯域パワーＥ（ｔ，ｋ）を参照し、数式７を用いて雑音スペクトルＮ（ｔ，ｋ）を更新して、推定した雑音スペクトルを出力する（推定雑音スペクトル出力１１）。ここで、ｍ（ｔ，ｋ）は音声らしさ推定部４が出力するマスク値、αは更新係数である。更新係数αが大きいほど、Ｎ（ｔ，ｋ）を帯域パワーＹ（ｔ，ｋ）に近づける作用がある。
【数７】

【００４９】
数式７によって、マスク値ｍ（ｔ，ｋ）が大きい値（即ち１に近い値）であると、帯域パワーＹ（ｔ，ｋ）は音声成分が強いので、１−ｍ（ｔ，ｋ）は小さい値（即ち０に近い値）となり、Ｎ（ｔ，ｋ）はわずかしか更新されない。一方、マスク値ｍ（ｔ，ｋ）が小さい値（即ち０に近い値）であると、帯域パワーＹ（ｔ，ｋ）は雑音成分が強いので、１−ｍ（ｔ，ｋ）は大きい値（即ち１に近い値）になり、Ｎ（ｔ，ｋ）は大きく更新される。
【００５０】
以上のように、この実施の形態６によれば、前述のような音声成分と雑音成分の判定精度の高いマスク作成装置の出力するマスク値を用いて雑音スペクトルを更新しているので、従来よりも、精度の高い雑音スペクトルを推定することができる。
【００５１】
実施の形態７．
以下、この発明の実施の形態７について説明する。実施の形態１〜５は、マスク作成装置の性能改善に関するものであるが、実施の形態６では、以上示したマスク作成装置を音声認識装置に応用する。図１７は、この発明の実施の形態７に係る音声認識装置を示す構成図である。図１７の各構成のうち、図１と重複する構成については同様であるので説明を省略する。
【００５２】
図１７において、ＨＭＭパラメータメモリ１２にはＨＭＭの分散パラメータが記憶されている。ＨＭＭの分散パラメータとは、特定の音素ｐの学習データから得られる帯域パワーの周波数パターンのＭ個の混合分布の平均μ（ｋ，ｍ）、標準偏差σ（ｋ，ｍ）、分岐確率λ（ｍ）の各パラメータである。ここで、ｋは周波数、ｍは混合分布のインデックスである。
【００５３】
ＨＭＭ尤度計算部１３は、遅延メモリ３からフレームｔの帯域パワーの周波数パターンＹ（ｔ，ｋ）を取得するとともに、音声らしさ推定部４からマスクｍ（ｔ，ｋ）を取得し、例えば、数式８に基づいて、特定の音素ｐの尤度を計算する。ＨＭＭ尤度計算部１３は、計算した特定音素ｐの尤度を出力する（ＨＭＭ尤度出力１４）。
【数８】

【００５４】
数式８により、マスクｍ（ｔ，ｋ）が大きい値（即ち１に近い値）であるときは、帯域パワーＹ（ｔ，ｋ）は音声成分である可能性が高いので、従来のガウス分布の計算式に近づく。一方、マスクｍ（ｔ，ｋ）が小さい値（即ち０に近い値）であるときは、帯域パワーＹ（ｔ，ｋ）が雑音成分である可能性が高いので、等価的に標準偏差をσ（ｋ，ｍ）×εとして大きくしたのと同じ計算式に近づく。εはマスクｍ（ｔ，ｋ）が１のときの標準偏差の拡大率（例えば１．５）である。
【００５５】
以上のように、この実施の形態７によれば、前述のような音声成分と雑音成分の判定精度の高いマスク作成装置の出力するマスク値を用いて、ＨＭＭの尤度計算を行うので、従来よりも、雑音下における精度の高い音声認識装置を提供することができる。
【図面の簡単な説明】
【００５６】
【図１】この発明の実施の形態１に係るマスク作成装置を示す構成図である。
【図２】図１中の遅延メモリ３に記憶された帯域パワーの時間周波数パターンを模式的に示した図である。
【図３】図２に示したパターンについて、遅延メモリ３に記憶された特定の帯域ｋ１及び帯域ｋ２における帯域パワーの時系列Ｙ（ｔ，ｋ１）、Ｙ（ｔ，ｋ２）を模式的に示した図である。
【図４】図１中のマスク出力５の時間周波数パターンを模式的に示した図である。
【図５】この発明の実施の形態２において、数式２で与えられる時間長の閾値を表す関数ｆ（ｋ）の特性を示した図である。
【図６】周波数ｋ１にＴ４以上長く続く音声のパターンＤを示した図である。
【図７】図１中のマスク５の時間周波数パターンを模式的に示した図である。
【図８】この発明の実施の形態３に係るマスク作成装置を示す構成図である。
【図９】図８中の遅延メモリ３に記憶された帯域パワーの時間周波数パターンを模式的に示した図である。
【図１０】図９に示した時間周波数パターンのフレームｔにおける帯域の周波数パターンを模式的に示した図である。
【図１１】この発明の実施の形態４に係るマスク作成装置を示す構成図である。
【図１２】図１１中の遅延メモリ３に記憶された周波数ｋの帯域パワーの時間パターンを模式的に示した図である。
【図１３】少なくともｔ−Ｔ１からこれまで存在した雑音がフレームｔｎｅ以降でなくなる場合を模式的に示した図である。
【図１４】この発明の実施の形態５に係るマスク作成装置を示す構成図である。
【図１５】数式５を正規化された局所ＳＮ比ｒ（ｔ，ｋ）の関数として模式的に示した図である。
【図１６】この発明の実施の形態６に係る雑音スペクトル推定装置を示す構成図である。
【図１７】この発明の実施の形態７に係る音声認識装置を示す構成図である。
【符号の説明】
【００５７】
１音声入力部、２帯域分析部、３遅延メモリ、４音声らしさ推定部、５マスク出力、１０雑音スペクトル更新部、１１推定雑音スペクトル出力、１２ＨＭＭパラメータメモリ、１３ＨＭＭ尤度計算部、１４ＨＭＭ尤度出力、６１時間長探索部、６２時間長メモリ、７１帯域幅探索部、７２帯域幅メモリ、８１平滑化部、８３最大値／最小値探索部、８４閾値算出部、８５正規化ＳＮ比算出部、８６マスク値変換部。

【特許請求の範囲】
【請求項１】
入力音声を分析し、前記入力音声に含まれる帯域成分を求める帯域分析部と、
前記帯域分析部で求められた前記帯域成分を記憶する遅延メモリと、
目的の時刻における目的の周波数を含む目的の帯域成分の周辺に存在する、前記目的の時刻より未来の時刻における目的の周波数と同一または異なる周波数を含む帯域成分を参照し、前記目的の帯域成分の音声らしさを推定する音声らしさ推定部とを備えたマスク作成装置。
【請求項２】
前記遅延メモリに記憶された前記帯域成分の時間長を探索する時間長探索部と、
前記時間長探索部が探索した前記時間長を記憶する時間長メモリとを備え、
前記音声らしさ推定部は、前記目的の帯域成分の時間長が時間長の閾値以上である場合は雑音と推定して第１のマスク値を出力し、前記帯域成分の時間長が前記時間長の閾値未満である場合は音声と推定して第２のマスク値を出力することを特徴とする請求項１記載のマスク作成装置。
【請求項３】
前記時間長の閾値が、周波数の関数であることを特徴とする請求項２記載のマスク作成装置。
【請求項４】
前記遅延メモリに記憶された前記帯域成分の帯域幅を探索する帯域幅探索部と、
前記帯域幅探索部が探索した前記帯域成分の帯域幅を記憶する帯域幅メモリとを備え、
前記音声らしさ推定部は、前記帯域幅メモリに記憶された前記目的の帯域成分の帯域幅が、帯域幅の閾値より大きい場合は音声と推定して前記第２のマスク値を出力することを特徴とする請求項２記載のマスク作成装置。
【請求項５】
前記音声らしさ推定部は、前記遅延メモリに記憶された、前記目的の時刻より過去の時刻または未来の時刻における前記帯域成分の最大値と最小値とに基づいて、前記目的の帯域成分の音声らしさを推定することを特徴とする請求項１記載のマスク作成装置。
【請求項６】
前記帯域成分の前記最大値と前記最小値を探索する最大値／最小値探索部と、
前記最大値／最小値探索部が探索した前記帯域成分の前記最大値と前記最小値のうち、両者の差が最小となる最大値と最小値に基づいて、帯域成分の閾値を算出する閾値算出部とを備えたことを特徴とする請求項５記載のマスク作成装置。
【請求項７】
前記遅延メモリに記憶された前記帯域成分と、前記最大値と前記最小値とから正規化されたＳＮ比を算出する正規化ＳＮ比算出部と、
前記正規化ＳＮ比算出部が算出した前記正規化されたＳＮ比から第３のマスク値を算出するマスク値変換部とを備えた請求項５記載のマスク作成装置。
【請求項８】
請求項１から請求項７のうちのいずれか１項記載のマスク作成装置が作成する音声らしさと、前記遅延メモリに記憶された帯域成分と、前記音声らしさに基づいて変更される更新係数とを用いて雑音スペクトルを更新する雑音スペクトル更新部を備える雑音スペクトル推定装置。
【請求項９】
ＨＭＭの分散パラメータを記憶するＨＭＭパラメータメモリと、
請求項１から請求項７のうちのいずれか１項記載のマスク作成装置が作成した音声らしさと、前記遅延メモリに記憶された帯域成分と、前記音声らしさに基づいて変更される前記分散パラメータとを用いて前記入力音声の尤度を計算するＨＭＭ尤度計算部とを備えていることを特徴とする音声認識装置。

【図１】