説明

音声処理装置及び音声処理方法

【課題】音声の歪みが少なくかつノイズを十分に除去すること
【解決手段】音声非音声識別部106は、音声スペクトル信号とノイズベースの値の差が所定の閾値以上である場合、音声成分を含む有音部分と判定し、それ以外の場合、音声成分を含まない雑音のみの無音部分であると判定する。コムフィルタ生成部107は、各周波数成分における音声成分の有無に基づいて音声ピッチを強調するコムフィルタを生成する。減衰係数計算部108は、コムフィルタに周波数特性に基づいた減衰係数を乗算して、各周波数成分毎に入力信号の減衰係数の設定を行い、各周波数成分の減衰係数を乗算部109に出力する。乗算部109は、音声スペクトルに減衰係数を周波数成分単位で乗算する。周波数合成部110は、乗算の結果得られた周波数成分単位のスペクトルを所定の処理時間単位で、周波数領域で連続する音声スペクトルに合成する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、雑音を抑圧する音声処理装置及び音声処理方法に関し、特に通信システムにおける音声処理装置及び音声処理方法に関する。
【背景技術】
【0002】
従来の音声符号化技術では、雑音のない音声に対しては高品質な音声で通話することができるが、雑音等が含まれた音声に対してはデジタル通話特有の耳障りな雑音が生じ、音質が劣化する問題があった。
【0003】
このような雑音を抑圧する音声強調技術としてスペクトルサブトラクション法、コムフィルタ法がある。
【0004】
スペクトルサブトラクション法は、雑音情報に着目して無音区間で雑音の性質を推定して雑音を含む音声信号の短時間パワースペクトルから雑音の短時間パワースペクトルを減算する、または減衰係数を乗算することにより音声信号のパワースペクトルを推定して雑音を抑圧する方法である。スペクトルサブトラクション法は、例えば、文献 (S.Boll, Suppression of acoustic noise in speech using spectral subtraction, IEEE Trans. Acoustics, Speech, and Signal Processing, vol. ASSP-27, pp.113-120, 1979)、文献 (R.J.McAulay, M.L.Malpass, Speech enhancement using a soft-decision noise suppression filter, IEEE. Trans. Acoustics, Speech, and Signal Processing, vol. ASSP-28, pp.137-145. 1980)、特許第2714656号と、特願平9−518820号に記載されているものがある。
【0005】
一方、コムフィルタ法は、音声情報に着目し、音声スペクトルのピッチにコムフィルタをかけることにより雑音減衰を行う。コムフィルタ法に関する文献として、例えば、文献(J.S.Lim etc., Evaluation of an adaptive comb filtering method for enhancing speech degraded by white noise addition, IEEE Trans. Acoustics, Speech, and Signal Processing,vol.ASSP26,pp.354-358,1978)がある。
【0006】
コムフィルタとは、周波数領域単位で入力された信号を所定の比率で減衰させ、または減衰させずに信号を出力するフィルタであり、櫛状の減衰特性をもつ。デジタルデータ処理でコムフィルタ法を実現する場合、コムフィルタの減衰特性を周波数領域毎に減衰特性のデータを作成し、周波数毎に音声スペクトルを乗算することにより雑音を抑圧できる。
【0007】
図28は、従来のコムフィルタ法を用いた音声処理装置の例を示す図である。図28において、切り替え器11は、入力信号に準周期性を持たない音声成分(例えば子音)が含まれている場合、入力信号をそのまま出力し、入力信号に準周期性を持つ音声成分が含まれている場合、入力信号をコムフィルタ12に出力する。コムフィルタ12は、ピッチ周期の情報に基づいた減衰特性で入力信号に対して周波数領域で雑音部分に減衰を行って出力する。
【0008】
図29は、コムフィルタの減衰特性を示す図である。縦軸は信号の減衰特性を示し、横軸は周波数を示す。図29においてコムフィルタには、周波数領域毎に信号を減衰させる領域と信号を減衰させない領域が存在する。
【0009】
コムフィルタ法では、入力された信号にコムフィルタをかけることにより、入力信号の中で音声成分の存在する周波数領域を減衰せず、音声成分の存在しない周波数領域を減衰することにより雑音を抑圧して音声を強調する。
【発明の開示】
【発明が解決しようとする課題】
【0010】
しかしながら、このような従来の音声処理方法には次のような解決すべき課題があった。まず、文献1に示したSS法は、ノイズ情報のみに着目し、短時間のノイズ特性を定常と見なして、音声とノイズを区別せず、一律にノイズベース(推定されたノイズのスペクトル特性)を差し引く方法である。音声の情報(例えば、音声のピッチ)は利用されていない。実際には、ノイズの特性は定常でないため、差し引かれた後の残留ノイズ、特にピッチ調波間の残留ノイズは処理方法によって、いわゆる「ミュジカルノイズ」と呼ばれる不自然な歪のある雑音を生じる原因と考えられる。
【0011】
その改善法として、音声パワー対ノイズパワー比(SNR)に基づき、減衰係数を乗じてノイズを減衰する方法、例えば、特許第2714656号と、特願平9−518820号に示したものが提案された。音声の大きい帯域(SNRは大きい)とノイズの大きい帯域(SNRは小さい)を区別して異なる減衰係数を用いるため、ミュジカルノイズを抑制し、音質を向上させた。しかし、特許第2714656号と、特願平9−518820号に示した方法は、音声情報の一部(SNR)が利用されているものの、処理する周波数チャネル数(16チャネル)は十分でないので、ピッチ調波情報を雑音から分離し抽出することは困難であり、また、音声とノイズ両方の帯域に減衰係数を用いるため、互いに影響を及ぼし合う結果、減衰係数は大きくすることができない。つまり、減衰係数を大きくすると、SNR推定の誤りによって、音声の歪みを生じる可能性がある。結果として、ノイズの減衰は不十分である。
【0012】
また、従来のコムフィルタ法では、基本周波数であるピッチに推定誤差があると、その高調波では誤差分が拡大し、本来の高調波成分がその通過帯域からはずれる可能性がより大きくなる。また、準周期性を持つ音声とそうでない音声を判別する必要があるため、実現性に問題がある。
【0013】
本発明は、かかる点に鑑みてなされたものであり、音声の歪みが少なくかつノイズを十分に除去することができる音声処理装置及び音声処理方法を提供することを目的とする。
【課題を解決するための手段】
【0014】
本発明の音声処理装置は、入力信号の音声スペクトルを所定の周波数領域単位で分割する周波数分割手段と、前記周波数分割手段にて周波数分割された音声スペクトルである分割音声スペクトルに音声成分が含まれているか否か識別する音声/非音声識別手段と、前記音声/非音声識別手段の識別結果に基づいて音声成分の含まれる周波数領域を通過域とし、音声成分の含まれていない周波数領域を阻止域とするコムフィルタを生成するコムフィルタ生成手段と、周波数特性に基づいた減衰係数を前記コムフィルタに乗算することにより前記周波数領域毎の減衰係数を設定し、前記各分割音声スペクトルに前記対応する周波数領域の減衰係数を乗算することにより前記分割音声スペクトルの雑音成分を抑圧する雑音抑圧手段と、前記雑音成分が抑圧された分割音声スペクトルを周波数領域で連続した音声スペクトルに合成する周波数合成手段と、を具備する構成を採る。
【0015】
本発明の音声処理プログラムは、入力信号の音声スペクトルを所定の周波数領域単位で分割する周波数分割手順と、前記周波数分割手順にて周波数分割された音声スペクトルである分割音声スペクトルに音声成分が含まれているか否か識別する音声/非音声識別手順と、前記音声/非音声識別手順の識別結果に基づいて音声成分の含まれる周波数領域を通過域とし、音声成分の含まれていない周波数領域を阻止域とするコムフィルタを生成するコムフィルタ生成手順と、周波数特性に基づいた減衰係数を前記コムフィルタに乗算することにより前記周波数領域毎の減衰係数を設定し、前記各分割音声スペクトルに前記対応する周波数領域の減衰係数を乗算することにより前記分割音声スペクトルの雑音成分を抑圧する雑音抑圧手順と、前記雑音成分が抑圧された分割音声スペクトルを周波数領域で連続した音声スペクトルに合成する周波数合成手順と、を含む。
【0016】
本発明の音声処理方法は、入力信号の音声スペクトルを所定の周波数領域単位で分割する周波数分割工程と、前記周波数分割された音声スペクトルである分割音声スペクトルに音声成分が含まれているか否か識別する音声/非音声識別工程と、音声成分の含まれる周波数領域を強調するピッチ調波構造を生成するピッチ調波構造生成工程と、周波数特性に基づいた減衰係数を前記ピッチ調波構造に乗算することにより前記周波数領域毎の減衰係数を設定する減衰係数設定工程と、前記各分割音声スペクトルに前記対応する周波数領域の減衰係数を乗算することにより前記分割音声スペクトルの雑音成分を抑圧する雑音抑圧工程と、前記雑音成分が抑圧された分割音声スペクトルを周波数領域で連続した音声スペクトルに合成する周波数合成工程と、を具備する方法を採る。
【発明の効果】
【0017】
本発明によれば、音声スペクトルを周波数領域単位で音声成分のある領域と音声成分のない領域に識別して、この識別情報から得られる精度の高いピッチ周期に基づいて雑音を抑圧して、音声の歪みが少なくかつノイズを十分に除去することができる。
【発明を実施するための最良の形態】
【0018】
本発明の骨子は、音声スペクトルを周波数領域単位で音声成分のある領域と音声成分のない領域に識別して、この識別情報から得られる精度の高いピッチ周期に基づいて音声情報のみを強調するコムフィルタを周波数領域で生成して雑音を抑圧することである。
【0019】
(実施の形態1)
図1は、本発明の実施の形態1に係る音声処理装置の構成を示すブロック図である。図1において、音声処理装置は、時間分割部101と、窓掛け部102と、FFT部103と、周波数分割部104と、ノイズベース推定部105と、音声非音声識別部106と、コムフィルタ生成部107と、減衰係数計算部108と、乗算部109と、周波数合成部110と、IFFT部111と、から主に構成される。
【0020】
時間分割部101は、入力された音声信号から所定時間単位で区切られたフレームを構成し、窓掛け部102に出力する。窓掛け部102は、時間分割部101から出力されたフレームにハニングウインドウを利用したウインドウ処理を行ってFFT部103に出力する。FFT部103は、窓掛け部102から出力された音声信号にFFT(Fast Fourier Transform)を行い、音声スペクトル信号を周波数分割部104に出力する。
【0021】
周波数分割部104は、FFT部103から出力された音声スペクトルを所定の周波数領域単位の周波数成分に分割して、各周波数成分毎に音声スペクトルをノイズベース推定部105と音声非音声識別部106と、乗算部109とに出力する。なお、周波数成分は、所定の周波数単位で分割された音声スペクトルを示すものである。
【0022】
ノイズベース推定部105は、音声非音声識別部106からフレームに音声成分が含まれている判定結果が出力された場合、過去に推定したノイズベースを音声非音声識別部106に出力する。また、ノイズベース推定部105は、音声非音声識別部106からフレームに音声成分が含まれていない判定結果が出力された場合、周波数分割部104から出力された音声スペクトルの周波数成分毎の短時間パワースペクトルとスペクトルの変化の平均量を表す移動平均値を算出して、過去に算出した移動平均値とパワースペクトルの加重平均値をとり、新しい移動平均値を算出する。
【0023】
具体的には、式(1)を用いて各周波数成分におけるノイズベースを推定して音声非音声識別部106に出力する。
【数1】

【0024】
ここで、nは処理を行うフレームを特定する番号、kは周波数成分周波数成分を特定する番号、τは遅延時間を示す。また、S2f(n,k)は、入力された音声信号のパワースペクトル、Pbase(n,k)はノイズベースの移動平均値、α(k)は移動平均係数を示す。
【0025】
音声非音声識別部106は、周波数分割部104から出力された音声スペクトル信号とノイズベース推定部105から出力されるノイズベースの値の差が所定の閾値以上である場合、音声成分を含む有音部分と判定し、それ以外の場合、音声成分を含まない雑音のみの無音部分であると判定する。そして、音声非音声識別部106は、判定結果をノイズベース推定部105とコムフィルタ生成部107に出力する。
【0026】
コムフィルタ生成部107は、各周波数成分における音声成分の有無に基づいてピッチ調波を強調するコムフィルタを生成して、このコムフィルタを減衰係数計算部108に出力する。具体的には、コムフィルタ生成部107は、コムフィルタの有音部分の周波数成分をオン、無音部分の周波数成分をオフにする。
【0027】
減衰係数計算部108は、コムフィルタ生成部107において生成されたコムフィルタに、周波数特性に基づいた減衰係数を乗算して、各周波数成分毎に入力信号の減衰係数の設定を行い、各周波数成分の減衰係数を乗算部109に出力する。
【0028】
例えば、以下の式(2)から減衰係数gain(k)を算出して入力信号に乗算することもできる。
【数2】

【0029】
ここでgcは定数、kはビンを特定する変数、HBは、FFT変換長つまり高速フーリエ変換を行うデータ数である。
【0030】
乗算部109は、周波数分割部104から出力された音声スペクトルに減衰係数計算部108から出力された減衰係数を周波数成分単位で乗算する。そして、乗算の結果得られたスペクトルを周波数合成部110に出力する。
【0031】
周波数合成部110は、乗算部109から出力された周波数成分単位のスペクトルを所定の処理時間単位で周波数領域で連続する音声スペクトルに合成してIFFT部111に出力する。IFFT部111は、周波数合成部110から出力された音声スペクトルにIFFT(Inverse Fast Fourier Transform)を行って音声信号に変換した信号を出力する。
【0032】
次に、上記構成を有する音声処理装置の動作について図2に示すフロー図を用いて説明する。図2において、ステップ(以下「ST」という)201では、入力信号に前処理を行う。この場合、前処理とは、入力信号から所定の時間単位のフレームを構成して窓かけ処理を行い、音声スペクトルに高速フーリエ変換を行うことである。
【0033】
ST202では、周波数分割部104が音声スペクトルを周波数成分に分割する。ST203では、ノイズベース推定部105が、α(k)=0であるか否か、つまりノイズベース更新を停止するか否かを判断して、α(k)=0の場合、ST205に進み、α(k)=0でない場合、ST204に進む。
【0034】
ST204では、ノイズベース推定部105が音声成分の含まれていない音声スペクトルからノイズベースを更新し、その後ST205に進む。ST205では、音声非音声識別部106が、Sf2(n,k)>Qup・Pbase(n,k)であるか否か、つまり音声スペクトルのパワーがノイズベースに所定の閾値を乗算した値より大きいか否かを判断し、Sf2(n,k)>Qup・Pbase(n,k)である場合、ST206に進み、Sf2(n,k)>Qup・Pbase(n,k)でない場合、ST208に進む。
【0035】
ST206では、音声非音声識別部106が、ノイズベース更新停止を示すα(k)=0を設定する。ST207では、コムフィルタ生成部107が、音声スペクトルを減衰せずに出力することを示すSP_SWITCH(k)=ONを設定して、ST211に進む。ST208では、音声非音声識別部106が、Sf2(n,k)<Qdown・Pbase(n,k)であるか否か、つまり音声スペクトルのパワーがノイズベースに所定の閾値を乗算した値より小さいか否かを判断し、Sf2(n,k)<Qdown・Pbase(n,k)である場合、ST209に進み、Sf2(n,k)<Qdown・Pbase(n,k)でない場合、ST211に進む。
【0036】
ST209では、音声非音声識別部106が、ノイズベース更新を示すα(k)=SLOWを設定する。ここで、SLOWは所定の定数である。ST210では、コムフィルタ生成部107が音声スペクトルを減衰して出力することを示すSP_SWITCH(k)=OFFを設定して、ST211に進む。
【0037】
ST211では、減衰係数計算部108が、音声スペクトルを減衰しないか減衰か、つまりSP_SWITCH(k)=ONであるか否かを判断する。ST211においてSP_SWITCH(k)=ONである場合、ST212では、減衰係数計算部108が減衰係数を1に設定し、ST214に進む。ST211においてSP_SWITCH(k)=ONでない場合、ST213では、減衰係数計算部108が周波数に応じた減衰係数を計算して設定し、ST214に進む。
【0038】
ST214では、乗算部109が周波数分割部104から出力された音声スペクトルに減衰係数計算部108から出力された減衰係数を周波数成分単位で乗算する。ST215では、周波数合成部110が乗算部109から出力された周波数成分単位のスペクトルを所定の処理時間単位で周波数領域で連続する音声スペクトルに合成する。ST216では、IFFT部111が、周波数合成部110から出力された音声スペクトルにIFFTを行って雑音を抑圧した信号を出力する。
【0039】
次に、本実施の形態の音声処理装置で用いるコムフィルタについて説明する。図3は、本実施の形態にかかる音声処理装置で作成されるコムフィルタの例を示す図である。図3において、縦軸はスペクトルのパワ及び、フィルタの減衰度を示し、横軸は周波数を示す。
【0040】
コムフィルタは、S1に示す減衰特性を持ち、減衰特性は、周波数成分毎に設定される。コムフィルタ生成部107は、音声成分を含まない周波数領域の信号を減衰し、音声信号を含む周波数領域の信号を減衰しない減衰特性のコムフィルタを作成する。
【0041】
雑音成分を含む音声スペクトルS2は、S1の減衰特性を持つコムフィルタをかけることにより、雑音成分を含む周波数領域の信号が減衰されてパワが小さくなり、音声信号を含む部分は減衰されずパワが変化しない。得られた音声スペクトルは、雑音成分の周波数領域がより低くなりピークが失われずに強調されたスペクトル形状となり、ピッチ調波情報が失われない雑音を抑圧した音声スペクトルS3が出力される。
【0042】
このように、本発明の実施の形態1に係る音声処理装置によれば、周波数成分単位でスペクトル信号の音声非音声を判別して、周波数成分単位で判別結果に基づいた周波数特性の減衰を行うことにより、正確なピッチ情報を得ることができるので、大きな減衰で雑音抑圧を行っても音声歪の少ない音声強調を行うことができる。
【0043】
また、音声識別において2つの閾値を設けることにより、精度の高い音声非音声を判別することができる。
【0044】
なお、減衰係数計算部108において、雑音の周波数特性に応じた減衰係数の計算を行うことにより、高い周波数にある子音を損なわずに音声強調を行うこともできる。
【0045】
また、各周波数成分において入力信号の減衰を二値で行い、音声と判別する場合、減衰を行わず、雑音と判別する場合、減衰を行うこともできる。この場合、強い雑音抑圧を行っても音声のある周波数成分は減衰されないので音声の歪の少ない音声強調を行うことができる。
【0046】
(実施の形態2)
図4は、実施の形態2にかかる音声処理装置の構成の例を示すブロック図である。但し、図1と共通する構成については図1と同一番号を付し、詳しい説明を省略する。
【0047】
図4の音声処理装置は、ノイズ区間判別部401とノイズベース追跡部402と、を具備してフレーム単位で信号の音声非音声判別を行い、ノイズレベルの急激な変化を検出して、速やかにノイズベースを推定して更新する点が図1と異なる。
【0048】
図4において、FFT部103は、窓掛け部102から出力された音声信号にFFT(Fast Fourier Transform)を行い、音声スペクトルを周波数分割部104とノイズ区間判別部401に出力する。
【0049】
ノイズ区間判別部401は、FFT部103から出力された音声スペクトルからフレーム単位で信号のパワーと移動平均値を算出して、入力信号のパワーの変化率からフレームが音声を含むか否か判別する。
【0050】
具体的には、ノイズ区間判別部401は、以下の式(3)及び式(4)を用いて入力信号のパワーの変化率を算出する。
【数3】

【数4】

【0051】
ここで、P(n)は、1フレームの信号パワー、S2f(n,k)は、入力信号パワースペクトル、Ratioは、過去に処理を行ったフレームと処理を行うフレームの信号パワー比、τは遅延時間である。
【0052】
ノイズ区間判別部401は、Ratioがあらかじめ設定した閾値を一定時間連続して超えた場合、入力信号を音声信号と判断し、連続して超えない場合をノイズ区間と判断する。
【0053】
ノイズベース追跡部402は、音声区間からノイズ区間に移ったと判断した場合、所定のフレーム数の処理を行う間、ノイズベースの更新における処理フレームからノイズベースの推定する影響の度合いを大きくする。
【0054】
具体的には式(1)においてα(k)=FAST、(0<SLOW<FAST<1)に設定する。α(k)の値が大きいほど、移動平均値が入力された音声信号の影響を受けやすくなり、ノイズベースの急激な変化に対応することができる。
【0055】
ノイズベース推定部105は、音声非音声識別部106又はノイズベース追跡部402からフレームに音声成分が含まれていない判定結果が出力された場合、周波数分割部104から出力された音声スペクトルの周波数成分毎の短時間パワースペクトルとスペクトルの変化の平均量を表す移動平均値を算出して、これらの値から各周波数成分におけるノイズベースを推定して音声非音声識別部106に出力する。
【0056】
このように、本発明の実施の形態2に係る音声処理装置によれば、入力された信号から推定した雑音スペクトルの値を大きく反映させてノイズベースの更新を行うことにより、ノイズレベルの急激な変化に対応したノイズベースの更新を行うことができ、音声歪の少ない音声強調を行うことができる。
【0057】
(実施の形態3)
図5は、実施の形態3にかかる音声処理装置の構成の例を示すブロック図である。但し、図1と共通する構成については図1と同一番号を付し、詳しい説明を省略する。
【0058】
図5の音声処理装置は、ミュジカルノイズ抑制部501とコムフィルタ修正部502を具備してフレームに突発性ノイズが含まれる場合に、生成されたコムフィルタを修正して突発性ノイズに起因するミュジカルノイズの発生を抑圧する点が、図1と異なる。
【0059】
図5において、コムフィルタ生成部107は、各周波数成分における音声成分の有無に基づいてピッチ調波を強調するコムフィルタを生成してミュジカルノイズ抑制部501、及びコムフィルタ修正部502に出力する。
【0060】
ミュジカルノイズ抑制部501は、コムフィルタ生成部107から出力されたコムフィルタの各周波数成分の状態の中でオン、つまり信号を減衰せずに出力する状態の数が一定の閾値以下である場合、フレームに突発性ノイズが含まれていると判断し、判断結果をコムフィルタ修正部502に出力する。
【0061】
例えば、以下の式(5)を用いてコムフィルタでオンになっている周波数成分の数を計算し、COMB_SUM(n)がある閾値(例えば10)より小さい場合、ミュジカルノイズが発生していると判断する。
【数5】

【0062】
コムフィルタ修正部502は、ミュジカルノイズ抑制部501からフレームに突発性ノイズが含まれるコムフィルタ生成部107から出力されたコムフィルタの生成結果に基づいてコムフィルタにミュジカルノイズの発生を防ぐ修正を行い、減衰係数計算部108にコムフィルタを出力する。
【0063】
具体的には、コムフィルタのすべての周波数成分の状態をオフつまり信号を減衰して出力する状態に設定してコムフィルタを減衰係数計算部108に出力する。
【0064】
減衰係数計算部108は、コムフィルタ修正部502から出力されたコムフィルタに周波数特性に基づいた減衰係数を乗算して、各周波数成分毎に入力信号の減衰係数の設定を行い、各周波数成分の減衰係数を乗算部109に出力する。
【0065】
このように、本発明の実施の形態3に係る音声処理装置によれば、コムフィルタの生成結果からミュジカルノイズ発生を判断することにより、ノイズが音声信号と誤判断されることを防ぎ、音声歪の少ない音声強調を行うことができる。
【0066】
なお、実施の形態3は、実施の形態2と組み合わせることができる。すなわち、図5の音声処理装置にノイズ区間判別部401及びノイズベース追跡部402を追加することにより実施の形態2の効果も得ることができる。
【0067】
(実施の形態4)
図6は、実施の形態4にかかる音声処理装置の構成の例を示すブロック図である。但し、図1と共通する構成については図1と同一番号を付し、詳しい説明を省略する。図6の音声処理装置は、平均値計算部601を具備し、周波数成分単位で音声スペクトルのパワの平均値を求める点が、図1と異なる。
【0068】
図6において、周波数分割部104は、FFT部103から出力された音声スペクトルを所定の周波数単位で分割された音声スペクトルを示す周波数成分に分割して、各周波数成分毎に音声スペクトルを音声非音声識別部106と、乗算部109と、平均値計算部601に出力する。
【0069】
平均値計算部601は、周波数分割部104から出力された音声スペクトルのパワについて、近辺の周波数成分との平均値及び過去に処理したフレームとの平均値をとり、得られた平均値をノイズベース推定部105と音声非音声識別部106に出力する。
【0070】
具体的には、以下に示す式(6)を用いて音声スペクトルの平均値を算出する。
【数6】

【0071】
ここで、k1、k2は周波数成分を示し、k1<k<k2である。n1は過去に処理を行ったフレームを示す番号、nは処理を行うフレームを示す番号を示す。
【0072】
ノイズベース推定部105は、音声非音声識別部106からフレームに音声成分が含まれていない判定結果が出力された場合、平均値計算部601から出力された音声スペクトルの平均値の周波数成分毎に短時間パワースペクトルとスペクトルの変化の平均量を表す移動平均値を算出して、各周波数成分におけるノイズベースを推定して音声非音声識別部106に出力する。
【0073】
音声非音声識別部106は、平均値計算部601から出力された音声スペクトル信号の平均値とノイズベース推定部105から出力されるノイズベースの値の差が所定の閾値以上である場合、音声成分を含む有音部分と判定し、この差が所定の閾値より小さい場合、音声成分を含まない雑音のみの無音部分であると判定して、判定結果をノイズベース推定部105とコムフィルタ生成部107に出力する。
【0074】
このように、本発明の実施の形態4に係る音声処理装置によれば、各周波数成分における音声スペクトルのパワ平均値又は過去に処理を行ったフレームと処理を行うフレームのパワ平均値を求めることにより、突発性雑音成分の影響は小さくなり、より正確なコムフィルタを構成することができる。
【0075】
なお、実施の形態4は、実施の形態2あるいは実施の形態3と組み合わせることができる。すなわち、図5の音声処理装置にノイズ区間判別部401及びノイズベース追跡部402を追加することにより実施の形態2の効果も得ることができ、図6の音声処理装置にミュジカルノイズ抑制部501及びコムフィルタ修正部502を追加することにより実施の形態3の効果も得ることができる。
【0076】
(実施の形態5)
図7は、実施の形態5にかかる音声処理装置の構成の例を示すブロック図である。但し、図1と共通する構成については図1と同一番号を付し、詳しい説明を省略する。
【0077】
図7の音声処理装置は、区間判別部701とコムフィルタリセット部702を具備し、音声成分を含まないフレームに対して全周波数成分で減衰を行うコムフィルタを生成する点が、図1と異なる。
【0078】
図7において、FFT部103は、窓掛け部102から出力された音声信号にFFTを行い、音声スペクトル信号を周波数分割部104と区間判別部701に出力する。
【0079】
区間判別部701は、FFT部103から出力された音声スペクトルが音声を含むか否か判断して判断結果をコムフィルタリセット部702に出力する。
【0080】
コムフィルタリセット部702は、区間判別部701から出力された判断結果に基づいて、音声スペクトルが音声成分を含まないノイズ成分のみと判断された場合、コムフィルタ生成部107にすべての周波数成分のコムフィルタをオフにする指示を出力する。
【0081】
コムフィルタ生成部107は、各周波数成分における音声成分の有無に基づいてピッチ調波を強調するコムフィルタを生成して減衰係数計算部108に出力する。また、コムフィルタ生成部107は、コムフィルタリセット部702の指示に従い音声スペクトルが音声成分を含まないノイズ成分のみと判断された場合に、すべての周波数成分でオフにしたコムフィルタを生成して減衰係数計算部108に出力する。
【0082】
このように、本発明の実施の形態5に係る音声処理装置によれば、音声成分を含まないフレームに全周波数成分で減衰を行い、音声を含まない信号区間でノイズを全帯域でカットすることにより、音声抑圧処理に起因するノイズの発生を防ぐことができるので、音声歪の少ない音声強調を行うことができる。
【0083】
なお、実施の形態5は、実施の形態2あるいは実施の形態3と組み合わせることができる。
【0084】
すなわち、図7の音声処理装置にノイズ区間判別部401及びノイズベース追跡部402を追加することにより実施の形態2の効果も得ることができ、図7の音声処理装置にミュジカルノイズ抑制部501及びコムフィルタ修正部502を追加することにより実施の形態3の効果も得ることができる。
【0085】
また、実施の形態5は、実施の形態4と組み合わせることができる。すなわち、図7の音声処理装置に平均値計算部601を追加することにより実施の形態4の効果も得ることができる。
【0086】
この場合、周波数分割部104は、FFT部103から出力された音声スペクトルを所定の周波数単位で分割された音声スペクトルを示す周波数成分に分割して、各周波数成分毎に音声スペクトルを音声非音声識別部106と、乗算部109と、平均値計算部601に出力する。
【0087】
音声非音声識別部106は、平均値計算部601から出力された音声スペクトル信号の平均値とノイズベース推定部105から出力されるノイズベースの値の差が所定の閾値以上である場合、音声成分を含む有音部分と判定し、この差が所定の閾値より小さい場合、音声成分を含まない雑音のみの無音部分であると判定して、判定結果をノイズベース推定部105とコムフィルタ生成部107に出力する。
【0088】
(実施の形態6)
図8は、実施の形態6にかかる音声処理装置の構成の例を示すブロック図である。但し、図1と共通する構成については図1と同一番号を付し、詳しい説明を省略する。
【0089】
図8の音声処理装置は、音声ピッチ周期推定部801と音声ピッチ修復部802を具備し、音声とノイズの判定が難しい周波数領域でノイズと判断されて失われるピッチ調波情報を補う点が、図1と異なる。
【0090】
図8において、周波数分割部104は、FFT部103から出力された音声スペクトルを所定の周波数単位で分割された音声スペクトルを示す周波数成分に分割して、各周波数成分毎に音声スペクトルをノイズベース推定部105と音声非音声識別部106と、乗算部109と、音声ピッチ周期推定部801と、音声ピッチ修復部802に出力する。
【0091】
コムフィルタ生成部107は、各周波数成分における音声成分の有無に基づいてピッチ調波を強調するコムフィルタを生成して音声ピッチ周期推定部801、及び音声ピッチ修復部802に出力する。
【0092】
音声ピッチ周期推定部801は、コムフィルタ生成部107から出力されたコムフィルタと周波数分割部104から出力された音声スペクトルからピッチ周期を推定し、推定結果を音声ピッチ修復部802に出力する。
【0093】
例えば、生成されたコムフィルタの中でオンの状態が連続せずに一つの周波数成分をオフにする。次に、コムフィルタの中でパワーの大きい周波数成分を二本抽出したピッチ周期推定用コムフィルタを生成して、以下に示す自己相関関数の式(7)からピッチ周期を求める。
【数7】

【0094】
ここで、PITCH(k)は、ピッチ周期推定用コムフィルタの状態を表し、k1は周波数の上限、τはピッチの周期を表し、τは、0からピッチの最大周期であるτ1までの値をとる。
【0095】
式(7)のγ(τ)が最大値をとるτをピッチ周期として求める。実際には、高周波数領域において周波数ピッチの形状は、不明確になりやすいのでk1に中間の周波数の値を用いる。例えば、k1=2kHzと設定する。また、PITCH(k)の取りうる値を0と1にすることにより式(7)の計算を簡単に行うこともできる。
【0096】
音声ピッチ修復部802は、音声ピッチ周期推定部801から出力された推定結果に基づいてコムフィルタの修正を行い、減衰係数計算部108に出力する。具体的には、推定されたピッチ周期情報に基づいて一定の周波数成分毎にピッチを補う、又はピッチ周期毎に存在するコムフィルタがオンになった周波数成分の連続である櫛状の帯域の幅を広げるなどの処理を行い、ピッチ調波構造の修復を行う。
【0097】
減衰係数計算部108は、音声ピッチ修復部802から出力されたコムフィルタに周波数特性に基づいた減衰係数を乗算して、各周波数成分毎に入力信号の減衰係数の設定を行い、各周波数成分の減衰係数を乗算部109に出力する。
【0098】
図9に、本実施の形態にかかる音声処理装置におけるコムフィルタの修復の例を示す。図9において、縦軸は減衰度を示し、横軸は、周波数成分を示す。具体的には、横軸には、256の周波数成分があり、0kHzから4kHzの領域を示す。
【0099】
C1は生成されたコムフィルタを、C2はコムフィルタC1にピッチの修復を行ったコムフィルタを、C3は、コムフィルタC2にピッチの幅を修正したコムフィルタを示す。
【0100】
コムフィルタC1は、100から140までの周波数成分でピッチ情報が失われている。音声ピッチ修復部802は、音声ピッチ周期推定部801において推定されたピッチ周期情報に基づいてコムフィルタC1の100から140までの周波数成分にあるピッチ情報を補う。これによりコムフィルタC2が得られる。
【0101】
次に、音声ピッチ修復部802は、周波数分割部104から出力された音声スペクトルに基づいてコムフィルタC2のピッチ調波の幅を修正する。これによりコムフィルタC3が得られる。
【0102】
このように、本発明の実施の形態6に係る音声処理装置によれば、ピッチ周期情報を推定して、ノイズと判別されて失われたピッチ調波情報を補うことにより、原音声に近い音声の状態で、かつ音声歪の少ない音声強調を行うことができる。
【0103】
なお、実施の形態6は、実施の形態2あるいは実施の形態5と組み合わせることができる。
【0104】
すなわち、図8の音声処理装置にノイズ区間判別部401及びノイズベース追跡部402を追加することにより実施の形態2の効果も得ることができ、図8の音声処理装置に区間判別部701及び、コムフィルタリセット部702を追加することにより実施の形態5の効果も得ることができる。
【0105】
また、実施の形態6は、実施の形態3と組み合わせることができる。すなわち、図8の音声処理装置にミュジカルノイズ抑制部501及びコムフィルタ修正部502を追加することにより実施の形態3の効果も得ることができる。
【0106】
この場合、ミュジカルノイズ抑制部501は、コムフィルタ生成部107から出力されたコムフィルタの各周波数成分の中でオン、つまり信号を減衰せずに出力する状態の数が一定の閾値以下である場合、フレームに突発性ノイズが含まれていると判断し、判断結果を音声ピッチ周期推定部801に出力する。
【0107】
コムフィルタ修正部502は、音声ピッチ修復部802からフレームに突発性ノイズが含まれるコムフィルタ生成部107から出力されたコムフィルタの生成結果に基づいてコムフィルタにミュジカルノイズの発生を防ぐ修正を行い、減衰係数計算部108にコムフィルタを出力する。
【0108】
また、実施の形態6は、実施の形態4と組み合わせることができる。すなわち、図8の音声処理装置に平均値計算部601を追加することにより実施の形態4の効果も得ることができる。
【0109】
この場合、周波数分割部104は、FFT部103から出力された音声スペクトルを所定の周波数単位で分割された音声スペクトルを示す周波数成分に分割して、各周波数成分毎に音声スペクトルを音声非音声識別部106と、乗算部109と、平均値計算部601に出力する。
【0110】
音声非音声識別部106は、平均値計算部601から出力された音声スペクトル信号の平均値とノイズベース推定部105から出力されるノイズベースの値の差が所定の閾値以上である場合、音声成分を含む有音部分と判定し、この差が所定の閾値より小さい場合、音声成分を含まない雑音のみの無音部分であると判定して、判定結果をノイズベース推定部105とコムフィルタ生成部107に出力する。
【0111】
(実施の形態7)
図10は、実施の形態7にかかる音声処理装置の構成の例を示すブロック図である。但し、図1及び図4と共通する構成については図1及び図4と同一番号を付し、詳しい説明を省略する。図10の音声処理装置は、閾値自動調整部1001を具備し、ノイズの種類に応じて音声識別の閾値を調整する点が、図1又は図4と異なる。
【0112】
図10において、コムフィルタ生成部107は、各周波数成分における音声成分の有無に基づいてピッチ調波を強調するコムフィルタを生成して閾値自動調整部1001に出力する。
【0113】
ノイズ区間判別部401は、FFT部103から出力された音声スペクトルからフレーム単位で信号のパワーと移動平均値を算出して、入力信号のパワーの変化率からフレームが音声を含むか否か判別し、判別結果を閾値自動調整部1001に出力する。
【0114】
閾値自動調整部1001は、ノイズ区間判別部401から出力された判別結果からフレームに音声信号が含まれていない場合、コムフィルタ生成部107から出力されたコムフィルタに基づいて音声非音声識別部106の閾値を変更する。
【0115】
具体的には、以下の式(8)を用いて生成されたコムフィルタのオンの状態である周波数成分の数の総和を算出する。
【数8】

【0116】
この総和が所定の上限値より大きくなった場合、音声非音声識別部106の閾値を大きくする指示を、この総和が所定の下限値より小さくなった場合、音声非音声識別部106の閾値を小さくする指示を音声非音声識別部106に出力する。
【0117】
ここで、n1は、過去に処理を行ったフレームを特定する番号であり、n2は処理を行うフレームを特定する番号である。
【0118】
例えば、フレームに振幅のばらつきの小さいノイズが含まれる場合、音声非音声識別の閾値を低く設定し、フレームに振幅のばらつきの大きいノイズが含まれる場合、音声非音声識別の閾値を高く設定する。
【0119】
このように、本発明の実施の形態に係る音声処理装置によれば、音声を含まないフレームの中で音声が含まれると誤って判断される周波数成分の数に基づいて、音声スペクトルの音声非音声識別に用いる閾値の変更を行うことにより、ノイズの種類に対応した音声の判別を行い、音声歪の少ない音声強調を行うことができる。
【0120】
なお、実施の形態7は、実施の形態2あるいは実施の形態3と組み合わせることができる。
【0121】
すなわち、図10の音声処理装置にノイズ区間判別部401及びノイズベース追跡部402を追加することにより実施の形態2の効果も得ることができ、図10の音声処理装置にミュジカルノイズ抑制部501及びコムフィルタ修正部502を追加することにより実施の形態3の効果も得ることができる。
【0122】
また、実施の形態7は、実施の形態4と組み合わせることができる。すなわち、図10の音声処理装置に平均値計算部601を追加することにより実施の形態4の効果も得ることができる。
【0123】
この場合、周波数分割部104は、FFT部103から出力された音声スペクトルを所定の周波数単位で分割された音声スペクトルを示す周波数成分に分割して、各周波数成分毎に音声スペクトルを音声非音声識別部106と、乗算部109と、平均値計算部601に出力する。
【0124】
音声非音声識別部106は、平均値計算部601から出力された音声スペクトル信号の平均値とノイズベース推定部105から出力されるノイズベースの値の差が所定の閾値以上である場合、音声成分を含む有音部分と判定し、この差が所定の閾値より小さい場合、音声成分を含まない雑音のみの無音部分であると判定して、判定結果をノイズベース推定部105とコムフィルタ生成部107に出力する。
【0125】
また、実施の形態7は、実施の形態5あるいは実施の形態6と組み合わせることができる。すなわち、図10の音声処理装置に区間判別部701及び、コムフィルタリセット部702を追加することにより実施の形態5の効果も得ることができ、図10の音声処理装置に音声ピッチ周期推定部801及び音声ピッチ修復部802を追加することにより実施の形態6の効果も得ることができる。
【0126】
(実施の形態8)
図11は、実施の形態8にかかる音声処理装置の構成の例を示すブロック図である。但し、図1と共通する構成については図1と同一番号を付し、詳しい説明を省略する。
【0127】
図11の音声処理装置は、ノイズベース推定部1101と、第一音声非音声識別部1102と、第二音声非音声識別部1103と、音声ピッチ推定部1104と、第一コムフィルタ生成部1105と、第二コムフィルタ生成部1106と、音声ピッチ修復部1107と、コムフィルタ修正部1108と、音声分離係数計算部1109とを具備し、コムフィルタ作成に用いるノイズベースと、ピッチ調波構造の修復に用いるノイズベースをそれぞれ異なる条件で生成する点が、図1の音声処理装置と異なる。
【0128】
図11において、周波数分割部104は、FFT部103から出力された音声スペクトルを周波数成分に分割して、各周波数成分毎に音声スペクトルをノイズベース推定部1101、第一音声非音声識別部1102、第二音声非音声識別部1103、及び音声ピッチ推定部1104に出力する。
【0129】
ノイズベース推定部1101は、第一音声非音声識別部1102からフレームに音声成分が含まれている判定結果が出力された場合、過去に推定したノイズベースを第一音声非音声識別部1102に出力する。また、ノイズベース推定部1101は、第二音声非音声識別部1103からフレームに音声成分が含まれている判定結果が出力された場合、過去に推定したノイズベースを第二音声非音声識別部1103に出力する。
【0130】
また、ノイズベース推定部1101は、第一音声非音声識別部1102または第二音声非音声識別部1103からフレームに音声成分が含まれていない判定結果が出力された場合、周波数分割部104から出力された音声スペクトルの周波数成分毎の短時間パワースペクトルとスペクトルの変化の平均量を表す移動平均値を算出して、過去に算出した移動平均値とパワースペクトルの加重平均値をとり、新しい移動平均値を算出する。
【0131】
具体的には、ノイズベース推定部1101は、式(9)または式(10)を用いて各周波数成分におけるノイズベースを推定して第一音声非音声識別部1102または第二音声非音声識別部1103に出力する。
【数9】

【数10】

【0132】
ここで、nは処理を行うフレームを特定する番号、kは周波数成分を特定する番号、τは遅延時間を示す。また、S2f(n,k)は、入力された音声信号のパワースペクトル、Pbase(n,k)はノイズベースの移動平均値、α(k)は移動平均係数を示す。
【0133】
入力された音声信号のパワースペクトルが、音声とノイズを判別する閾値と先に入力された音声信号のパワースペクトルとの乗算結果以下である場合、ノイズベース推定部1101は、式(9)より得られたノイズベースを出力する。また、入力された音声信号のパワースペクトルが、音声とノイズを判別する閾値と先に入力された音声信号のパワースペクトルとの乗算結果より大きい場合、ノイズベース推定部1101は、式(10)より得られたノイズベースを出力する。
【0134】
第一音声非音声識別部1102は、周波数分割部104から出力された音声スペクトル信号とノイズベース推定部1101から出力されるノイズベースの値の差が所定の第一閾値以上である場合、音声成分を含む有音部分と判定し、それ以外の場合、音声成分を含まない雑音のみの無音部分であると判定する。
【0135】
第一音声非音声識別部1102では、第一コムフィルタ生成部1105がピッチ調波情報を出来る限り多く抽出するフィルタを生成するために、第一閾値を後述する第二音声非音声識別部1103が用いる第二閾値より低い値に設定する。そして、第一音声非音声識別部1102は、判定結果を第一コムフィルタ生成部1105に出力する。
【0136】
第二音声非音声識別部1103は、周波数分割部104から出力された音声スペクトル信号とノイズベース推定部1101から出力されるノイズベースの値の差が所定の第二閾値以上である場合、音声成分を含む有音部分と判定し、それ以外の場合、音声成分を含まない雑音のみの無音部分であると判定する。そして、第二音声非音声識別部1103は、判定結果を第二コムフィルタ生成部1106に出力する。
【0137】
第一コムフィルタ生成部1105は、各周波数成分における音声成分の有無に基づいてピッチ調波を強調する第一コムフィルタを生成してコムフィルタ修正部1108に出力する。
【0138】
具体的には、第一音声非音声識別部1102において、入力された音声信号のパワースペクトルが、音声とノイズを判別する第一閾値と、入力された音声信号のパワースペクトルとの乗算結果以上である場合、すなわち、式(11)を満たす場合、第一コムフィルタ生成部1105は、当該周波数成分のフィルタの値を「1」とする。
【数11】

【0139】
また、第一音声非音声識別部1102において、入力された音声信号のパワースペクトルが、音声とノイズを判別する第一閾値と、入力された音声信号のパワースペクトルとの乗算結果より小さい場合、すなわち、式(12)を満たす場合、第一コムフィルタ生成部1105は、当該周波数成分のコムフィルタの値を「0」とする。
【数12】

【0140】
ここで、kは、周波数成分を特定する番号であり、以下に示す式(13)の値を満たす。HBは、音声信号に高速フーリエ変換を行う場合のデータ点数を示す。
【数13】

【0141】
第二コムフィルタ生成部1106は、各周波数成分における音声成分の有無に基づいてピッチ調波を強調する第二コムフィルタを生成して音声ピッチ修復部1107に出力する。
【0142】
具体的には、第二音声非音声識別部1103において、入力された音声信号のパワースペクトルが、音声とノイズを判別する第二閾値と、入力された音声信号のパワースペクトルとの乗算結果以上である場合、すなわち、式(11)を満たす場合、第二コムフィルタ生成部1106は、当該周波数成分のフィルタの値を「1」とする。
【数14】

【0143】
また、第二音声非音声識別部1103において、入力された音声信号のパワースペクトルが、音声とノイズを判別する第二閾値と、入力された音声信号のパワースペクトルとの乗算結果より小さい場合、すなわち、式(12)を満たす場合、第二コムフィルタ生成部1106は、当該周波数成分のフィルタの値を「0」とする。
【数15】

【0144】
音声ピッチ推定部1104は、周波数分割部104から出力された音声スペクトルからピッチ周期を推定し、推定結果を音声ピッチ修復部1107に出力する。
【0145】
例えば、音声ピッチ推定部1104は、生成されたコムフィルタの通過域における音声スペクトルパワに以下に示す自己相関関数の式(14)を用いてピッチ周期を求める。
【数16】

ここで、COMB_low(k)は、第一コムフィルタ生成部1105において生成された第一コムフィルタを示す。k1は、周波数の上限値を示す。また、τは、ピッチの周期を示し、「0」からピッチの最大周期までの値をとる。
【0146】
そして、音声ピッチ推定部1104は、γ(τ)が、最大値をとるτを音声ピッチ周期として求める。実際の処理では、高周波数領域においてピッチ調波の形状は不明確になることが多いので、k1に中間の周波数の値を用い、音声信号の周波数領域のうち、低周波数側半分についてピッチ周期の推定を行う。例えば、音声ピッチ推定部1104は、k1=2kHzに設定して音声ピッチ周期の推定を行う。
【0147】
音声ピッチ修復部1107は、音声ピッチ推定部1104から出力された推定結果に基づいて第二コムフィルタの修正を行い、コムフィルタ修正部1108に出力する。
【0148】
以下、図を用いて音声ピッチ修復部1107の具体的な動作について説明する。図12、図13、図14、及び図15は、コムフィルタの一例を示す図である。
【0149】
音声ピッチ修復部1107は、第二コムフィルタの通過領域のピークを抽出し、ピッチ基準コムフィルタを生成する。図12のコムフィルタは、第二コムフィルタ生成部1106において生成された第二コムフィルタの一例である。また、図13のコムフィルタは、ピッチ基準コムフィルタの一例である。図13のコムフィルタでは、図12のコムフィルタからピークの情報のみを抽出し、通過領域の幅の情報がなくなっている。
【0150】
そして、音声ピッチ修復部1107は、ピッチ基準コムフィルタのピークとピークの間隔を算出し、ピークとピークの間隔が、所定の閾値、例えばピッチ周期の15倍の値、を超えた場合、音声ピッチ推定部1104のピッチの推定結果から欠落したピッチの挿入を行い、ピッチ挿入コムフィルタを生成する。図14のコムフィルタは、ピッチ挿入コムフィルタの一例である。図14のコムフィルタでは、50kHzから100kHz付近及び200kHzから250kHzにピークが挿入されている。
【0151】
そして、音声ピッチ修復部1107は、ピッチの値に応じてピッチ挿入コムフィルタの通過領域のピークの幅を広げてピッチ修復コムフィルタを生成し、コムフィルタ修正部1108に出力する。図15のコムフィルタは、ピッチ修復コムフィルタの一例である。図15のコムフィルタでは、図14のピッチ挿入コムフィルタに通過領域の幅の情報が付加されている。
【0152】
コムフィルタ修正部1108は、音声ピッチ修復部1107において生成されたピッチ修復コムフィルタを用いて第一コムフィルタ生成部1105において生成された第一コムフィルタを修正し、修正したコムフィルタを音声分離係数計算部1109に出力する。
【0153】
具体的には、コムフィルタ修正部1108は、ピッチ修復コムフィルタと第一コムフィルタの通過領域を比較して両方のコムフィルタにおいて通過領域となっている部分を通過領域とし、この通過領域以外を、信号を減衰する阻止領域としてコムフィルタを生成する。
【0154】
以下、コムフィルタ修正の一例を示す。図16、図17、及び図18は、コムフィルタの一例を示す図である。図16のコムフィルタは、第一コムフィルタ生成部1105において生成された第一コムフィルタである。また、図17のコムフィルタは、音声ピッチ修復部1107において生成されたピッチ修復コムフィルタである。図18は、コムフィルタ修正部1108において修正されたコムフィルタの一例である。
【0155】
音声分離係数計算部1109は、コムフィルタ修正部1108において修正されたコムフィルタに周波数特性に基づいた分離係数を乗算し、各周波数成分毎に入力信号の分離係数を算出して乗算部109に出力する。
【0156】
例えば、音声分離係数計算部1109は、ある周波数成分を特定する番号kにおいて、コムフィルタ修正部1108において修正されたコムフィルタCOMB_res(k)の値が1、すなわち通過領域である場合、分散係数seps(k)を1とする。また、音声分離係数計算部1109は、コムフィルタCOMB_res(k)の値が0、すなわち阻止領域である場合、以下の式(15)から分散係数seps(k)を算出する。
【数17】

【0157】
ここで、gcは定数、kは周波数成分を特定する番号、HBは、FFT変換長つまり高速フーリエ変換を行うデータ数を示す。
【0158】
乗算部109は、周波数分割部104から出力された音声スペクトルに音声分離係数計算部1109から出力された減衰係数を周波数成分単位で乗算する。そして、乗算の結果得られたスペクトルを周波数合成部110に出力する。
【0159】
このように、本実施の形態の音声処理装置によれば、コムフィルタ作成に用いるノイズベースと、ピッチ調波構造修復に用いるノイズベースをそれぞれ異なる条件で生成することにより、音声情報を多く抽出し、かつ雑音情報の影響を受け難いコムフィルタを生成して正確なピッチ調波構造の修復を行うことができる。
【0160】
具体的には、本実施の音声処理装置によれば、音声と判断する条件を厳しくした第二コムフィルタを基準にしたピッチ周期の推定結果を反映させて欠落したと推測されるピッチを挿入してコムフィルタのピッチ調波構造を修復することにより、ピッチ調波の欠落による音声歪を減少することができる。
【0161】
また、本実施の形態の音声処理装置によれば、コムフィルタのピッチ幅をピッチ周期の推定結果から調整することにより正確にピッチ調波構造を修復することができる。音声と厳しく判断して作成したコムフィルタのピッチ調波構造を修復したコムフィルタの通過領域と音声と緩く判断して作成したコムフィルタの通過領域の重複部分を通過領域とし、この重複する通過領域以外を阻止領域とするコムフィルタを作成することにより、ピッチ周期の推定の誤差による影響を低減することができ、正確なピッチ調波構造の修復ができる。
【0162】
なお、本実施の形態の音声処理装置は、コムフィルタの阻止領域の音声分離係数を、音声スペクトルに分離係数を乗算して算出し、コムフィルタの通過領域の音声分離係数を、音声スペクトルからノイズベースを減算して算出することもできる。
【0163】
例えば、音声分離係数計算部1109は、コムフィルタCOMB_res(k)の値が0、すなわち阻止領域である場合、以下の式(16)から分散係数seps(k)を算出する。
【数18】

【0164】
ここで、Pmax(n)は、所定の範囲の周波数成分kでのPbase(n、k)の最大値を示す。式(16)では、フレーム毎にノイズベース推定値の正規化を行い、その逆数を用いて分離係数とする。
【0165】
そして、コムフィルタCOMB_res(k)の値が1、すなわち通過領域である場合、以下の式(17)から分散係数seps(k)を算出する。
【数19】

【0166】
ここで、γは、ノイズベースを差し引く量を示す係数であり、Pmax(n)は、所定の範囲の周波数成分kでのPbase(n,k)の最大値を示す。
【0167】
このように、本実施の形態の音声処理装置は、ピッチ修正を行ったコムフィルタの阻止領域にノイズベースの情報から算出した分離係数を乗算することにより、異なるノイズ特性に対しても最適な分離係数を算出することができ、ノイズ特性に対応した音声強調を行うことができる。また、本実施の形態の音声処理装置は、ピッチ修正を行ったコムフィルタの通過領域に音声スペクトルからノイズベースを減算して算出した分離係数を乗算することにより、音声歪みの少ない音声強調を行うことができる。
【0168】
また、本実施の形態は、実施の形態2と組み合わせることもできる。すなわち、図11の音声処理装置にノイズ区間判別部401及びノイズベース追跡部402を追加することにより実施の形態2の効果も得ることができる。
【0169】
(実施の形態9)
図19は、実施の形態9にかかる音声処理装置の構成の例を示すブロック図である。但し、図1及び図11と共通する構成については図1及び図11と同一番号を付し、詳しい説明を省略する。
【0170】
図19の音声処理装置は、SNR計算部1901と、音声雑音フレーム検出部1902とを具備し、音声信号のSNR(Signal Noise Ratio)を計算し、SNRからフレーム単位で音声信号から音声フレームまたは雑音フレームを区別して検出し、音声フレームのみピッチ周期の推定を行う点が、図1又は図11と異なる。
【0171】
図19において、周波数分割部104は、FFT部103から出力された音声スペクトルを周波数成分に分割して、各周波数成分毎に音声スペクトルをノイズベース推定部105と、第一音声非音声識別部1102と、第二音声非音声識別部1103と、乗算部109と、SNR計算部1901に出力する。
【0172】
第一コムフィルタ生成部1105は、各周波数成分における音声成分の有無に基づいてピッチ調波を強調する第一コムフィルタを生成してコムフィルタ修正部1108とSNR計算部1901に出力する。
【0173】
SNR計算部1901は、周波数分割部104から出力された音声スペクトルと第一コムフィルタ生成部1105から出力された第一コムフィルタから音声信号のSNRを計算して音声雑音フレーム検出部1902に出力する。例えば、SNR計算部1901は、以下の式(18)を用いてSNRを計算する。
【数20】

【0174】
ここで、COMB_low(k)は、第一コムフィルタを示す。また、kは周波数成分を示し、0以上かつ音声信号に高速フーリエ変換を行う場合のデータ点数の半数より小さい値をとる。
【0175】
音声雑音フレーム検出部1902は、SNR計算部1901から出力されたSNRからフレーム単位で入力信号が音声信号か雑音信号かを判断し、判断結果を音声ピッチ推定部1903に出力する。具体的には、音声雑音フレーム検出部1902は、SNRが所定の閾値より大きい場合、入力した信号を音声信号(音声フレーム)と判断し、SNRが所定の閾値以下であるフレームが所定の数以上連続して発生した場合、入力した信号を雑音信号(雑音フレーム)と判断する。
【0176】
図20に、上記音声雑音フレーム検出部1902の音声/雑音判断の動作をプログラムで表現した例を示す。図20は、本実施の形態の音声処理装置の音声雑音判断プログラムの一例を示す図である。図20のプログラムでは、SNRが所定の閾値以下であるフレームが10以上連続して発生した場合、入力した信号を雑音信号(雑音フレーム)と判断する。
【0177】
音声ピッチ推定部1903は、音声雑音フレーム検出部1902が音声フレームと判断する場合、周波数分割部104から出力された音声スペクトルからピッチ周期を推定し、推定結果を音声ピッチ修復部1107に出力する。ピッチ周期推定の動作は、実施の形態8の音声ピッチ推定部1104と同様の動作を行う。
【0178】
音声ピッチ修復部1107は、音声ピッチ推定部1903から出力された推定結果に基づいて第二コムフィルタの修正を行い、コムフィルタ修正部1108に出力する。
【0179】
このように、本実施の形態の音声処理装置によれば、コムフィルタの通過領域に対応する音声スペクトルのパワの和と、コムフィルタの阻止領域に対応する音声スペクトルのパワの和との比を求めてSNRとし、このSNRが所定の閾値以上であるフレームのみを用いてピッチ周期を推定することにより、雑音によるピッチ周期推定の誤りを低減することができ、音声歪の少ない音声強調を行うことができる。
【0180】
なお、本実施の形態の音声処理装置は、第一コムフィルタからSNRを計算しているが、第二コムフィルタを用いてSNRを計算してもよい。この場合、第二コムフィルタ生成部1106は、作成した第二コムフィルタをSNR計算部1901に出力する。そして、SNR計算部1901は、周波数分割部104から出力された音声スペクトルと第二コムフィルタから音声信号のSNRを計算して音声雑音フレーム検出部1902に出力する。
【0181】
(実施の形態10)
図21は、実施の形態10にかかる音声処理装置の構成の例を示すブロック図である。但し、図1及び図11と共通する構成については図1及び図11と同一番号を付し、詳しい説明を省略する。図21の音声処理装置は、第一コムフィルタ生成部2101と、第一ミュジカルノイズ抑圧部2102と、第二コムフィルタ生成部2103と、第二ミュジカルノイズ抑圧部2104とを具備し、第一コムフィルタと第二コムフィルタの生成結果からミュジカルノイズ発生を判断する点が、図1又は図11と異なる。
【0182】
図21において、第一音声非音声識別部1102は、周波数分割部104から出力された音声スペクトル信号とノイズベース推定部1101から出力されるノイズベースの値の差が所定の第一閾値以上である場合、音声成分を含む有音部分と判定し、それ以外の場合、音声成分を含まない雑音のみの無音部分であると判定する。
【0183】
第一音声非音声識別部1102では、第一コムフィルタ生成部2101がピッチ調波情報を出来る限り多く抽出するフィルタを生成するために、第一閾値を後述する第二音声非音声識別部1103が用いる第二閾値より低い値に設定する。そして、第一音声非音声識別部1102は、判定結果を第一コムフィルタ生成部2101に出力する。
【0184】
第二音声非音声識別部1103は、周波数分割部104から出力された音声スペクトル信号とノイズベース推定部1101から出力されるノイズベースの値の差が所定の第二閾値以上である場合、音声成分を含む有音部分と判定し、それ以外の場合、音声成分を含まない雑音のみの無音部分であると判定する。そして、第二音声非音声識別部1103は、判定結果を第二コムフィルタ生成部2103に出力する。
【0185】
第一コムフィルタ生成部2101は、各周波数成分における音声成分の有無に基づいてピッチ調波を強調する第一コムフィルタを生成して第一ミュジカルノイズ抑圧部2102に出力する。第一コムフィルタ生成の具体的な動作は、実施の形態8の第一コムフィルタ生成部1105と同様の動作を行う。そして、第一コムフィルタ生成部2101は、第一ミュジカルノイズ抑圧部2102において修正された第一コムフィルタをコムフィルタ修正部1108に出力する。
【0186】
第一ミュジカルノイズ抑圧部2102は、第一コムフィルタの各周波数成分の状態の中でオン、つまり信号を減衰せずに出力する状態の数が一定の閾値以下である場合、フレームに突発性ノイズが含まれていると判断する。例えば、以下の式(5)を用いてコムフィルタでオンになっている周波数成分の数を計算し、COMB_SUM(n)がある閾値(例えば10)より小さい場合、ミュジカルノイズが発生していると判断する。
【数21】

【0187】
そして、第一ミュジカルノイズ抑圧部2102は、コムフィルタのすべての周波数成分の状態をオフつまり信号を減衰して出力する状態に設定してコムフィルタを第一コムフィルタ生成部2101に出力する。
【0188】
第二コムフィルタ生成部2103は、各周波数成分における音声成分の有無に基づいてピッチ調波を強調する第二コムフィルタを生成して第二ミュジカルノイズ抑圧部2104に出力する。第二コムフィルタ生成の具体的な動作は、実施の形態8の第二コムフィルタ生成部1106と同様の動作を行う。そして、第二コムフィルタ生成部2103は、第二ミュジカルノイズ抑圧部2104において修正された第二コムフィルタを音声ピッチ修復部1107に出力する。
【0189】
第二ミュジカルノイズ抑圧部2104は、第一コムフィルタの各周波数成分の状態の中でオン、つまり信号を減衰せずに出力する状態の数が一定の閾値以下である場合、フレームに突発性ノイズが含まれていると判断する。
【0190】
例えば、以下の式(5)を用いてコムフィルタでオンになっている周波数成分の数を計算し、COMB_SUM(n)がある閾値(例えば10)より小さい場合、ミュジカルノイズが発生していると判断する。
【数22】

【0191】
そして、第二ミュジカルノイズ抑圧部2104は、コムフィルタのすべての周波数成分の状態をオフつまり信号を減衰して出力する状態に設定してコムフィルタを第二コムフィルタ生成部2103に出力する。
【0192】
音声ピッチ修復部1107は、音声ピッチ推定部1104から出力された推定結果に基づいて第二コムフィルタ生成部2103から出力された第二コムフィルタの修正を行い、コムフィルタ修正部1108に出力する。
【0193】
コムフィルタ修正部1108は、音声ピッチ修復部1107において生成されたピッチ修復コムフィルタを用いて第一コムフィルタ生成部2101において生成された第一コムフィルタを修正し、修正したコムフィルタを音声分離係数計算部1109に出力する。
【0194】
このように、本実施の形態の音声処理装置によれば、第一コムフィルタと第二コムフィルタの生成結果からミュジカルノイズ発生を判断することにより、ノイズが音声信号と誤判断されることを防ぎ、音声歪の少ない音声強調を行うことができる。
【0195】
(実施の形態11)
図22は、実施の形態11にかかる音声処理装置の構成の例を示すブロック図である。但し、図1及び図11と共通する構成については図1及び図11と同一番号を付し、詳しい説明を省略する。図22の音声処理装置は、平均値計算部2201を具備し、周波数成分単位で音声スペクトルのパワの平均値を求める点が、図1又は図11と異なる。
【0196】
図22において、周波数分割部104は、FFT部103から出力された音声スペクトルを周波数成分に分割して、各周波数成分毎に音声スペクトルをノイズベース推定部1101と、第一音声非音声識別部1102と、乗算部109と、平均値計算部2201に出力する。
【0197】
平均値計算部2201は、周波数分割部104から出力された音声スペクトルのパワーについて、近辺の周波数成分との平均値及び過去に処理したフレームとの平均値をとり、得られた平均値を第二音声非音声識別部1103に出力する。
【0198】
具体的には、以下に示す式(19)を用いて音声スペクトルの平均値を算出する。
【数23】

【0199】
ここで、k1、k2は周波数成分を示し、k1<k<k2である。n1は過去に処理を行ったフレームを示す番号、nは処理を行うフレームを示す番号を示す。
【0200】
第二音声非音声識別部1103は、平均値計算部2201から出力された音声スペクトル信号の平均値とノイズベース推定部1101から出力されるノイズベースの値の差が所定の第二閾値以上である場合、音声成分を含む有音部分と判定し、それ以外の場合、音声成分を含まない雑音のみの無音部分であると判定する。そして、第二音声非音声識別部1103は、判定結果を第二コムフィルタ生成部1106に出力する。
【0201】
このように、本発明の実施の形態11に係る音声処理装置によれば、各周波数成分における音声スペクトルのパワ平均値又は過去に処理を行ったフレームと処理を行うフレームのパワ平均値を求めることにより、突発性雑音成分の影響は小さくなり、音声情報のみをとりだす第二コムフィルタをより正確に生成することができる。
【0202】
(実施の形態12)
図23は、実施の形態12にかかる音声処理装置の構成の例を示すブロック図である。但し、図1、図11及び図19と共通する構成については図1、図11及び図19と同一番号を付し、詳しい説明を省略する。図23の音声処理装置は、コムフィルタリセット部2301を具備し、音声成分を含まないフレームに対して全周波数成分で減衰を行うコムフィルタを生成する点が、図1、図11又は図19と異なる。
【0203】
図23において、音声雑音フレーム検出部1902は、SNR計算部1901から出力されたSNRからフレーム単位で入力信号が音声信号か雑音信号かを判断し、判断結果を音声ピッチ推定部1104に出力する。
【0204】
具体的には、音声雑音フレーム検出部1902は、SNRが所定の閾値より大きい場合、入力した信号を音声信号(音声フレーム)と判断し、SNRが所定の閾値以下であるフレームが所定の数以上連続して発生した場合、入力した信号を雑音信号(雑音フレーム)と判断する。そして、音声雑音フレーム検出部1902は、判断結果を、音声ピッチ推定部1104とコムフィルタリセット部2301に出力する。
【0205】
コムフィルタリセット部2301は、音声雑音フレーム検出部1902から出力された判断結果に基づいて、音声スペクトルが音声成分を含まないノイズ成分のみと判断された場合、コムフィルタ修正部1108にすべての周波数成分のコムフィルタをオフにする指示を出力する。
【0206】
コムフィルタ修正部1108は、音声ピッチ修復部1107において生成されたピッチ修復コムフィルタを用いて第一コムフィルタ生成部1105において生成された第一コムフィルタを修正し、修正したコムフィルタを音声分離係数計算部1109に出力する。
【0207】
また、コムフィルタ修正部1108は、コムフィルタリセット部2301の指示に従い音声スペクトルが音声成分を含まないノイズ成分のみと判断された場合に、すべての周波数成分でオフにした第一コムフィルタを生成して音声分離係数計算部1109に出力する。
【0208】
このように、本実施の形態の音声処理装置によれば、音声成分を含まないフレームに全周波数成分で減衰を行い、音声を含まない信号区間でノイズを全帯域でカットすることにより、音声抑圧処理に起因するノイズの発生を防ぐことができるので、音声歪の少ない音声強調を行うことができる。
【0209】
(実施の形態13)
図24は、実施の形態13にかかる音声処理装置の構成の例を示すブロック図である。但し、図1と共通する構成については図1と同一番号を付し、詳しい説明を省略する。
【0210】
図24の音声処理装置は、雑音分離コムフィルタ生成部2401と、雑音分離係数計算部2402と、乗算部2403と、雑音周波数合成部2404とを具備し、周波数成分単位でスペクトル信号の音声非音声を判別して、周波数成分単位で判別結果に基づいた周波数特性の減衰を行い、正確なピッチ情報を得て雑音成分のみを取り出すコムフィルタを作成して雑音の特性を抽出する点が、図1の音声処理装置と異なる。
【0211】
音声非音声識別部106は、周波数分割部104から出力された音声スペクトル信号とノイズベース推定部105から出力されるノイズベースの値の差が所定の閾値以上である場合、雑音成分を含む有音部分と判定し、それ以外の場合、音声成分を含まない雑音のみの無音部分であると判定する。そして、音声非音声識別部106は、判定結果をノイズベース推定部105と雑音分離コムフィルタ生成部2401に出力する。
【0212】
雑音分離コムフィルタ生成部2401は、各周波数成分における音声成分の有無に基づいてピッチ調波を強調するコムフィルタを生成して、このコムフィルタを雑音分離係数計算部2402に出力する。
【0213】
具体的には、音声非音声識別部106において、入力された音声信号のパワースペクトルが、音声とノイズを判別する第一閾値と、入力された音声信号のパワースペクトルとの乗算結果以上である場合、すなわち、式(20)を満たす場合、雑音分離コムフィルタ生成部2401は、当該周波数成分のフィルタの値を「1」とする。
【数24】

【0214】
また、音声非音声識別部106において、入力された音声信号のパワースペクトルが、音声とノイズを判別する第一閾値と、入力された音声信号のパワースペクトルとの乗算結果より小さい場合、すなわち、式(21)を満たす場合、雑音分離コムフィルタ生成部2401は、当該周波数成分のコムフィルタの値を「0」とする。ここで、θnosは、雑音分離に用いる閾値である。
【数25】

【0215】
雑音分離係数計算部2402は、雑音分離コムフィルタ生成部2401において生成されたコムフィルタに、周波数特性に基づいた減衰係数を乗算して、各周波数成分毎に入力信号の減衰係数の設定を行い、各周波数成分の減衰係数を乗算部2403に出力する。具体的には、雑音分離係数計算部2402は、コムフィルタCOMB_nos(k)の値が0、すなわち阻止領域である場合、雑音分離係数sepn(k)=1とする。
【0216】
そして、コムフィルタCOMB_nos(k)の値が1、すなわち通過領域である場合、以下の式(22)から雑音分離係数sepn(k)を算出する。
【数26】

【0217】
ここで、r(i)は、ランダム関数で均一分布の乱数で構成される。また、kはビンを特定する変数であり、kのとりうる範囲は0以上、FFT変換長つまり高速フーリエ変換を行うデータ数の半数未満である。
【0218】
乗算部2403は、周波数分割部104から出力された音声スペクトルに雑音分離係数計算部2402から出力された雑音分離係数を周波数成分単位で乗算する。そして、乗算の結果得られたスペクトルを雑音周波数合成部2404に出力する。
【0219】
雑音周波数合成部2404は、乗算部2403から出力された周波数成分単位のスペクトルを所定の処理時間単位で、周波数領域で連続する音声スペクトルに合成してIFFT部111に出力する。IFFT部111は、雑音周波数合成部2404から出力された音声スペクトルにIFFTを行って音声信号に変換した信号を出力する。
【0220】
このように、本実施の形態の音声処理装置は、周波数成分単位でスペクトル信号の音声非音声を判別して、周波数成分単位で判別結果に基づいた周波数特性の減衰を行うことにより、正確なピッチ情報を得て雑音成分のみを取り出すコムフィルタを作成でき、雑音の特性を抽出することができる。また、コムフィルタの阻止域において雑音成分を減衰せず、コムフィルタの通過域において雑音成分をノイズベースの推定値と乱数を乗算して再構成することにより良好な雑音分離特性を得ることができる。
【0221】
(実施の形態14)
図25は、実施の形態14にかかる音声処理装置の構成の例を示すブロック図である。但し、図1及び図24と共通する構成については図1及び図24と同一番号を付し、詳しい説明を省略する。
【0222】
図25の音声処理装置は、SNR計算部2501と、音声雑音フレーム検出部2502と、雑音コムフィルタリセット部2503と、雑音分離コムフィルタ生成部2504とを具備し、入力音声信号において音声成分を含まないフレームに対する雑音分離コムフィルタの周波数通過域を全て阻止域とする点が、図1及び図24の音声処理装置と異なる。
【0223】
SNR計算部2501は、周波数分割部104から出力された音声スペクトルから出力された第一コムフィルタから音声信号のSNRを計算し、計算結果を音声雑音フレーム検出部2502に出力する。
【0224】
音声雑音フレーム検出部2502は、SNR計算部2501から出力されたSNRからフレーム単位で入力信号が音声信号か雑音信号かを判断し、判断結果を雑音コムフィルタリセット部2503に出力する。具体的には、音声雑音フレーム検出部2502は、SNRが所定の閾値より大きい場合、入力した信号を音声信号(音声フレーム)と判断し、SNRが所定の閾値以下であるフレームが所定の数以上連続して発生した場合、入力した信号を雑音信号(雑音フレーム)と判断する。
【0225】
雑音コムフィルタリセット部2503は、音声雑音フレーム検出部2502における判定結果が、入力音声信号のフレームに音声成分が含まれず雑音成分のみである判定結果である場合、雑音分離コムフィルタ生成部2504にコムフィルタの全ての周波数通過域を阻止域に変換する指示を出力する。
【0226】
雑音分離コムフィルタ生成部2504は、各周波数成分における音声成分の有無に基づいてピッチ調波を強調するコムフィルタを生成して、このコムフィルタを雑音分離係数計算部2402に出力する。
【0227】
具体的には、音声非音声識別部106において、入力された音声信号のパワースペクトルが、音声とノイズを判別する第一閾値と、入力された音声信号のパワースペクトルとの乗算結果以上である場合、すなわち、式(20)を満たす場合、雑音分離コムフィルタ生成部2504は、当該周波数成分のフィルタの値を「1」とする。
【数27】

【0228】
また、音声非音声識別部106において、入力された音声信号のパワースペクトルが、音声とノイズを判別する第一閾値と、入力された音声信号のパワースペクトルとの乗算結果より小さい場合、すなわち、式(21)を満たす場合、雑音分離コムフィルタ生成部2504は、当該周波数成分のコムフィルタの値を「0」とする。ここで、θnosは、雑音分離に用いる閾値である。
【数28】

【0229】
また、雑音分離コムフィルタ生成部2504は、雑音コムフィルタリセット部2503からコムフィルタの全ての周波数通過域を阻止域に変換する指示を受け取った場合、指示に従いコムフィルタの全ての周波数通過域を阻止域に変換する。
【0230】
このように、本実施の形態の音声処理装置によれば、入力音声信号のフレームが音声を含まず、雑音成分のみと判断した場合、コムフィルタの全ての周波数通過域を阻止域に変換することにより、音声を含まない信号区間でノイズを全帯域でカットすることができ、良好な雑音分離特性が得られる。
【0231】
(実施の形態15)
図26は、実施の形態15にかかる音声処理装置の構成の例を示すブロック図である。但し、図1及び図24と共通する構成については図1及び図24と同一番号を付し、詳しい説明を省略する。図26の音声処理装置は、平均値計算部2601を具備し、各周波数成分における音声スペクトルのパワ平均値又は過去に処理を行ったフレームと処理を行うフレームのパワ平均値を求める点が、図1及び図24の音声処理装置と異なる。
【0232】
平均値計算部2601は、乗算部2403から出力された音声スペクトルのパワについて、近辺の周波数成分との平均値及び過去に処理したフレームとの平均値をとり、得られた平均値を雑音周波数合成部2404に出力する。具体的には、以下に示す式(6)を用いて音声スペクトルの平均値を算出する。
【数29】

【0233】
ここで、k1、k2は周波数成分を示し、k1<k<k2である。n1は過去に処理を行ったフレームを示す番号、nは処理を行うフレームを示す番号を示す。
【0234】
このように、本発明の実施の形態15に係る音声処理装置によれば、各周波数成分における音声スペクトルのパワ平均値又は過去に処理を行ったフレームと処理を行うフレームのパワ平均値を求めることにより、突発性雑音成分の影響は小さくなる。
【0235】
(実施の形態16)
図27は、実施の形態16にかかる音声処理装置の構成の例を示すブロック図である。但し、図1と共通する構成については図1と同一番号を付し、詳しい説明を省略する。図27の音声処理装置は、図11の音声処理装置と図24の音声処理装置を組み合わせて、音声強調と雑音抽出とを行う例である。
【0236】
図27において、周波数分割部104は、FFT部103から出力された音声スペクトルを周波数成分に分割して、各周波数成分毎に音声スペクトルをノイズベース推定部1101、第一音声非音声識別部1102、第二音声非音声識別部1103、音声ピッチ推定部1104、乗算部2403、及び第三音声非音声識別部2701に出力する。
【0237】
ノイズベース推定部1101は、第一音声非音声識別部1102からフレームに音声成分が含まれている判定結果が出力された場合、過去に推定したノイズベースを第一音声非音声識別部1102に出力する。また、ノイズベース推定部1101は、第二音声非音声識別部1103からフレームに音声成分が含まれている判定結果が出力された場合、過去に推定したノイズベースを第二音声非音声識別部1103に出力する。同様に、ノイズベース推定部1101は、第三音声非音声識別部2701からフレームに音声成分が含まれている判定結果が出力された場合、過去に推定したノイズベースを第三音声非音声識別部2701に出力する。
【0238】
また、ノイズベース推定部1101は、第一音声非音声識別部1102、第二音声非音声識別部1103、または第三音声非音声識別部2701からフレームに音声成分が含まれていない判定結果が出力された場合、周波数分割部104から出力された音声スペクトルの周波数成分毎の短時間パワースペクトルとスペクトルの変化の平均量を表す移動平均値を算出して、過去に算出した移動平均値とパワースペクトルの加重平均値をとり、新しい移動平均値を算出する。
【0239】
第一音声非音声識別部1102は、周波数分割部104から出力された音声スペクトル信号とノイズベース推定部1101から出力されるノイズベースの値の差が所定の第一閾値以上である場合、音声成分を含む有音部分と判定し、それ以外の場合、音声成分を含まない雑音のみの無音部分であると判定する。第一音声非音声識別部1102では、第一コムフィルタ生成部1105が音声ピッチ情報を出来る限り多く抽出するフィルタを生成するために、第一閾値を後述する第二音声非音声識別部1103が用いる第二閾値より低い値に設定する。
【0240】
そして、第一音声非音声識別部1102は、判定結果を第一コムフィルタ生成部1105に出力する。
【0241】
第二音声非音声識別部1103は、周波数分割部104から出力された音声スペクトル信号とノイズベース推定部1101から出力されるノイズベースの値の差が所定の第二閾値以上である場合、音声成分を含む有音部分と判定し、それ以外の場合、音声成分を含まない雑音のみの無音部分であると判定する。そして、第二音声非音声識別部1103は、判定結果を第二コムフィルタ生成部1106に出力する。
【0242】
第一コムフィルタ生成部1105は、各周波数成分における音声成分の有無に基づいてピッチ調波を強調する第一コムフィルタを生成してコムフィルタ修正部1108に出力する。
【0243】
音声ピッチ推定部1104は、周波数分割部104から出力された音声スペクトルから音声ピッチ周期を推定し、推定結果を音声ピッチ修復部1107に出力する。音声ピッチ修復部1107は、音声ピッチ推定部1104から出力された推定結果に基づいて第二コムフィルタの修正を行い、コムフィルタ修正部1108に出力する。
【0244】
コムフィルタ修正部1108は、音声ピッチ修復部1107において生成されたピッチ修復コムフィルタを用いて第一コムフィルタ生成部1105において生成された第一コムフィルタを修正し、修正したコムフィルタを音声分離係数計算部1109に出力する。
【0245】
音声分離係数計算部1109は、コムフィルタ修正部1108において修正されたコムフィルタに周波数特性に基づいた分離係数を乗算し、各周波数成分毎に入力信号の分離係数を算出して乗算部109に出力する。乗算部109は、周波数分割部104から出力された音声スペクトルに音声分離係数計算部1109から出力された減衰係数を周波数成分単位で乗算する。そして、乗算の結果得られたスペクトルを周波数合成部110に出力する。
【0246】
第三音声非音声識別部2701は、周波数分割部104から出力された音声スペクトル信号とノイズベース推定部1101から出力されるノイズベースの値の差が所定の閾値以上である場合、雑音成分を含む有音部分と判定し、それ以外の場合、音声成分を含まない雑音のみの無音部分であると判定する。そして、第三音声非音声識別部2701は、判定結果をノイズベース推定部1101と雑音分離コムフィルタ生成部2401に出力する。
【0247】
雑音分離コムフィルタ生成部2401は、各周波数成分における音声成分の有無に基づいて音声ピッチを強調するコムフィルタを生成して、このコムフィルタを雑音分離係数計算部2402に出力する。雑音分離係数計算部2402は、雑音分離コムフィルタ生成部2401において生成されたコムフィルタに、周波数特性に基づいた減衰係数を乗算して、各周波数成分毎に入力信号の減衰係数の設定を行い、各周波数成分の減衰係数を乗算部2403に出力する。
【0248】
乗算部2403は、周波数分割部104から出力された音声スペクトルに雑音分離係数計算部2402から出力された雑音分離係数を周波数成分単位で乗算する。そして、乗算の結果得られたスペクトルを雑音周波数合成部2404に出力する。雑音周波数合成部2404は、乗算部2403から出力された周波数成分単位のスペクトルを所定の処理時間単位で、周波数領域で連続する音声スペクトルに合成してIFFT部2702に出力する。
【0249】
IFFT部2702は、雑音周波数合成部2404から出力された音声スペクトルにIFFTを行って音声信号に変換した信号を出力する。
【0250】
このように、本実施の形態の音声処理装置によれば、周波数成分単位でスペクトル信号の音声非音声を判別して、周波数成分単位で判別結果に基づいた周波数特性の減衰を行うことにより、正確なピッチ情報を得ることができるので、大きな減衰で雑音抑圧を行っても音声歪の少ない音声強調を行うことができる。また、同時に雑音抽出を行うこともできる。
【0251】
なお、本発明の音声処理装置は、実施の形態16の音声処理装置の例に限らず、上記各実施の形態は、それぞれ組み合わせて適用することができる。
【0252】
また、上記いずれかの実施の形態に係る音声強調及び雑音抽出は、音声処理装置として説明しているが、この音声強調及び雑音抽出をソフトウェアにより実現することもできる。例えば、上記音声強調及び雑音抽出を行うプログラムを予めROM(Read Only Memory)に格納しておき、そのプログラムをCPU(Central Processor Unit)によって動作するようにしてもよい。
【0253】
また、上記音声強調及び雑音抽出を行うプログラムをコンピュータ読み取り可能な記憶媒体に格納し、記憶媒体に格納されたプログラムをコンピュータのRAM(Random Access Memory)に記録して、コンピュータをそのプログラムに従って実行させてもよい。このような場合においても、上記実施の形態と同様の作用及び効果を呈する。
【0254】
また、上記音声強調を行うプログラムをサーバに格納し、サーバに格納されたプログラムをクライアントに転送して、クライアント上でそのプログラムを実行させてもよい。このような場合においても、上記実施の形態と同様の作用及び効果を呈する。
【0255】
また、上記いずれかの実施の形態に係る音声処理装置は、無線通信装置、通信端末、基地局装置等に搭載することもできる。この結果、通信時の音声を音声強調または雑音抽出できる。
【図面の簡単な説明】
【0256】
【図1】本発明の実施の形態1に係る音声処理装置の構成を示すブロック図
【図2】上記実施の形態における音声処理装置の動作を示すフロー図
【図3】上記実施の形態における音声処理装置で作成されるコムフィルタの例を示す図
【図4】実施の形態2にかかる音声処理装置の構成の例を示すブロック図
【図5】実施の形態3にかかる音声処理装置の構成の例を示すブロック図
【図6】実施の形態4にかかる音声処理装置の構成の例を示すブロック図
【図7】実施の形態5にかかる音声処理装置の構成の例を示すブロック図
【図8】実施の形態6にかかる音声処理装置の構成の例を示すブロック図
【図9】上記実施の形態における音声処理装置におけるコムフィルタの修復の例を示す図
【図10】実施の形態7にかかる音声処理装置の構成の例を示すブロック図
【図11】実施の形態8にかかる音声処理装置の構成の例を示すブロック図
【図12】コムフィルタの一例を示す図
【図13】コムフィルタの一例を示す図
【図14】コムフィルタの一例を示す図
【図15】コムフィルタの一例を示す図
【図16】コムフィルタの一例を示す図
【図17】コムフィルタの一例を示す図
【図18】コムフィルタの一例を示す図
【図19】実施の形態9にかかる音声処理装置の構成の例を示すブロック
【図20】本実施の形態の音声処理装置の音声雑音判断プログラムの一例を示す図
【図21】実施の形態10にかかる音声処理装置の構成の例を示すブロック図
【図22】実施の形態11にかかる音声処理装置の構成の例を示すブロック図
【図23】実施の形態12にかかる音声処理装置の構成の例を示すブロック図
【図24】実施の形態13にかかる音声処理装置の構成の例を示すブロック図
【図25】実施の形態14にかかる音声処理装置の構成の例を示すブロック図
【図26】実施の形態15にかかる音声処理装置の構成の例を示すブロック図
【図27】実施の形態16にかかる音声処理装置の構成の例を示すブロック図
【図28】従来のコムフィルタ法を用いた音声処理装置の例を示す図
【図29】コムフィルタの減衰特性を示す図
【符号の説明】
【0257】
104 周波数分割部
105、1101 ノイズベース推定部
106 音声非音声識別部
107 コムフィルタ生成部
108 減衰係数計算部
109、2403 乗算部
110 周波数合成部
401 ノイズ区間判別部
402 ノイズベース追跡部
501 ミュジカルノイズ抑制部
502、1108 コムフィルタ修正部
601、2201、2601 平均値計算部
701 区間判別部
702、2301 コムフィルタリセット部
801 音声ピッチ周期推定部
802、1107 音声ピッチ修復部
1001 閾値自動調整部
1102 第一音声非音声識別部
1103 第二音声非音声識別部
1104、1903 音声ピッチ推定部
1105、2101 第一コムフィルタ生成部
1106、2103 第二コムフィルタ生成部
1109 音声分離係数計算部
1901、2501 SNR計算部
1902、2502 音声雑音フレーム検出部
2102 第一ミュジカルノイズ抑圧部
2104 第二ミュジカルノイズ抑圧部
2401 雑音分離コムフィルタ生成部
2402 雑音分離係数計算部
2404 雑音周波数合成部
2503 雑音コムフィルタリセット部
2504 雑音分離コムフィルタ生成部
2701 第三音声非音声識別部



【特許請求の範囲】
【請求項1】
入力信号の音声スペクトルを所定の周波数領域単位で分割する周波数分割手段と、
前記周波数分割手段にて周波数分割された音声スペクトルである分割音声スペクトルに音声成分が含まれているか否か識別する音声/非音声識別手段と、
前記音声/非音声識別手段の識別結果に基づいて音声成分の含まれる周波数領域を通過域とし、音声成分の含まれていない周波数領域を阻止域とするコムフィルタを生成するコムフィルタ生成手段と、
周波数特性に基づいた減衰係数を前記コムフィルタに乗算することにより前記周波数領域毎の減衰係数を設定し、前記各分割音声スペクトルに前記対応する周波数領域の減衰係数を乗算することにより前記分割音声スペクトルの雑音成分を抑圧する雑音抑圧手段と、
前記雑音成分が抑圧された分割音声スペクトルを周波数領域で連続した音声スペクトルに合成する周波数合成手段と、を具備することを特徴とする音声処理装置。
【請求項2】
音声/非音声識別手段は、前記分割音声スペクトルのパワと雑音成分のスペクトルであるノイズベースのパワとの差分値が所定の閾値より大きい場合に前記分割音声スペクトルに音声成分が含まれていると判断し、前記差分値が前記閾値以下の場合に前記分割音声スペクトルに音声成分が含まれていないと判断することを特徴とする請求項1に記載の音声処理装置。
【請求項3】
前記分割音声スペクトルのパワの平均値をとる平均値計算手段を具備し、音声/非音声識別手段は、前記分割音声スペクトルのパワの平均値と雑音成分のスペクトルであるノイズベースのパワとの差分値が所定の閾値より大きい場合に前記分割音声スペクトルに音声成分が含まれていると判断し、前記差分値が前記閾値以下の場合に前記分割音声スペクトルに音声成分が含まれていないと判断することを特徴とする請求項2に記載の音声処理装置。
【請求項4】
音声成分の含まれない周波数領域のノイズベースを、過去に推定したノイズベースの平均値と前記分割音声スペクトルのパワを加重平均した平均値に基づいて更新するノイズベース推定手段を具備することを特徴とする請求項1から請求項3のいずれかに記載の音声処理装置。
【請求項5】
雑音抑圧手段は、前記コムフィルタの阻止域における前記分割音声スペクトルに対して減衰を行うことを特徴とする請求項1から請求項4のいずれかに記載の音声処理装置。
【請求項6】
音声ピッチ周波数を推定するピッチ周波数推定手段と、前記音声ピッチ周波数及び前記分割音声スペクトルに基づいて前記コムフィルタのピッチ調波の幅を修正するピッチ修正手段と、を具備し、前記雑音抑圧手段は、前記ピッチ調波の幅が修正されたコムフィルタを用いて前記分割音声スペクトルの雑音成分を抑圧することを特徴とする請求項1から請求項5のいずれかに記載の音声処理装置。
【請求項7】
前記コムフィルタの通過域における周波数成分の数が所定の数より大きい場合には前記閾値を大きくし、前記コムフィルタの通過域における周波数成分の数が前記所定の数以下の場合には前記閾値を小さくする閾値調整手段を具備することを特徴とする請求項2又は請求項3記載の音声処理装置。
【請求項8】
入力信号の音声スペクトルが音声を含むか否かを判断する区間判別手段と、前記区間判別手段にて音声スペクトルが音声成分を含まないノイズ成分のみと判断された場合、前記コムフィルタを全て阻止域にするコムフィルタリセット手段と、を具備することを特徴とする請求項1から請求項7のいずれかに記載の音声処理装置。
【請求項9】
前記コムフィルタの通過域における周波数成分の数が所定の数以下である場合、前記コムフィルタを全て阻止域にするミュジカルノイズ抑圧手段を具備することを特徴とする請求項1から請求項8のいずれかに記載の音声処理装置。
【請求項10】
入力信号の音声スペクトルを所定の周波数領域単位で分割する周波数分割手段と、
前記周波数分割手段にて周波数分割された音声スペクトルである分割音声スペクトルに音声成分が含まれているか否か識別する第一音声/非音声識別手段と、
前記第一音声/非音声識別手段の識別結果に基づいて音声成分の含まれる周波数領域を通過域とし、音声成分の含まれていない周波数領域を阻止域とする第一コムフィルタを生成する第一コムフィルタ生成手段と、
前記第一音声/非音声識別手段と異なる条件で前記分割音声スペクトルに音声成分が含まれているか否か識別する第二音声/非音声識別手段と、
前記第二音声/非音声識別手段の識別結果に基づいて音声成分の含まれる周波数領域を通過域とし、音声成分の含まれていない周波数領域を阻止域とする第二コムフィルタを生成する第二コムフィルタ生成手段と、
前記分割音声スペクトルから入力音声信号のピッチ周波数を推定する音声ピッチ推定手段と、
前記音声ピッチ推定手段において推定されたピッチ周波数に基づいて前記第二コムフィルタのピッチ調波の幅を修復してピッチ修復コムフィルタを生成する音声ピッチ修復手段と、
前記ピッチ修復コムフィルタに基づいて前記第一コムフィルタの修正を行い、修正コムフィルタを生成するコムフィルタ修正手段と、
周波数特性に基づいた減衰係数を前記修正コムフィルタに乗算することにより前記周波数領域毎の減衰係数を設定し、前記各分割音声スペクトルに前記対応する周波数領域の減衰係数を乗算することにより前記分割音声スペクトルの雑音成分を抑圧する雑音抑圧手段と、
前記雑音成分が抑圧された分割音声スペクトルを周波数領域で連続した音声スペクトルに合成する周波数合成手段と、を具備することを特徴とする音声処理装置。
【請求項11】
前記第一音声/非音声識別手段は、前記分割音声スペクトルのパワと雑音成分のスペクトルであるノイズベースのパワとの差分値が所定の第一閾値より大きい場合に前記分割音声スペクトルに音声成分が含まれていると判断し、前記差分値が前記第一閾値以下の場合に前記分割音声スペクトルに音声成分が含まれていないと判断し、
前記第二音声/非音声識別手段は、前記分割音声スペクトルのパワとノイズベースのパワとの差分値が前記第一閾値より大きい第二閾値より大きい場合に前記分割音声スペクトルに音声成分が含まれていると判断し、前記差分値が前記第二閾値以下の場合に前記分割音声スペクトルに音声成分が含まれていないと判断することを特徴とする請求項10に記載の音声処理装置。
【請求項12】
前記分割音声スペクトルのパワの平均値をとる平均値計算手段を具備し、前記第二音声/非音声識別手段は、前記分割音声スペクトルのパワの平均値と雑音成分のスペクトルであるノイズベースのパワとの差分値が前記第二閾値より大きい場合に前記分割音声スペクトルに音声成分が含まれていると判断し、前記差分値が前記第二閾値以下の場合に前記分割音声スペクトルに音声成分が含まれていないと判断することを特徴とする請求項11に記載の音声処理装置。
【請求項13】
前記分割音声スペクトルのパワと前記第一または第二コムフィルタとから音声対雑音の比を算出するSNR算出手段と、前記音声対雑音の比に基づいて音声フレームか雑音フレームかを検出する音声/雑音フレーム検出手段と、を具備し、音声ピッチ推定手段は、前記音声/雑音フレーム検出手段において音声フレームと判定された場合、前記ピッチ周波数を推定することを特徴とする請求項10から請求項12のいずれかに記載の音声処理装置。
【請求項14】
前記音声/雑音フレーム検出手段において雑音フレームと判定された場合、前記修正コムフィルタを全て阻止域にするコムフィルタリセット手段を具備することを特徴とする請求項13記載の音声処理装置。
【請求項15】
コムフィルタ修正手段は、前記第一コムフィルタの通過域の周波数成分の中で前記ピッチ修復コムフィルタの通過域の周波数成分と重複している周波数成分を前記修正コムフィルタの通過域とし、この通過域以外の周波数領域を前記修正コムフィルタの阻止域とすることを特徴とする請求項10から請求項14のいずれかに記載の音声処理装置。
【請求項16】
前記第一コムフィルタの通過域における周波数成分の数が所定の数以下である場合、前記第一コムフィルタを全て阻止域にする第一ミュジカルノイズ抑圧手段と、
前記第二コムフィルタの通過域における周波数成分の数が所定の数以下である場合、前記第二コムフィルタを全て阻止域とする第二ミュジカルノイズ抑圧手段と、を具備することを特徴とする請求項10から請求項15のいずれかに記載の音声処理装置。
【請求項17】
入力信号の音声スペクトルを所定の周波数領域単位で分割する周波数分割手段と、
前記周波数分割手段にて周波数分割された音声スペクトルである分割音声スペクトルに音声成分が含まれているか否か識別する音声/非音声識別手段と、
前記分割音声スペクトルのパワが雑音成分のスペクトルであるノイズベースのパワと所定の閾値との乗算結果より大きい場合に当該周波数領域を通過域とし、前記分割音声スペクトルのパワが前記乗算結果以下の場合に当該周波数領域を阻止域とする雑音分離コムフィルタを生成するコムフィルタ生成手段と、
周波数特性に基づいた減衰係数を前記雑音分離コムフィルタに乗算することにより前記周波数領域毎の減衰係数を設定し、前記各分割音声スペクトルに前記対応する周波数領域の減衰係数を乗算することにより前記分割音声スペクトルの雑音成分を抽出する雑音分離係数計算手段と、
前記雑音成分が抽出された分割音声スペクトルを周波数領域で連続した音声スペクトルに合成する周波数合成手段と、を具備することを特徴とする音声処理装置。
【請求項18】
前記雑音分離係数計算手段は、前記コムフィルタの通過域においてノイズベースの推定値と乱数を乗算して前記雑音成分を抽出することを特徴とする請求項17に記載の音声処理装置。
【請求項19】
前記分割音声スペクトルのパワと前記第一または第二コムフィルタとから音声対雑音の比を算出するSNR算出手段と、前記音声対雑音の比に基づいて音声フレームか雑音フレームかを検出する音声/雑音フレーム検出手段と、前記音声/雑音フレーム検出手段にて音声スペクトルが音声成分を含まないノイズ成分のみと判断された場合、前記雑音分離コムフィルタを全て阻止域にするコムフィルタリセット手段と、を具備することを特徴とする請求項17又は請求項18に記載の音声処理装置。
【請求項20】
前記雑音分離コムフィルタを用いた音声処理後の分割音声スペクトルの周波数平均及び時間平均を算出するスペクトル平均手段を具備することを特徴とする請求項17又は請求項18に記載の音声処理装置。
【請求項21】
請求項1から請求項20のいずれかに記載の音声処理装置を有することを特徴とする無線通信装置。
【請求項22】
入力信号の音声スペクトルを所定の周波数領域単位で分割する周波数分割手順と、
前記周波数分割手順にて周波数分割された音声スペクトルである分割音声スペクトルに音声成分が含まれているか否か識別する音声/非音声識別手順と、
前記音声/非音声識別手順の識別結果に基づいて音声成分の含まれる周波数領域を通過域とし、音声成分の含まれていない周波数領域を阻止域とするコムフィルタを生成するコムフィルタ生成手順と、
周波数特性に基づいた減衰係数を前記コムフィルタに乗算することにより前記周波数領域毎の減衰係数を設定し、前記各分割音声スペクトルに前記対応する周波数領域の減衰係数を乗算することにより前記分割音声スペクトルの雑音成分を抑圧する雑音抑圧手順と、
前記雑音成分が抑圧された分割音声スペクトルを周波数領域で連続した音声スペクトルに合成する周波数合成手順と、を含む音声処理プログラム。
【請求項23】
入力信号の音声スペクトルを所定の周波数領域単位で分割する周波数分割手順と、
前記周波数分割手順にて周波数分割された音声スペクトルである分割音声スペクトルに音声成分が含まれているか否か識別する第一音声/非音声識別手順と、
前記第一音声/非音声識別手順の識別結果に基づいて音声成分の含まれる周波数領域を通過域とし、音声成分の含まれていない周波数領域を阻止域とするコムフィルタを生成する第一コムフィルタ生成手順と、
前記第一音声/非音声識別手順と異なる条件で前記分割音声スペクトルに音声成分が含まれているか否か識別する第二音声/非音声識別手順と、
前記第二音声/非音声識別手順の識別結果に基づいて音声成分の含まれる周波数領域を通過域とし、音声成分の含まれていない周波数領域を阻止域とする第二コムフィルタを生成する第二コムフィルタ生成手順と、
前記分割音声スペクトルから入力音声信号のピッチ周波数を推定する音声ピッチ推定手順と、
前記音声ピッチ推定手順において推定されたピッチ周波数に基づいて前記第二コムフィルタのピッチ調波の幅を修復してピッチ修復コムフィルタを生成する音声ピッチ修復手順と、
前記ピッチ修復コムフィルタに基づいて前記第一コムフィルタの修正を行い、修正コムフィルタを生成するコムフィルタ修正手順と、
周波数特性に基づいた減衰係数を前記修正コムフィルタに乗算することにより前記周波数領域毎の減衰係数を設定し、前記各分割音声スペクトルに前記対応する周波数領域の減衰係数を乗算することにより前記分割音声スペクトルの雑音成分を抑圧する雑音抑圧手順と、
前記雑音成分が抑圧された分割音声スペクトルを周波数領域で連続した音声スペクトルに合成する周波数合成手順と、を含む音声処理プログラム。
【請求項24】
請求項22記載の音声処理プログラムを記録し、要求に応じて前記音声処理プログラムを要求元に転送することを特徴とするサーバ。
【請求項25】
請求項23記載の音声処理プログラムを記録し、要求に応じて前記音声処理プログラムを要求元に転送することを特徴とするサーバ。
【請求項26】
入力信号の音声スペクトルを所定の周波数領域単位で分割する周波数分割工程と、
前記周波数分割された音声スペクトルである分割音声スペクトルに音声成分が含まれているか否か識別する音声/非音声識別工程と、
音声成分の含まれる周波数領域を強調するピッチ調波構造を生成するピッチ調波構造生成工程と、
周波数特性に基づいた減衰係数を前記ピッチ調波構造に乗算することにより前記周波数領域毎の減衰係数を設定する減衰係数設定工程と、
前記各分割音声スペクトルに前記対応する周波数領域の減衰係数を乗算することにより前記分割音声スペクトルの雑音成分を抑圧する雑音抑圧工程と、
前記雑音成分が抑圧された分割音声スペクトルを周波数領域で連続した音声スペクトルに合成する周波数合成工程と、を具備することを特徴とする音声処理方法。
【請求項27】
入力信号の音声スペクトルを所定の周波数領域単位で分割する周波数分割工程と、
前記周波数分割された音声スペクトルである分割音声スペクトルのパワと雑音成分のスペクトルであるノイズベースのパワとの差分値を算出する差分値算出工程と、
前記差分値が所定の第一閾値より大きい分割音声スペクトルに音声成分が含まれていると識別する第一音声/非音声識別工程と、
前記第一音声/非音声識別工程にて音声成分が含まれると識別された周波数領域を強調する第一ピッチ調波構造を生成する第一ピッチ調波構造生成工程と、
前記差分値が前記第一閾値より大きい第二閾値より大きい分割音声スペクトルに音声成分が含まれていると識別する第二音声/非音声識別工程と、
前記第二音声/非音声識別工程にて音声成分が含まれると識別された周波数領域を強調する第二ピッチ調波構造を生成する第二ピッチ調波構造生成工程と、
前記分割音声スペクトルから入力音声信号のピッチ周波数を推定するピッチ周波数推定工程と、
前記第二ピッチ調波構造からピークの情報のみを抽出した第三ピッチ調波構造を生成する第三ピッチ調波構造生成工程と、
前記第三ピッチ調波構造の前記推定されたピッチ周波数に対応する部分にピークを挿入した第四ピッチ調波構造を生成する第四ピッチ調波構造生成工程と、
前記ピッチの値に応じて前記第四ピッチ調波構造のピークの幅を広げた第五ピッチ調波構造を生成する第五ピッチ調波構造生成工程と、
前記第一ピッチ調波構造と前記第五ピッチ調波構造の両方において強調される周波数領域のみを強調する第六ピッチ調波構造を生成する第六ピッチ調波構造生成工程と、
周波数特性に基づいた減衰係数を前記第六ピッチ調波構造に乗算することにより前記周波数領域毎の減衰係数を設定する減衰係数設定工程と、
前記各分割音声スペクトルに前記対応する周波数領域の減衰係数を乗算することにより前記分割音声スペクトルの雑音成分を抑圧する雑音抑圧工程と、
前記雑音成分が抑圧された分割音声スペクトルを周波数領域で連続した音声スペクトルに合成する周波数合成工程と、を具備することを特徴とする音声処理方法。


【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate

【図22】
image rotate

【図23】
image rotate

【図24】
image rotate

【図25】
image rotate

【図26】
image rotate

【図27】
image rotate

【図28】
image rotate

【図29】
image rotate


【公開番号】特開2006−126859(P2006−126859A)
【公開日】平成18年5月18日(2006.5.18)
【国際特許分類】
【出願番号】特願2005−351249(P2005−351249)
【出願日】平成17年12月5日(2005.12.5)
【分割の表示】特願2001−259473(P2001−259473)の分割
【原出願日】平成13年8月29日(2001.8.29)
【出願人】(000005821)松下電器産業株式会社 (73,050)
【Fターム(参考)】