説明

雑音抑制装置及び雑音抑制方法

【課題】雑音を効果的に抑制しつつ、高音質を維持すること。
【解決手段】雑音抑制装置10は、音声信号及び雑音信号を含む混合観測信号と、推定された雑音信号である雑音推定信号とに対してフーリエ変換を行うフーリエ変換部2、6と、フーリエ変換部2、6によりフーリエ変換された混合観測信号と雑音推定信号とに基づいて、減算係数となるマスク関数H(f、t)を算出するマスク関数演算部8と、マスク関数演算部8により算出されたマスク関数H(f、t)を用いて、混合観測信号から雑音推定信号を減算することで、音声信号と推定される音声推定信号を算出する減算処理部9と、を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、雑音抑制装置及び雑音抑制方法に関し、より詳細には、雑音を抑制しつつ、高音質を実現できる雑音抑制装置及び雑音抑制方法に関するものである。
【背景技術】
【0002】
従来、目的信号であるユーザの音声信号に他の音声信号や環境雑音信号等が混入した混合観測信号から、その音声信号のみを抽出するスペクトラム減算法を用いた音声認識装置が知られている(例えば、特許文献1参照)。このスペクトラム減算法は、雑音が混入した混合観測信号のパワースペクトラムから別途推定した雑音信号のパワースペクトラムを減算することで、目的の音声信号を推定する手法である。この減算処理を行う際に、減算係数と称される係数が雑音信号のパワースペクトラムに乗算され、当該パワースペクトラムの補正が行われている。
【特許文献1】特開2007−248534号公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
ところで、音声信号s(t)、雑音信号n(t)、及び混合観測信号x(t)とすると、一般に下記(4)式が成立する。
x(t)=s(t)+n(t) (4)式
【0004】
このとき、別途推定された雑音推定信号をn1(t)とすると、スペクトラム減算法によって得られる音声推定信号は、下記(5)式により表わすことができる。
【数3】

【0005】
なお、上記(5)式において、X(f、t)及びN1(f、t)は、x(t)及びn1(t)に対して短時間フーリエ変換を夫々行った信号である。また、βは減算係数であり、angle(Y)は複素数Yの位相角を出力する関数である。
【0006】
したがって、上記(5)式によれば、出力信号である音声推定信号s1(t)における雑音の残留度合いは、減算係数βの値に依存していることが分かる。例えば、減算係数βを増加させ抑圧性能を向上させると、音質が低下し、一方で、減算係数βを低下させ抑圧性能を低下させると、音質が向上する。このように、抑圧性能と音質とには、二律背反(トレードオフ)の関係が生じているため、抑圧性能と音質とを同時に満足させる最適な減算係数βを設定するのは困難となっている。
【0007】
本発明は、このような問題点を解決するためになされたものであり、雑音を効果的に抑制しつつ、高音質を維持することができる雑音抑制装置及び雑音抑制方法を提供することを主たる目的とする。
【課題を解決するための手段】
【0008】
上記目的を達成するための本発明の一態様は、音声信号及び雑音信号を含む混合観測信号と、推定された雑音信号である雑音推定信号とに対してフーリエ変換を行うフーリエ変換部と、前記フーリエ変換部により前記フーリエ変換された前記混合観測信号と前記雑音推定信号とに基づいて、減算係数となるマスク関数を算出するマスク関数演算部と、前記マスク関数演算部により算出された前記マスク関数を用いて、前記混合観測信号から前記雑音推定信号を減算することで、音声信号と推定される音声推定信号を算出する減算処理部と、を備える、ことを特徴とする雑音抑制装置である。この一態様によれば、雑音を効果的に抑制しつつ、高音質を維持することができる。
【0009】
また、この一態様において、前記マスク関数演算部は、前記フーリエ変換された雑音推定信号と混合観測信号との比で表わされる2つの確信度を含む前記マスク関数を算出してもよい。
【0010】
さらに、この一態様において、前記マスク関数演算部は、前記確信度P(t)及びP(f)を、(1)式及び(2)式を用いて夫々算出してもよい。
【0011】
なお、この一態様において、前記マスク関数演算部は、(3)式を用いて前記マスク関数H(f、t)を算出してもよい。
【0012】
この一態様において、前記減算処理部により算出された前記音声推定信号に対してフーリエ逆変換を行うフーリエ逆変換部を更に備えていてもよい。
【0013】
他方、上記目的を達成するための本発明の一態様は、音声信号及び雑音信号を含む混合観測信号と、雑音信号であると推定された雑音推定信号とに対してフーリエ変換を行うフーリエ変換工程と、前記フーリエ変換工程で前記フーリエ変換された前記混合観測信号と前記雑音推定信号とに基づいて、減算係数となるマスク関数を算出するマスク関数演算工程と、前記マスク関数演算工程で算出された前記マスク関数を用いて、前記混合観測信号から前記雑音推定信号を減算することで、音声信号と推定される音声推定信号を算出する減算処理工程と、を含む、ことを特徴とする雑音抑制方法であってもよい。
【発明の効果】
【0014】
本発明によれば、雑音を効果的に抑制しつつ、高音質を維持することができる。
【発明を実施するための最良の形態】
【0015】
以下、本発明を実施するための最良の形態について、添付図面を参照しながら一実施形態を挙げて説明する。図1は、本発明の一実施形態に係る雑音抑制装置のシステム構成を示すブロック図である。
【0016】
本実施形態に係る雑音抑制装置10は、混合観測信号入力部1と、第1離散フーリエ変換部2と、位相演算部3と、第1スペクトル演算部4と、雑音推定信号入力部5と、第2離散フーリエ変換部6と、第2スペクトル演算部7と、マスク関数演算部8と、減算処理部9と、離散フーリエ逆変換部11と、音声推定信号出力部12と、を備えている。
【0017】
なお、雑音抑制装置10は、主要なハードウェア構成として、制御処理、演算処理等を行うCPU(Central Processing Unit)と、CPUによって実行される制御プログラム、演算プログラム等が記憶されたROM(Read Only Memory)と、処理データ等を一時的に記憶するRAM(Random Access Memory)と、を有するマイクロコンピュータにより構成されている。また、第1離散フーリエ変換部2、位相演算部3、第1スペクトル演算部4、第2離散フーリエ変換部6、第2スペクトル演算部7、マスク関数演算部8、減算処理部9、および離散フーリエ逆変換部11は、例えば、上記ROMに格納され、上記CPUによって実行されるプログラムにより実現されていてもよい。
【0018】
混合観測信号入力部1の入力端子には、音声信号及び雑音信号を含む混合観測信号x(t)が入力される。ここで、音声信号とは、ユーザ音声等の目的信号であり、雑音信号とは、周囲の音声、環境雑音等のいわゆるノイズである。また、混合観測信号x(t)に対し、線形フィルタリング処理を施し、音声を強調させてもよい。混合観測信号入力部1は、入力された混合観測信号x(t)を第1離散フーリエ変換部2に対して出力する。
【0019】
第1離散フーリエ変換部2は、入力された混合観測信号x(t)に対して、周知のフーリエ変換を行い、フーリエ変換された混合観測信号X(f、t)を算出する。そして、第1離散フーリエ変換部2は、フーリエ変換した混合観測信号X(f、t)を、位相演算部3、第1スペクトル演算部4、及びマスク関数演算部8に対して出力する。
【0020】
位相演算部3は、第1離散フーリエ変換部2からのフーリエ変換された混合観測信号X(f、t)に基づいて、下記(6)式を用いて、位相angle(X(f、t))を算出する。
angle(X(f、t))=arctan(A/B) (6)式
【0021】
ここで、X(f、t)=A+Bi(iは複素数であり、A及びBは任意の実数とする)で表わすことができる。位相演算部3は、算出した位相angle(X(f、t))を減算処理部9に対して出力する。
【0022】
第1スペクトル演算部4は、第1離散フーリエ変換部2からのフーリエ変換された混合観測信号X(f、t)のパワースペクトル|X(f、t)|を算出し、マスク関数演算部8に対して出力する。
【0023】
雑音推定信号入力部5の入力端子には、推定された雑音信号である雑音推定信号n1(t)が入力される。なお、上記雑音信号の推定には、周知の雑音推定アルゴリズムを用いることができる。雑音推定信号入力部5は、入力された雑音推定信号n1(t)を第2離散フーリエ変換部6に対して出力する。
【0024】
第2離散フーリエ変換部6は、入力された雑音推定信号n1(t)に対して周知のフーリエ変換を行い、フーリエ変換された雑音推定信号N1(f、t)を算出する。そして、第2離散フーリエ変換部6は、フーリエ変換した雑音推定信号N1(f、t)をマスク関数演算部8及び第2スペクトル演算部7に対して出力する。
【0025】
第2スペクトル演算部7は、第2離散フーリエ変換部6からのフーリエ変換された雑音推定信号N1(f、t)のパワースペクトル|N1(f、t)|を算出し、マスク関数演算部8に対して出力する。
【0026】
マスク関数演算部8は、第1スペクトル演算部4からの混合観測信号X(f、t)のパワースペクトル|X(f、t)|と、第2スペクトル演算部7からの雑音推定信号N1(f、t)のパワースペクトル|N1(f、t)|と、に基づいて、減算係数βに相当するソフトマスク関数(マスク関数)H(f、t)を算出する。
【0027】
ここで、減算係数βは、雑音を抑制する際の抑圧性能を決定する係数であり、後述の減算処理部9の(7)式が示すように、例えば、減算係数βを増加させると抑圧性能が向上し、一方、減算係数βを低下させると抑圧性能が低下する。
【0028】
マスク関数演算部8は、まず、雑音推定信号N1(f、t)のパワースペクトル|N1(f、t)|と、混合観測信号X(f、t)のパワースペクトル|X(f、t)|との比で表わされる2つの確信度P(t)、P(f)を、下記(1)式及び(2)式を用いて、夫々算出する。
【数1】

【0029】
次に、マスク関数演算部8は、算出された上記確信度P(t)及びP(f)に基づいて、下記(3)式を用いて、ソフトマスク関数H(f、t)を算出する。
【数2】

【0030】
なお、上記(3)式において、Iには、例えば1が設定されている。また、最小減算係数δ及び最大減算係数δには、後述の抑圧性能及び音質が最良となる最適値が実験的に求められ設定されている。
【0031】
このように、雑音推定信号N1(f、t)のパワースペクトル|N1(f、t)|と、混合観測信号X(f、t)のパワースペクトル|X(f、t)|との比で表わされる2つの確信度P(t)、P(f)を用いることで、抑圧性能と音質とを同時に満たすソフトマスク関数H(f,t)を、最適かつ自動的に設定することができる。マスク関数演算部8は、算出したソフトマスク関数H(f、t)を減算処理部9に対して出力する。
【0032】
減算処理部9は、マスク関数演算部8により算出されたソフトマスク関数H(f、t)を用いて、混合観測信号X(f、t)から雑音推定信号N1(f、t)を減算することで、音声信号と推定される音声推定信号s1(f、t)を算出する。
【0033】
より具体的には、減算処理部9は、位相演算部3からの位相angle(X(f、t))と、フーリエ変換された混合観測信号X(f、t)及び雑音推定信号N1(f、t)と、マスク関数演算部8により算出されたソフトマスク関数H(f、t)と、に基づいて、下記(7)式を用いて、音声推定信号s1(f、t)を算出する。
【数4】

【0034】
なお、上記(7)式において、γは後述の如く、抑圧性能及び音質が最適となるような任意の最適値が設定される。
【0035】
減算処理部9は、算出した音声推定信号s1(f、t)を離散フーリエ逆変換部11に対して出力する。
【0036】
離散フーリエ逆変換部11は、入力された音声推定信号s1(f、t)に対してフーリエ逆変換を行い、フーリエ逆変換された音声推定信号s1(t)を算出する。そして、離散フーリエ逆変換部11は、フーリエ逆変換された音声推定信号s1(t)を音声推定信号出力部12に対して出力する。
【0037】
音声推定信号出力部12は、離散フーリエ逆変換部11から出力された、最終的な出力信号である音声推定信号s1(t)を、出力端子から出力する。
【0038】
ところで、従来の雑音抑制装置において、雑音信号と音声信号との間に相関関係がなく、雑音推定信号が雑音信号に完全に一致していると推定できる場合において、例えば、減算係数βに1を設定することができる。この場合、音声推定信号s1(f、t)は、下記(8)式により表現することができる。
【数5】

【0039】
しかしながら、雑音信号を正確に推定することは非常に困難であり、実際には誤差に起因して音声推定信号(出力信号)に雑音信号が混入し、若しくは、音声推定信号が削られることとなる。ここで、雑音推定信号を下記(9)式で表現した場合を想定する。
N1(f、t)=0.7×N1(f、t) (9)式
【0040】
この場合、音声推定信号s1(f、t)は、下記(10)式により表現することができる。なお、この音声推定信号s1(f、t)には、実際に、振幅の変調以外に、推定処理による誤差が含有されている。
【数6】

【0041】
また、システム動作時に設定される減算係数βに応じて、音声推定信号s1(f、t)に対する抑圧性能(雑音を抑制する性能)及び音質は、例えば、下記表1のように変動することが分かる。
【表1】

【0042】
表1に示すように、減算係数βの最適値は、雑音推定信号の精度に依存していることが分かる。また、音声信号は非定常信号であり、雑音推定信号の精度は時々刻々と変化するため、それに伴い、減算係数βの最適値も変化することとなる。
【0043】
そこで、本実施形態に係る雑音抑制装置10は、ソフトマスク関数H(f、t)を用いることにより、後述の如く、抑圧性能を向上させつつ、高音質を維持することができるような減算係数βを最適かつ自動的に設定することができる。
【0044】
図2は、本実施形態に係る雑音抑制装置による雑音抑制方法の処理フローの一例を示すフローチャートである。
【0045】
図2に示すように、第1離散フーリエ変換部2は、入力された混合観測信号x(t)に対してフーリエ変換を行い、フーリエ変換された混合観測信号X(f、t)を算出する(フーリエ変換工程)(ステップS100)。
【0046】
また、第2離散フーリエ変換部6は、入力された雑音推定信号n1(t)に対して周知のフーリエ変換を行い、フーリエ変換された雑音推定信号N1(f、t)を算出する(フーリエ変換工程)(ステップS101)。
【0047】
次に、位相演算部3は、第1離散フーリエ変換部2からのフーリエ変換された混合観測信号X(f、t)に基づいて、位相angle(X(f、t))を算出する(ステップS102)。
【0048】
また、第1スペクトル演算部4は、第1離散フーリエ変換部2からのフーリエ変換された混合観測信号X(f、t)のパワースペクトル|X(f、t)|を算出する(ステップS103)。
【0049】
さらに、第2スペクトル演算部7は、第2離散フーリエ変換部6からのフーリエ変換された雑音推定信号N1(f、t)のパワースペクトル|N1(f、t)|を算出する(ステップS104)。
【0050】
その後、マスク関数演算部8は、確信度P(t)及びP(f)を夫々算出し(ステップS105)、算出された上記確信度P(t)及びP(f)に基づいて、ソフトマスク関数H(f、t)を算出する(マスク関数演算工程)(ステップS106)。
【0051】
減算処理部9は、マスク関数演算部8により算出されたソフトマスク関数H(f、t)を用いて、音声推定信号s1(f、t)を算出する(減算処理工程)(ステップS107)。そして、離散フーリエ逆変換部11は、音声推定信号s1(f、t)に対してフーリエ逆変換を行い(ステップS108)、音声推定信号出力部12は、フーリエ逆変換された音声推定信号s1(t)を出力端子から出力する(ステップS109)。
【0052】
図3(a)及び(b)は、本実施形態に係る雑音抑制装置10と従来の雑音抑制装置との比較試験結果の一例を示している。なお、図3(a)は各雑音抑制装置による抑圧性能を示しており、位相angle(横軸)とSNR(S/N比)値(縦軸)との関係を示している。図3(b)は、各雑音抑制装置による音質を示しており、位相angle(横軸)とCD値(縦軸)との関係を示している。
【0053】
また、図3(a)及び(b)において、実線(1)は、雑音抑制が行われていない実際に観測される音声データである。実線(2)は、周知のBeamformer法を用いた従来の雑音抑制装置により、雑音抑制を行った際の音声データである。実線(3)は、減算係数β=2に設定した従来の雑音抑制装置により、雑音抑制を行った際の音声データである。実線(4)は、減算係数β=5に設定した従来の雑音抑制装置により、雑音抑制を行った際の音声データである。実線(5)は、本実施形態に係る雑音抑制装置10により、雑音抑制を行った際の音声データである。
【0054】
図3(a)に示すように、本実施形態に係る雑音抑制装置10により雑音抑制を行った際のデータ(実線(5))は、従来の雑音抑制装置によるデータ(実線(2)乃至(4))と比較して、全位相領域に渡って、SNR値が高く、良好に雑音抑制が行われている。さらに、図3(b)に示すように、本実施形態に係る雑音抑制装置10により雑音抑制を行った際のデータ(実線(5))は、全位相領域に渡って、CD値が比較的に高く維持されており、高音質に維持されている。すなわち、本実施形態に係る雑音抑制装置10は、従来の雑音抑制装置と比較して、高い抑圧性能を発揮しつつ、高音質を維持することができる。
【0055】
以上、本実施形態に係る雑音抑制装置10において、マスク関数演算部8は、雑音推定信号N1(f、t)のパワースペクトル|N1(f、t)|と、混合観測信号X(f、t)のパワースペクトル|X(f、t)|との比で表わされる確信度P(t)、P(f)を夫々算出する。そして、マスク関数演算部8は、算出された確信度P(t)及びP(f)に基づいて、ソフトマスク関数H(f、t)を算出する。さらに、減算処理部9は、算出されたソフトマスク関数H(f、t)を用いて、音声推定信号s1(f、t)を算出する。
【0056】
これにより、高い抑圧性能を発揮しつつ、高音質を維持することができるような、減算係数βであるソフトマスク関数H(f,t)を最適かつ自動的に設定することができる。すなわち、雑音を効果的に抑制しつつ、高音質を維持することができる。
【0057】
なお、本実施形態に係る雑音抑制装置10は、例えば、音声を認識する音声認識システムに適用してもよく、音声信号及び雑音信号を含む混合観測信号から雑音信号を除去する任意のシステムに適用可能である。
【0058】
また、本発明を実施するための最良の形態について一実施形態を用いて説明したが、本発明はこうした一実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において、上述した実施形態に種々の変形及び置換を加えることができる。
【図面の簡単な説明】
【0059】
【図1】本発明の一実施形態に係る雑音抑制装置のシステム構成を示すブロック図である。
【図2】本発明の一実施形態に係る雑音抑制装置による雑音抑制方法の処理フローの一例を示すフローチャートである。
【図3】(a)各雑音抑制装置による抑圧性能を示す図であり、位相とSNR値との関係を示す図である。(b)各雑音抑制装置による音質を示す図であり、位相angleとCD値との関係を示す図である。
【符号の説明】
【0060】
1 混合観測信号入力部
2 第1離散フーリエ変換部
3 位相演算部
4 第1スペクトル演算部
5 雑音推定信号入力部
6 第2離散フーリエ変換部
7 第2スペクトル演算部
8 マスク関数演算部
9 減算処理部
10 雑音抑制装置
11 離散フーリエ逆変換部
12 音声推定信号出力部

【特許請求の範囲】
【請求項1】
音声信号及び雑音信号を含む混合観測信号と、推定された雑音信号である雑音推定信号とに対してフーリエ変換を行うフーリエ変換部と、
前記フーリエ変換部により前記フーリエ変換された前記混合観測信号と前記雑音推定信号とに基づいて、減算係数となるマスク関数を算出するマスク関数演算部と、
前記マスク関数演算部により算出された前記マスク関数を用いて、前記混合観測信号から前記雑音推定信号を減算することで、音声信号と推定される音声推定信号を算出する減算処理部と、を備える、ことを特徴とする雑音抑制装置。
【請求項2】
請求項1記載の雑音抑制装置であって、
前記マスク関数演算部は、前記フーリエ変換された雑音推定信号と混合観測信号との比で表わされる2つの確信度を含む前記マスク関数を算出する、ことを特徴とする雑音抑制装置。
【請求項3】
請求項2記載の雑音抑制装置であって、
前記マスク関数演算部は、前記確信度P(t)及びP(f)を、下記(1)式及び(2)式を用いて夫々算出する、ことを特徴とする雑音抑制装置。
【数1】

N1(f、t):フーリエ変換された前記雑音推定信号
X(f、t):フーリエ変換された前記混合観測信号
【請求項4】
請求項3記載の雑音抑制装置であって、
前記マスク関数演算部は、下記(3)式を用いて前記マスク関数H(f、t)を算出する、ことを特徴とする雑音抑制装置。
【数2】

δ:最小減算係数
δ:最大減算係数
【請求項5】
請求項2記載の雑音抑制装置であって、
前記減算処理部により算出された前記音声推定信号に対してフーリエ逆変換を行うフーリエ逆変換部を更に備える、ことを特徴とする雑音抑制装置。
【請求項6】
音声信号及び雑音信号を含む混合観測信号と、雑音信号であると推定された雑音推定信号とに対してフーリエ変換を行うフーリエ変換工程と、
前記フーリエ変換工程で前記フーリエ変換された前記混合観測信号と前記雑音推定信号とに基づいて、減算係数となるマスク関数を算出するマスク関数演算工程と、
前記マスク関数演算工程で算出された前記マスク関数を用いて、前記混合観測信号から前記雑音推定信号を減算することで、音声信号と推定される音声推定信号を算出する減算処理工程と、を含む、ことを特徴とする雑音抑制方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate


【公開番号】特開2010−66478(P2010−66478A)
【公開日】平成22年3月25日(2010.3.25)
【国際特許分類】
【出願番号】特願2008−232241(P2008−232241)
【出願日】平成20年9月10日(2008.9.10)
【出願人】(000003207)トヨタ自動車株式会社 (59,920)
【出願人】(504143441)国立大学法人 奈良先端科学技術大学院大学 (226)
【Fターム(参考)】