説明

音声強調装置、方法、及びプログラム

【課題】効果的に雑音を抑制して、音声を強調することができる音声強調装置、音声強調方法、及び音声強調プログラムを提供すること。
【解決手段】本発明の一態様にかかる音声強調装置は、観測信号のキュムラントを推定する観測信号用キュムラント推定部21と、雑音成分を推定する雑音推定部11と、推定雑音のキュムラントを推定する推定雑音用キュムラント推定部22と、観測信号のキュムラントと、推定雑音のキュムラントに基づいて、音声成分のキュムラントを推定する音声成分用キュムラント推定部24と、音声成分のキュムラントに基づいて、音声成分のカートシスを推定するカートシス推定部23と、音声成分のカートシスに基づいて、減算係数を算出する減算係数算出部と、減算係数算出部で算出された減算係数を用いて、観測信号に対して雑音減算する雑音減算部12と、を備えている。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、雑音成分と音声成分を含む観測信号の音声を強調する音声強調装置、音声強調方法、及び音声強調プログラムに関する。
【背景技術】
【0002】
近年、音声を利用するアプリケーションの増加とともに、雑音の存在する中から目的とする音声のみを抽出したいという要望が高まってきている。例えば、図3に示すような環境において、発話者が発話したとする。発話者による発話がマイクロホン1による集音される。このとき、周囲の雑音もマイクロホン1で集音される。従って、マイクロホン1が取得した観測信号X(f,t)は、目的となる音声信号S(f,t)と、雑音信号N(f,t)とを含んでいる。すなわち、X(f,t)=S(f,t)+N(f,t)となる。
【0003】
そして、取得した観測信号X(f,t)から雑音推定を行う。観測信号X(f,t)から、推定雑音信号(推定雑音スペクトル)を推定する。なお、図1において、推定値を示すハット付きのN(f,t)が推定雑音信号である。推定雑音信号を用いて雑音減算を行うことで、出力信号Y(f,t)を得ることができる。
【0004】
具体的な雑音推定方法としては、以下の2つが挙げられる。1つ目は、ユーザ音声の無音区間を推定する方法である。この方法では、雑音が定常であると仮定する。そして、カートシス(尖度)やパワー閾値などにより、区間を判定して、推定雑音スペクトルを算出する。
【0005】
2つ目の方法は、マイクロホンアレイを用いる方法である。この方法では、ユーザからの放射音は、マイクロホンに最も近い点音源と仮定する。そして、ユーザ方位に死角を形成し、雑音推定スペクトルを算出する。
【0006】
このように推定された雑音推定スペクトルを用いて、雑音減算する。非線形雑音抑圧処理の多くは、時間−周波数領域に変換した観測信号X(f,t)に対してフィルタ係数H(f,t)を適用する。具体的には、以下の式(1)により、出力信号Y(f,t)を求めることができる。
【数1】

【0007】
フィルタ係数H(f,t)の設計は手法により異なるが、フィルタ係数H(f,t)は、観測信号X(f,t)、雑音推定信号、減算係数βにより生成される。具体的な設計手法については、例えば、(a)スペクトルサブトラクション(Spectral Subtraction:SS)法、(b)一般化スペクトルサブトラクション(Generalized Spectral Subtraction:GSS)法、(c)ウィーナーフィルタ(Wiener Filter:WF)法、(d)パラメトリックウィーナーフィルタ(Parametric Wiener Filter:PWF)法がある。それぞれフィルタ係数H(f,t)は式(2)〜式(5)で示される。
【0008】
(a)
【数2】

【0009】
(b)
【数3】

【0010】
(c)
【数4】

【0011】
(d)
【数5】

【0012】
上記に手法(a)〜(d)において、減算係数βの設定により、雑音抑制性能・音質性能が変動する。例えば、図4に減算係数と各性能の関係のシミュレーション結果を示す。図4に示すように、減算係数βを大きく設定した場合、抑圧性能は高くなるが、音質性能は低くなる。一方、減算係数βを小さく設定した場合、抑圧性能は低くなるが、音質性能は高くなる。
【0013】
実環境では、雑音と音声の混入度合いは周波数ごとに異なる。このため、減算係数βの最適値が変動する。また、実環境では、雑音と音声の混入度合いが不明であるため、図4のようなグラフすら描くことができない。よって、最適な減算係数βを求めることが困難である。
【先行技術文献】
【特許文献】
【0014】
【特許文献1】特開2000−330597号公報
【特許文献2】特開2007−330597号公報
【非特許文献】
【0015】
【非特許文献1】EUSIPCO2010 pp.994−998
【発明の開示】
【発明が解決しようとする課題】
【0016】
特許文献1、特許文献2、及び非特許文献1に、雑音(ノイズ)を抑圧して、音声を強調する別の方法が開示されている。特許文献1では、入力音声信号のS/N比を推定し、雑音の抑圧量を制御する減算係数が複数個格納されている減算係数データテーブルが設けられている。そして、この減算係数データテーブルからS/N比に基づいて減算係数を決定している。
【0017】
特許文献2では、各周波数ビンにおいて、入力信号の信号対雑音比(SNR)を算出している。そして、SNRが低い時(雑音が多く、音声が少ないと判定された場合)、減算係数を補正して、減算量を増やしている。これにより、入力信号の抑圧をより強くすることができる。一方、SNRが高い時(雑音が少なく、音声が大勢と判定された場合)、減算係数を補正して、減算量を減らしている。これにより、入力信号の抑圧をより小さくすることができる。
【0018】
しかしながら、音声対話システムの場合、補正係数や減算係数データテーブルを算出するため、運営する環境にシステムを設置する必要がある。その環境において、予め騒音、及び音声データを測定する。各減算係数値での音声認識率を算出し、減算係数データテーブルの減算係数値や補正係数を決定しなければならない。実際の製品では、このような事前の処理は困難である。また、マイクロホンや、ADコンバータ等の器材が変更された場合、同様に減算係数データテーブルの減算係数値等を決定しなければならない。別環境で予め設定した減算係数を用いる場合、その値が最適値とならない。従って、雑音成分の過大減算、又は過小減算が発生する。音声成分の劣化や雑音成分の残留(ミュージカルノイズの発生)が生じる。これにより、音声認識率の低下、や音質劣化を引き起こしてしまう。
【0019】
非特許文献1では、処理前後の雑音抑圧量(Noise Reduction Rate:NRR)の自動推定と、処理前後における雑音区間の分布形状の変動を「カートシス比」として算出している。そして、このカートシス比の値を設定値以下に収めるように、減算係数を適応的に選択している。こうすることで、非音声区間の過大減算、又は過小減算を制御している。
【0020】
しかしながら、非特許文献1では、非音声区間の過大減算、又は過小減算を制御している。換言すると、音声区間の過大減算、又は過小減算を評価していない。よって、音声認識の目的である音声区間の過大減算、又は過小減算が生じてしまうおそれがある。このように特許文献1、特許文献2、及び非特許文献3では、効果的に音声を強調することが困難である。
【0021】
本発明は、上記の問題点に鑑みてなされたものであり、効果的に音声を強調することができる音声強調装置、音声強調方法、及び音声強調プログラムを提供することを目的とする。
【課題を解決するための手段】
【0022】
本発明の一態様にかかる音声強調装置は、マイクロホンユニットによって取得された観測信号に対して、音声を強調する音声強調装置であって、雑音成分と音声成分とを含む観測信号のキュムラントを推定する第1のキュムラント推定部と、前記観測信号に含まれる雑音成分を推定する雑音推定部と、前記雑音推定部で推定された推定雑音のキュムラントを推定する第2のキュムラント推定部と、前記観測信号のキュムラントと、前記推定雑音のキュムラントに基づいて、音声成分のキュムラントを推定する第3のキュムラント推定部と、前記音声成分のキュムラントに基づいて、音声成分のカートシスを推定する第1のカートシス推定部と、前記音声成分カートシスに基づいて、減算係数を算出する減算係数適応部と、前記減算係数適応部で算出された減算係数を用いて、前記観測信号に対して雑音減算する雑音減算部と、を備えたものである。
【0023】
上記の音声強調装置が、前記雑音減算部から出力された出力信号のキュムラントを推定する第4のキュムラント推定部と、前記出力信号のキュムラントに基づいて、出力信号のカートシスを推定するカートシス推定部と、をさらに備え、前記出力信号のカートシスに基づいて、前記減算係数適応部が、減算係数を算出するようにしてもよい。
【0024】
上記の音声強調装置において、前記観測信号のキュムラントと、前記推定雑音のキュムラントとの差に基づいて、前記音声成分のキュムラントが推定されていてもよい。
【0025】
上記の音声強調装置において、前記マイクロホンユニットが複数のマイクロホンを有するマイクロホンアレイを備え、前記雑音推定部が、マイクロホンアレイ処理によって、前記推定雑音を推定するようにしてもよい。
【0026】
本発明の一態様にかかる音声強調方法は、マイクロホンユニットによって取得された観測信号に対して、音声を強調する音声強調方法であって、雑音成分と音声成分とを含む観測信号のキュムラントを算出するステップと、前記観測信号に含まれる雑音を推定するステップと、推定された推定雑音のキュムラントを算出するステップと、前記観測信号のキュムラントと、前記推定雑音のキュムラントに基づいて、音声成分のキュムラントを算出するステップと、前記音声成分のキュムラントに基づいて、音声成分のカートシスを推定するステップと、前記音声成分カートシスに基づいて、減算係数を算出するステップと、前記減算係数を用いて、前記観測信号に対して雑音減算するステップと、を備えたものである。
【0027】
上記の音声強調方法が、出力信号のキュムラントを算出するステップと、出力信号のキュムラントに基づいて、出力信号のカートシスを算出するステップと、をさらに備え、前記出力信号のカートシスと前記音声成分のカートシスに基づいて、前記減算係数が算出されていてもよい。
【0028】
上記の音声強調方法において、前記観測信号のキュムラントと、前記推定雑音のキュムラントとの差に基づいて、前記音声成分のキュムラントが推定されていてもよい。
【0029】
上記の音声強調方法において、前記マイクロホンユニットが複数のマイクロホンを有するマイクロホンアレイを備え、マイクロホンアレイ処理によって推定雑音が推定されていてもよい。
【0030】
本発明の一態様にかかる音声強調プログラムは、マイクロホンユニットによって取得された観測信号に対して、音声を強調する音声強調プログラムであって、コンピュータに対して、雑音成分と音声成分とを含む観測信号のキュムラントを算出させるステップと、前記観測信号に含まれる雑音を推定させるステップと、推定された推定雑音のキュムラントを算出させるステップと、前記観測信号のキュムラントと、前記推定雑音のキュムラントに基づいて、音声成分のキュムラントを算出させるステップと、前記音声成分のキュムラントに基づいて、音声成分のカートシスを推定するステップと、前記音声成分カートシスに基づいて、減算係数を算出させるステップと、前記減算係数を用いて、前記観測信号に対して雑音減算させるステップと、を備えたものである。
【0031】
上記の音声強調プログラムが、コンピュータに対して、出力信号のキュムラントを算出させるステップと、出力信号のキュムラントに基づいて、出力信号のカートシスを算出させるステップと、をさらに備え、前記出力信号のカートシスと前記音声成分のカートシスに基づいて、前記減算係数を算出させてもよい。
【0032】
上記の音声強調プログラムにおいて、前記観測信号のキュムラントと前記推定雑音のキュムラントとの差に基づいて、前記音声成分のキュムラントが推定されていてもよい。
【0033】
上記の音声強調方法において、前記マイクロホンユニットが複数のマイクロホンを有するマイクロホンアレイを備え、マイクロホンアレイ処理によって前記推定雑音が推定されていてもよい。
【発明の効果】
【0034】
本発明によれば、効果的に音声を強調することができる音声強調装置、音声強調方法、及び音声強調プログラムを提供することを提供することができる。
【図面の簡単な説明】
【0035】
【図1】実施の形態1にかかる音声強調装置の構成を示すブロック図である。
【図2】実施の形態2にかかる音声強調装置の構成を示すブロック図である。
【図3】一般的な雑音減算処理を示す図である。
【図4】雑音減算処理における減算係数と性能の関係を示すシミュレーション結果である。
【発明を実施するための形態】
【0036】
以下、本発明に係る移動体の実施形態を、図面に基づいて詳細に説明する。但し、本発明が以下の実施形態に限定される訳ではない。また、説明を明確にするため、以下の記載及び図面は、適宜、簡略化されている。
【0037】
実施の形態1.
まず、本発明の実施の形態1にかかる音声強調装置について、図1を用いて説明する。図1は、音声強調装置のシステム構成を示すブロック図である。マイクロホン1は、周囲で発生した音を集音して、その音に基づく観測信号を出力する。観測信号には、音声成分と、雑音成分とが含まれている。音声成分は、音声認識の目的となる発話者の音声の信号であり、雑音成分は、発話者の音声以外の信号である。音声強調装置2には、マイクロホン1が接続されている。従って、マイクロホン1が集音した観測信号が音声強調装置2に入力される。
【0038】
音声強調装置2によって、観測信号の音声を強調する。そして、音声が強調された出力信号を、出力側装置3に出力する。出力側装置3は、音声認識システムや、通信機器などであり、出力信号に対して、所定の処理を行う。例えば、音声認識システムの場合、出力信号に対して音声認識処理を行う。
【0039】
なお、音声強調装置2は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)、通信用のインタフェイスなどを有する演算処理装置であり、より具体的には、パーソナルコンピュータ(PC)等である。また、音声強調装置2は、着脱可能なHDD、光ディスク、光磁気ディスク等を有し、各種プログラムや制御パラメータなどを記憶し、そのプログラムやデータを必要に応じてメモリ(不図示)等に供給する。もちろん、音声強調装置2は、物理的に一つの構成に限られるものではない。音声強調装置2は、マイクロホン1によって、集音された音のデータに対して、音声処理を行う。
【0040】
音声強調装置2は、雑音推定部11と、雑音減算部12と、カートシス算出ユニット20と、減算係数算出ユニット30とを、備えている。カートシス算出ユニット20は、観測信号用キュムラント推定部21と、推定雑音用キュムラント推定部22と、カートシス推定部23と、音声成分用キュムラント推定部24とを備えている。減算係数算出ユニット30は、減算係数適応器31と、出力信号用キュムラント推定部32と、出力信号用カートシス推定部33と、を備えている。
【0041】
マイクロホン1からの観測信号は、雑音推定部11と雑音減算部12と観測信号用キュムラント推定部21に入力される。なお、入力される観測信号X(f,t)は、音声強調処理を行う前の前処理によって、時間−周波数領域の信号となっている。具体的には、所定時間の観測信号をバッファに記憶して、その観測信号を、k個(kは2以上の整数)のフレームに分割する。ここでは、時間領域において、隣接フレームが半分重なるように、ハーフシフトによってフレーム分割している。さらに、窓関数を用いて、フレーム分割しても良い。さらに、フレーム分割された観測信号を離散フーリエ変換する。これにより、時間−周波数領域の観測信号X(f,t)を得ることができる。なお、この前処理は、音声強調装置2が行っても良く、他の装置、例えば、マイクロホン1を有するマイクロホンユニットが行っても良い。
【0042】
雑音推定部11は、観測信号X(f,t)に対して雑音推定を行う。これにより、雑音推定信号N(f,t)が生成される。なお、図1において、雑音推定信号には、推定を示すハットが付されたN(f,t)が示されているが、明細書中の説明では、適宜簡略化して、N(f,t)とする。雑音減算部12と、推定雑音用キュムラント推定部22とに、雑音推定信号N(f,t)が入力される。推定雑音用キュムラント推定部22は、雑音推定信号に基づいて、推定雑音信号のキュムラントを推定する。また、観測信号用キュムラント推定部21は、観測信号X(f,t)のキュムラントを推定する。音声成分用キュムラント推定部24は、観測信号X(f,t)のキュムラントと推定雑音のキュムラントとから、音声成分のキュムラントを推定する。キュムラントには、加法性が成り立つため、音声成分のキュムラントは、観測信号のキュムラントと雑音推定のキュムラントとの差で示される。カートシス推定部23は、音声成分のキュムラントに基づいて、音声成分のカートシスを推定する。
【0043】
減算係数適応器31には、音声成分のカートシスが入力される。減算係数適応器31は、音声成分のカートシスに基づいて、減算係数βを適応する。そして、減算係数適応器31で求められた減算係数βは、雑音減算部12に入力される。雑音減算部12は、減算係数βを用いて、雑音減算処理を実行する。そして、雑音減算部12からは、雑音が減算された出力信号Y(f,t)が出力される。さらに、出力信号Y(f,t)は、出力信号用キュムラント推定部32に入力される。出力信号用キュムラント推定部32は、出力信号Y(f,t)のキュムラントを推定する。出力信号用カートシス推定部33は、出力信号Y(f,t)のキュムラントから、出力信号のカートシスを推定する。出力信号のカートシスは、減算係数適応器31に入力される。
【0044】
減算係数適応器31は、出力信号のカートシスと、音声成分のカートシスとに基づいて、減算係数βを算出する。例えば、出力信号のカートシスと、音声成分のカートシスとの差が収束するまで、繰り返し演算を行う。すなわち、出力信号のカートシスと、音声成分のカートシスとの差が収束するような、減算係数βを算出する。そして、この減算係数βに基づいて、雑音減算部12が雑音減算処理を行う。雑音減算については、上記の手法(a)〜(d)、すなわち、式(2)〜式(5)を用いることができる。減算係数βは、適応係数であり、入力された観測信号X(f,t)に応じて決定される。すなわち、雑音減算のためのフィルタが、入力された観測信号に基づいて自己適応されている。
【0045】
次に、上記の音声強調装置2における音声強調方法について、詳細に説明する。
(ステップ1)
まず、マイクロホン1で取得した時間領域の観測信号x(t)をフレーム分割した後、離散フーリエ変換を行う。これにより、時間−周波数領域の観測信号X(f,t)を得ることができる。
(ステップ2)
雑音推定部11が雑音推定処理を実行する。ここでは、観測信号X(f,t)に対して、音声区間/非音声区間の判定を行い、非音声区間を雑音推定信号とする。なお、ステップ1とステップ2の処理に付いては、公知の方法を用いることができ、特に限定されるものではない。
(ステップ3)
周波数ビンf=0をセットする。
(ステップ4)
観測信号用キュムラント推定部21と、推定雑音用キュムラント推定部22が観測信号X(f,t)のキュムラントC観測信号及び推定雑音信号N(f,t)のキュムラントC雑音信号を算出する。そのため、まず、観測信号X(f,t)、及び推定雑音信号N(f,t)のモーメントを求める。例えば、観測信号X(f,t)の2次のモーメントM2,観測信号、4次のモーメントM4,観測信号、6次のモーメントM6,観測信号、8次のモーメントM8,観測信号は、以下の式(6)によって求めることができる。
【0046】
【数6】

【0047】
なお、<>はフレームにおける時間平均を示す。観測信号のモーメントM観測信号から観測信号のキュムラントC観測信号を求める。観測信号X(f,t)の2次のキュムラントC2,観測信号、4次のキュムラントC4,観測信号、6次のキュムラントC6,観測信号、8次のキュムラントC8,観測信号は、以下の式(7)によって求めることができる。
【0048】
【数7】

【0049】
同様に、推定雑音信号N(f,x)の2次のモーメントM2,雑音信号、4次のモーメントM4,雑音信号、6次のモーメントM6,雑音信号、8次のモーメントM8,雑音信号は、以下の式(8)によって求めることができる。
【数8】

【0050】
推定雑音信号のモーメントM雑音信号から推定雑音信号のキュムラントC雑音信号を求める。推定雑音信号N(f,t)の2次のキュムラントC2,雑音信号、4次のキュムラントC4,雑音信号、6次のキュムラントC6,雑音信号、8次のキュムラントC8,雑音信号は、以下の式(9)によって求めることができる。
【0051】
【数9】

【0052】
このようにして、観測信号X(f,t)のキュムラントC観測信号及び推定雑音信号N(f,t)のキュムラントC雑音信号を算出することができる。なお、時間領域信号において、信号の確率密度関数が平均0かつ対称であると仮定すると奇数次のモーメント、及びキュムラントは0となる。よって、奇数次のモーメント、及びキュムラントは算出しなくてよい。さらに、上記の説明では、2次、4次、6次、8次のモーメント、及びキュムラントを求めたが、求める次数はこれに限られるものではない。
【0053】
(ステップ5)
音声成分用キュムラント推定部24が観測信号X(f,t)内の音声成分のキュムラントC音声成分を算出する。キュムラントには、加法性が成り立つため、音声成分のキュムラントは、観測信号のキュムラントと推定雑音のキュムラントとの差で示される。よって、音声成分の2次のキュムラントC2,音声成分、4次のキュムラントC4,音声成分、6次のキュムラントC6,音声成分、8次のキュムラントC8,音声成分は、以下の式(10)で示される。
【0054】
【数10】

【0055】
(ステップ6)
カートシス推定部23が、音声成分のキュムラントC音声成分から、音声成分のカートシスK音声成分を推定する。カートシスの推定に付いては、特に限定されるものではないが、例えば、式(11)を用いることができる。これにより、音声成分のパワースペクトル領域のカートシスK音声成分を算出することができる。
【0056】
【数11】

【0057】
(ステップ7)
減算係数適応器31に減算係数βの初期値をセットし、更新回数i=0をセットする。なお、減算係数βの初期値については、適当な値を選択することができる。
(ステップ8)
そして、減算係数βの初期値を用いて、雑音減算部12が、観測信号X(f,t)に対して雑音減算処理を行う。雑音減算処理については、例えば、手法(a)〜(d)のいずれか一つを用いることができる。従って、式(2)〜式(5)のいずれか一つを採用し、その式に減算係数βの初期値を代入する。これにより、フィルタ係数H(f,t)を算出することができる。そして、フィルタ係数H(f,t)と観測信号X(f,t)とから、出力信号Y(f,t)を算出する。具体的には、Y(f,t)=H(f,t)X(f,t)となる。
【0058】
(ステップ9)
出力信号用キュムラント推定部32が出力信号Y(f,t)のキュムラントC出力信号を推定する。そのため、まず、出力信号Y(f,t)のモーメントM出力信号を求める。例えば、出力信号Y(f,t)の2次のモーメントM2,出力信号、4次のモーメントM4,出力信号、6次のモーメントM6,出力信号、8次のモーメントM8,出力信号は、以下の式(12)によって求めることができる。
【0059】
【数12】

【0060】
これらのモーメントから出力信号のキュムラントC出力信号を求める。出力信号Y(f,t)の2次のキュムラントC2,出力信号、4次のキュムラントC4,出力信号、6次のキュムラントC6,出力信号、8次のキュムラントC8,出力信号は、以下の式(13)によって求めることができる。
【0061】
【数13】

【0062】
(ステップ10)
出力信号用カートシス推定部33が、キュムラントC出力信号に基づいて、出力信号のカートシスK出力信号を算出する。カートシスの推定に付いては、特に限定されるものではないが、例えば、式(14)を用いることができる。これにより、音声成分のパワースペクトル領域のカートシスK出力信号を算出することができる。
【0063】
【数14】

【0064】
(ステップ11)
減算係数適応器31が、出力信号のカートシスK出力信号と音声成分のカートシスK音声成分とを比較して、減算係数βを更新する。例えば、出力信号のカートシスK出力信号と音声成分のカートシスK音声成分の差を求める。そして、カートシスの差に応じて、減算係数βを更新する。具体的には、以下の式(15)を用いて、減算係数βを更新する。
【0065】
【数15】

【0066】
なお、Thresholdは減算係数βが収束したか否かを判定するためのしきい値であり、任意の値を設定することができる。Δβは、βを収束させるループ計算における、減算係数βの増分値であり、任意の値とすることができる。また、Δβをカートシスの差に応じて、変更しても良い。このように、音声成分のカートシスK音声成分が出力信号のカートシスK出力信号よりも大きい場合、減算係数適応器31が、雑音減算が小さいと判定して、減算係数βを増加させる。また、カートシスの差の絶対値がしきい値よりも小さい場合、減算係数適応器31は、減算係数βが収束したと判定する。従って、周波数ビンfをインクリメントして、後述する(14)に進む。
【0067】
(ステップ12)
更新回数iがインクリメントされる。
(ステップ13)
更新回数iがIを越えたか否かが判定される。これにより、減算係数βを求めるためのループ計算が十分な回数を行われたか否かが判定される。更新回数iがIよりも小さい場合、ステップ8に戻る。一方、更新回数iがI以上の場合、周波数ビンfをインクリメントして、次のステップ14に進む。すなわち、減算係数βが収束しない場合、更新回数iがIに達するまで、ステップ8〜ステップ12のループ計算が繰り返し行われる。もちろん、上記の通り、減算係数βが収束した場合、更新回数iがIに到達する前に、ループ計算を抜けても良い。
(ステップ14)
全ての周波数ビンについて、減算係数βが算出されたか否かを判定する。具体的には、周波数ビンfがFよりも小さい場合、ステップ4に戻り、次の周波数ビンの減算係数βを求める。なお、Fは周波数ビンの数である。一方、周波数ビンfがFより以上の場合、時間領域の出力信号を得る。具体的には、雑音減算部12で算出された出力信号Y(f,t)を逆フーリエ変換する。そして、逆フーリエ変換された出力信号に窓掛けして、オーバーラップアッドにより、時間領域のデータを得る。これにより、時間領域の出力信号y(t)が出力側装置3に出力される。すなわち、周波数ビンfがFに到達するまで、ステップ4〜ステップ13までのループ計算が繰り返し行われる。なお、ステップ14の処理は、音声強調装置2が行っても良く、他の装置、例えば、出力側装置3が行っても良い。
【0068】
このように観測信号内の音声成分のカートシスをブラインド推定する。ここでは、キュムラントの加法性を利用して、観測信号と推定雑音のキュムラントの差から、音声成分のキュムラントを算出している。そして、音声成分のキュムラントからカートシスを算出している。これにより、畳み込みなどの複雑な演算を行うことなく、音声成分のカートシスを推定することができる。音声成分のカートシス推定値と、出力信号のカートシス推定値との比較により、雑音減算の過大/過小を評価する。その評価結果に応じて、減算係数を調整する。すなわち、スペクトル減算が過大であれば、減算係数を小さくし、過小であれば、減算係数を大きくするように、制御する。これにより、適切に雑音を抑圧することができる。特に、音声評価の品質に関する音声成分のカートシスを用いて、減算係数を適応的に算出している。すなわち、音声区間のカートシスを算出することによって、処理前後における、音声区間の分布形状の変動を求めることができる。これにより、音声成分の歪み(例えば、ケプストラム歪み)を抑制することができる。雑音と音声の混合された観測信号から、正確に音性成分のカートシスを算出することができる。出力側装置3における音声認識処理の正確性を向上することができる。
【0069】
上記の説明では、周波数ビン毎に減算係数βを算出している。これにより、より適切に雑音を抑圧することができ、音声認識処理の正確性を向上することができる。もちろん、減算係数βを一括処理で求めてもよい。以下に、減算係数βを一括で算出する方法を、変形例1として説明する。
【0070】
実施の形態1の変形例1.
雑音減算の基本的な方法に付いては、上記の処理と方法であるため、説明を省略する。本変形例1では、実施の形態1の方法との相違点を中心に説明する。
【0071】
変形例1では、複数の周波数ビンに対する減算係数βを一括して算出している。従って、ステップ3と、ステップ13における周波数ビンfのインクリメントと、ステップ14における周波数ビンfの判定が不要となる。さらに、ステップ4、ステップ9におけるモーメント算出式が異なる。具体的には、式(6)、式(8)、及び式(12の)代わりに以下の式(16)、式(17)、及び式(18)を用いる。こうすることで、それぞれ、観測信号のモーメントM観測信号、雑音成分のモーメントM雑音成分、及び出力信号のモーメントM出力信号を求めることができる。
【0072】
【数16】

【数17】

【数18】

【0073】
上記のモーメントを用いて、キュムラントを推定する。そして、キュムラントからカートシスを算出する。なお、キュムラントとカートシスを求めるための演算処理には、実施の形態1と同様であるため説明を省略する。本変形例1では、0番目の周波数ビンから、(F−1)番目の周波数ビンまで一括で減算係数を算出することができる。すなわち、F個の周波数ビンに対して、共通の減算係数βが使用される。これにより、実施の形態1よりも計算時間を短縮することができる。また、音声区間のカートシスを用いているため、効果的に音声を強調することができる。
【0074】
実施の形態2.
実施の形態2にかかる音声強調装置2に付いて、図2を用いて説明する。実施の形態2では、6個のマイクロホン1が設けられたマイクロホンアレイ5が使用されている。そして、マイクロホンアレイ5で取得された観測信号X〜Xが音声強調装置2に入力される。さらに、雑音推定の処理が実施の形態2と異なっている。なお、これら以外の基本的な処理については、実施の形態1、又は変形例1と同様であるため、説明を省略する。
【0075】
複数のマイクロホン1で構成されたマイクロホンアレイ5を用いた場合、近接の点音源に対しては、位相差制御により雑音を抑圧することが可能である。従って、本実施形態では、位相差制御により、雑音推定を行っている。実施の形態1で示したように、フレーム区間で音声/非音声区間の推定を行う必要は無い。すなわち、音声があった場合も、音声をキャンセルすることが可能となる。従って,前述の音声区間検出の処理を取り除くことができる。
【0076】
マイクロホンアレイ5からの観測信号は、雑音推定処理部41と音声推定処理部42と観測信号用キュムラント算出部51に入力される。ここで、雑音低減前の前処理によって、実施の形態1と同様に、観測信号は、時間−周波数領域の信号に変換されている。雑音推定処理部41は、複数の観測信号X(f,t)〜X(f,t)に対して、雑音推定処理を行う。本実施の形態では、マイクロホンアレイ処理を行い、観測信号X(f,t)〜X(f,t)のそれぞれに対して、推定雑音信号が生成される。例えば、マイクロホンアレイ処理によって音源の位置推定を行い、音源の方以外の音を雑音と推定する。具体的には、ヌルビームフォーマーやICA(独立成分分析)による適応アレイ処理で、雑音推定する。なお、マイクロホンアレイ5による雑音推定に付いては、特に限定されるものではなく、公知の方法を用いることができる。
【0077】
観測信号用キュムラント算出部51は、観測信号用キュムラント推定部21と同様に、観測信号のキュムラントを算出する。また、推定雑音用キュムラント算出部52は、推定雑音用キュムラント推定部22と同様に、推定雑音信号のキュムラントを推定する。音声成分用キュムラント算出部53は、音声成分用キュムラント推定部24と同様に、観測信号のキュムラントと推定雑音信号のキュムラントとに基づいて、音声成分のキュムラントを算出する。具体的には、観測信号のキュムラントと推定雑音信号のキュムラントとの差から、音声成分のキュムラントを求めることができる。カートシス算出部54は、カートシス推定部23と同様に、音声成分のキュムラントから、音声成分のカートシスを算出する。減算パラメータ適応判定器55は、減算係数適応器31と同様に、音声成分のカートシスに基づいて、減算係数を算出する。
【0078】
減算パラメータ適応判定器55で算出された減算係数βが、音声推定処理部42に入力される。そして、音声推定処理部42は、この減算係数βを用いて、音声推定処理を行う。すなわち、音声推定処理部42は雑音減算部12と同様に、フィルタ係数と減算係数βを用いて、雑音減算処理を行う。これにより、音声が強調された出力信号が生成される。出力信号は、出力信号用キュムラント算出部57に入力される。
【0079】
出力信号用キュムラント算出部57は、出力信号用キュムラント推定部32と同様に、出力信号のキュムラントを算出する。カートシス算出部56は、出力信号用カートシス推定部33と同様に、出力信号のキュムラントに基づいて、出力信号のカートシスを算出する。出力信号のカートシスは、減算パラメータ適応判定器55に入力される。減算パラメータ適応判定器55は、減算係数適応器31と同様に、出力信号のカートシスと、音声成分のカートシスとから、減算係数βを算出する。そして、減算パラメータ適応判定器55で算出された減算係数βが音声推定処理部42に入力される。音声推定処理部42は、更新された減算係数βに基づいて、音声推定処理を行う。すなわち、音声推定処理部42は雑音減算部12と同様に、フィルタ係数と減算係数を用いて、雑音減算処理を行う。これにより、音声が推定され、音声が強調された出力信号が出力される。そして、出力信号が外部機器、例えば、実施の形態1で示した出力側装置3(図2では省略)に出力される。上記の処理は、実施の形態1、または変形例1で示した数式によって、算出することができる。これにより、マイクロホン1毎に出力信号Y(f,t)〜Y(f,t)を得ることができる。
【0080】
次に、本実施の形態の音声強調装置2における音声強調方法について、詳細に説明する。なお、以下の説明では、実施の形態1と同様に、周波数ビン毎に、カートシスを算出するが、変形例1と同様に、一括して、カートシスを算出しても良い。
(ステップ101)
まず、マイクロホンアレイ5で取得した時間領域の観測信号x(t)〜x(t)をフレーム分割した後、離散フーリエ変換を行う。これにより、時間−周波数領域の観測信号X(f,t)〜X(f,t)を得ることができる。
(ステップ102)
周波数ビンf=0をセットする。
(ステップ103)
雑音推定処理部41が雑音推定処理を実行する。ここでは、マイクロホンアレイ処理を行うことで、雑音推定信号を得ることができる。それぞれのマイクロホン1に対して、雑音推定信号が生成される。図2の例では、マイクロホン1が6個あるため、雑音推定信号N(f,t)〜N(f,t)が算出される。なお、ステップ101とステップ103の処理に付いては、公知の方法を用いることができるため、特に限定されるものではない。もちろん、マイクロホン1の数は、6個に限定されるものではない。
(ステップ104)
マイクロホン1の番号n=0をセットする。すなわち、1つ目のマイクロホン1で取得された観測信号X(f,t)とその雑音推定信号N(f,t)に対して、キュムラント、及びカートシスを算出するための処理が行われる。
【0081】
(ステップ105)
観測信号用キュムラント算出部51と、推定雑音用キュムラント算出部52が観測信号X(f,t)のキュムラントC観測信号n及び推定雑音信号N(f,t)のキュムラントC雑音信号nを算出する。そのため、まず、観測信号X(f,t)、及び推定雑音信号N(f,t)のモーメントを求める。例えば、観測信号X(f,t)の2次のモーメントM2,観測信号n、4次のモーメントM4,観測信号n、6次のモーメントM6,観測信号n、8次のモーメントM8,観測信号nは、上記の式(6)と同様の式によって求めることができる。観測信号用キュムラント算出部51は、観測信号のモーメントM観測信号nから観測信号のキュムラントC観測信号nを求める。観測信号X(f,t)の2次のキュムラントC2,観測信号n、4次のキュムラントC4,観測信号n、6次のキュムラントC6,観測信号n、8次のキュムラントC8,観測信号nは、上記の式(7)によって求めることができる。
【0082】
推定雑音用キュムラント算出部52が、同様に、推定雑音信号N(f,x)の2次のモーメントM2,雑音信号n、4次のモーメントM4,雑音信号n、6次のモーメントM6,雑音信号n、8次のモーメントM8,雑音信号nは、上記の式(8)によって求めることができる。推定雑音用キュムラント算出部52は、推定雑音信号のモーメントM雑音信号nから推定雑音信号のキュムラントC雑音信号nを求める。推定雑音信号N(f,t)の2次のキュムラントC2,雑音信号n、4次のキュムラントC4,雑音信号n、6次のキュムラントC6,雑音信号n、8次のキュムラントC8,雑音信号nは、上記の式(9)によって求めることができる。このようにして、観測信号X(f,t)のキュムラントC観測信号n及び推定雑音信号N(f,t)のキュムラントC雑音信号nを算出することができる。
(ステップ106)
音声成分用キュムラント算出部53が観測信号X(f,t)内の音声成分のキュムラントC音声成分nを算出する。キュムラントには、加法性が成り立つため、音声成分のキュムラントは、観測信号のキュムラントと推定雑音のキュムラントとの差で示される。よって、音声成分の2次のキュムラントC2,音声成分n、4次のキュムラントC4,音声成分n、6次のキュムラントC6,音声成分n、8次のキュムラントC8,音声成分nは、上記の式(10)で示される。
【0083】
(ステップ107)
カートシス算出部54が、音声成分のキュムラントC音声成分nから、音声成分のカートシスK音声成分nを推定する。カートシスの推定に付いては、特に限定されるものではないが、例えば、上記の式(11)を用いることができる。これにより、音声成分のパワースペクトル領域のカートシスK音声成分nを算出することができる。
【0084】
(ステップ108)
また、減算パラメータ適応判定器55に減算係数βの初期値をセットし、更新回数i=0をセットする。なお、減算係数βの初期値については、適当な値を選択することができる。
(ステップ109)
そして、減算係数βの初期値を用いて、音声推定処理部42が、観測信号X(f,t)に対して雑音減算処理を行う。雑音減算処理については、例えば、手法(a)〜(d)のいずれか一つを用いることができる。従って、式(2)〜式(5)のいずれか一つを採用し、その式に減算係数βの初期値を代入する。これにより、フィルタ係数H(f,t)を算出することができる。そして、フィルタ係数H(f,t)と観測信号X(f,t)とから、出力信号Y(f,t)を算出する。具体的には、Y(f,t)=H(f,t)X(f,t)となる。
【0085】
(ステップ110)
出力信号用キュムラント算出部57が出力信号Y(f,t)のキュムラントC出力信号を推定する。そのため、まず、出力信号Y(f,t)のモーメントM出力信号nを求める。例えば、出力信号Y(f,t)の2次のモーメントM2,出力信号n、4次のモーメントM4,出力信号n、6次のモーメントM6,出力信号n、8次のモーメントM8,出力信号nは、上記の式(12)によって求めることができる。これらのモーメントから出力信号のキュムラントC出力信号nを求める。出力信号Y(f,t)の2次のキュムラントC2,出力信号n、4次のキュムラントC4,出力信号n、6次のキュムラントC6,出力信号n、8次のキュムラントC8,出力信号nは、上記の式(13)によって求めることができる。
【0086】
(ステップ111)
カートシス算出部56が、キュムラントC出力信号に基づいて、出力信号のカートシスK出力信号nを算出する。カートシスの推定に付いては、特に限定されるものではないが、例えば、上記の式(14)を用いることができる。これにより、音声成分のパワースペクトル領域のカートシスK出力信号nを算出することができる。
【0087】
(ステップ112)
減算パラメータ適応判定器55が、減算係数βを更新するとともに、更新回数iをインクリメントする。減算パラメータ適応判定器55が、出力信号のカートシスK出力信号nと音声成分のカートシスK音声成分nとを比較して、減算係数βを算出する。例えば、出力信号のカートシスK出力信号nと音声成分のカートシスK音声成分nの差を求める。そして、カートシスの差に応じて、減算係数βを更新する。具体的には、上記の式(15)を用いて、減算係数βを更新する。さらに、更新回数iをインクリメントする。
【0088】
(ステップ113)
更新回数iがIを越えたか否かが判定される。これにより、減算係数βを求めるためのループ計算が十分な回数を行われたか否かが判定される。更新回数iがIよりも小さい場合、ステップ109に戻る。一方、更新回数iがI以上の場合、周波数ビンfをインクリメントして、次のステップ114に進む。すなわち、減算係数βが収束しない場合、更新回数iがIに達するまで、ステップ8〜ステップ11の処理が繰り返し行われる。なお、更新回数iがIに到達する前に、β減算係数が収束した場合、ループ計算を抜けて、次のステップ114に進むようにしてもよい。例えば、カートシスの差又は比がしきい値Thresholdよりも小さい場合、ステップ109〜ステップ112までのループ計算を抜けるようにしてもよい。
【0089】
(ステップ114)
全てのマイクロホン1に付いて、減算係数βを算出したか否かを判定する。例えば、マイクロホンアレイ5に含まれるマイクロホン1の数をMとすると、マイクロホン番号nがM以上であるか否かを判定する。マイクロホン番号nがMよりも小さい場合、ステップ105に戻る。マイクロホン番号nがM以上の場合、周波数ビンfをインクリメントして、次のステップ115に移行する。
(ステップ115)
全ての周波数ビンについて、減算係数βが算出されたか否かを判定する。具体的には、周波数ビンfがFよりも小さい場合、ステップ104に戻り、次の周波数ビンfの減算係数βを求める。なお、Fは周波数ビンの数である。一方、周波数ビンfがF以上の場合、時間領域の出力信号を得る。具体的には、音声推定処理部42で算出された出力信号Y(f,t)を逆フーリエ変換する。そして、逆フーリエ変換された出力信号に窓掛け(ハミング窓)し、オーバーラップアッドにより、時間領域のデータを得る。これにより、音声強調装置2から時間領域の出力信号y(t)が出力される。なお、ステップ115の処理は、音声強調装置2が行っても良く、他の装置が行っても良い。
【0090】
このようにすることで、実施の形態1と同様に、観測信号中の雑音が効果的に低減される。よって、観測信号中の音声を強調することができ、後段の音声認識システムでの音声認識処理の正確性を向上することができる。さらに、音声信号を取得するためのマイクロホンユニットとして、マイクロホンアレイ5を用いている。このため、効果的に雑音推定することができる。また、実施の形態1〜実施の形態2において、減算係数を算出するためのループ計算は、同じ観測信号に対して実行されても良く、随時取得される観測信号を用いて、実行されても良い。すなわち、ループ計算毎に、最新の観測信号を用いてもよい。
【0091】
上述した雑音抑制処理は、DSP(Digital Signal Processor)、MPU(Micro Processing Unit)、若しくはCPU(Central Processing Unit)又はこれらの組み合わせを含むコンピュータにプログラムを実行させることによって実現してもよい。
【0092】
上述の例において、音声強調処理をコンピュータに行わせるための命令群を含むプログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD−ROM(Read Only Memory)、CD−R、CD−R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(Random Access Memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
【符号の説明】
【0093】
1 マイクロホン
2 音声強調装置
3 出力側装置
5 マイクロホンアレイ
11 雑音推定部
12 雑音減算部
20 カートシス算出ユニット
21 観測信号用キュムラント推定部
22 推定雑音用キュムラント推定部
23 カートシス推定部
24 音声成分用キュムラント推定部
30 減算係数算出ユニット
31 減算係数適応器
32 出力信号用キュムラント推定部
33 出力信号用カートシス推定部
41 雑音推定処理部
42 音声推定処理部
51 観測信号用キュムラント算出部
52 推定雑音用キュムラント算出部
53 音声成分用キュムラント算出部
54 カートシス算出部
55 減算パラメータ適応判定器
56 カートシス算出部
57 出力信号用キュムラント算出部

【特許請求の範囲】
【請求項1】
マイクロホンユニットによって取得された観測信号に対して、音声を強調する音声強調装置であって、
雑音成分と音声成分とを含む観測信号のキュムラントを推定する第1のキュムラント推定部と、
前記観測信号に含まれる雑音成分を推定する雑音推定部と、
前記雑音推定部で推定された推定雑音のキュムラントを推定する第2のキュムラント推定部と、
前記観測信号のキュムラントと、前記推定雑音のキュムラントに基づいて、音声成分のキュムラントを推定する第3のキュムラント推定部と、
前記音声成分のキュムラントに基づいて、音声成分のカートシスを推定する第1のカートシス推定部と、
前記音声成分カートシスに基づいて、減算係数を算出する減算係数適応部と、
前記減算係数適応部で算出された減算係数を用いて、前記観測信号に対して雑音減算する雑音減算部と、を備えた音声強調装置。
【請求項2】
前記雑音減算部から出力された前記出力信号のキュムラントを推定する第4のキュムラント推定部と、
前記出力信号のキュムラントに基づいて、出力信号のカートシスを推定するカートシス推定部と、をさらに備え、
前記出力信号のカートシスに基づいて、前記減算係数適応部が、減算係数を算出する請求項1に記載の音声強調装置。
【請求項3】
前記観測信号のキュムラントと、前記推定雑音のキュムラントとの差に基づいて、前記音声成分のキュムラントが推定されている請求項1、又は2に記載の音声強調装置。
【請求項4】
前記マイクロホンユニットが複数のマイクロホンを有するマイクロホンアレイを備え、
前記雑音推定部が、マイクロホンアレイ処理によって、前記推定雑音を推定している請求項1乃至3のいずれか1項に記載の音声強調装置。
【請求項5】
マイクロホンユニットによって取得された観測信号に対して、音声を強調する音声強調方法であって、
雑音成分と音声成分とを含む観測信号のキュムラントを算出するステップと、
前記観測信号に含まれる雑音を推定するステップと、
推定された推定雑音のキュムラントを算出するステップと、
前記観測信号のキュムラントと、前記推定雑音のキュムラントに基づいて、音声成分のキュムラントを算出するステップと、
前記音声成分のキュムラントに基づいて、音声成分のカートシスを推定するステップと、
前記音声成分カートシスに基づいて、減算係数を算出するステップと、
前記減算係数を用いて、前記観測信号に対して雑音減算するステップと、を備えた音声強調方法。
【請求項6】
前記出力信号のキュムラントを算出するステップと、
前記出力信号のキュムラントに基づいて、出力信号のカートシスを算出するステップと、をさらに備え、
前記出力信号のカートシスと前記音声成分のカートシスに基づいて、前記減算係数を算出する請求項5に記載の音声強調方法。
【請求項7】
前記観測信号のキュムラントと、前記推定雑音のキュムラントとの差に基づいて、前記音声成分のキュムラントが推定されている請求項5、又は6に記載の音声強調方法。
【請求項8】
前記マイクロホンユニットが複数のマイクロホンを有するマイクロホンアレイを備え、
マイクロホンアレイ処理によって前記推定雑音が推定されている請求項5乃至8のいずれか1項に記載の音声強調方法。
【請求項9】
マイクロホンユニットによって取得された観測信号に対して、音声を強調する音声強調プログラムであって、
コンピュータに対して、
雑音成分と音声成分とを含む観測信号のキュムラントを算出させるステップと、
前記観測信号に含まれる雑音を推定させるステップと、
推定された推定雑音のキュムラントを算出させるステップと、
前記観測信号のキュムラントと、前記推定雑音のキュムラントに基づいて、音声成分のキュムラントを算出させるステップと、
前記音声成分のキュムラントに基づいて、音声成分のカートシスを推定するステップと、
前記音声成分カートシスに基づいて、減算係数を算出させるステップと、
前記減算係数を用いて、前記観測信号に対して雑音減算させるステップと、を備えた音声強調プログラム。
【請求項10】
コンピュータに対して、
前記出力信号のキュムラントを算出させるステップと、
前記出力信号のキュムラントに基づいて、出力信号のカートシスを算出させるステップと、をさらに備え、
前記出力信号のカートシスと前記音声成分のカートシスに基づいて、前記減算係数が算出される請求項9に記載の音声強調プログラム。
【請求項11】
前記観測信号のキュムラントと、前記推定雑音のキュムラントとの差に基づいて、前記音声成分のキュムラントが推定されている請求項9、又は10に記載の音声強調方法。
【請求項12】
前記マイクロホンユニットが複数のマイクロホンを有するマイクロホンアレイを備え、
マイクロホンアレイ処理によって前記推定雑音が推定されている請求項9乃至11のいずれか1項に記載の音声強調プログラム。

【図2】
image rotate

【図4】
image rotate

【図1】
image rotate

【図3】
image rotate


【公開番号】特開2012−181233(P2012−181233A)
【公開日】平成24年9月20日(2012.9.20)
【国際特許分類】
【出願番号】特願2011−42116(P2011−42116)
【出願日】平成23年2月28日(2011.2.28)
【出願人】(504143441)国立大学法人 奈良先端科学技術大学院大学 (226)
【出願人】(000003207)トヨタ自動車株式会社 (59,920)