説明

音声強調装置、音声強調方法、及び音声強調プログラム

【課題】安定的に音声を強調することができる音声強調装置、音声強調方法、及び音声強調プログラムを提供すること。
【解決手段】本発明にかかる音声強調装置2は、雑音成分用カートシス推定部27と、混合信号用カートシス推定部28と、音声成分用カートシス推定部29と、カートシステーブルを格納するメモリ24と、減算係数適応器31と、雑音減算部12と、を備える。音声成分用カートシス推定部29は、雑音成分用カートシス推定部27により推定された雑音成分のカートシス及び混合信号用カートシス推定部28により推定された混合信号のカートシス推定部に対応する音声成分のカートシスを、カートシステーブルを参照して推定する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、雑音成分と音声成分とを含む観測信号の音声を強調する音声強調装置、音声強調方法、及び音声強調プログラムに関する。
【背景技術】
【0002】
近年、音声を利用するアプリケーションの増加とともに、雑音の存在する中から目的とする音声のみを抽出したいという要望が高まってきている。例えば、図4に示すような環境において、発話者が発話したとする。発話者による発話がマイクロホン1により収音される。このとき、周囲の雑音もマイクロホン1で収音される。従って、マイクロホン1が取得した観測信号X(f,t)は、目的となる音声信号S(f,t)と、雑音信号N(f,t)とを含んでいる。すなわち、X(f,t)=S(f,t)+N(f,t)となる。
【0003】
そして、取得した観測信号X(f,t)から雑音推定を行う。観測信号X(f,t)から、推定雑音信号(推定雑音スペクトル)を推定する。なお、図4において、推定値を示すハット付きのN(f,t)が推定雑音信号である。推定雑音信号を用いて雑音減算を行うことで、出力信号Y(f,t)を得ることができる。
【0004】
具体的な雑音推定方法としては、以下の2つが挙げられる。1つ目は、ユーザ音声の無音区間を推定する方法である。この方法では、雑音が定常であると仮定する。そして、カートシス(尖度)やパワー閾値などにより、区間を判定して、推定雑音スペクトルを算出する。
【0005】
2つ目の方法は、マイクロホンアレイを用いる方法である。この方法では、ユーザからの放射音は、マイクロホンに最も近い点音源と仮定する。そして、ユーザ方位に死角を形成し、雑音推定スペクトルを算出する。
【0006】
このように推定された雑音推定スペクトルを用いて、雑音減算する。非線形雑音抑圧処理の多くは、時間−周波数領域に変換した観測信号X(f,t)に対してフィルタ係数H(f,t)を適用する。具体的には、以下の式(1)により、出力信号Y(f,t)を求めることができる。
【0007】
【数1】

【0008】
フィルタ係数H(f,t)の設計は手法により異なるが、フィルタ係数H(f,t)は、観測信号X(f,t)、雑音推定信号、減算係数dにより生成される。具体的な設計手法については、例えば、(a)スペクトルサブトラクション(Spectral Subtraction:SS)法、(b)一般化スペクトルサブトラクション(Generalized Spectral Subtraction:GSS)法、(c)ウィーナーフィルタ(Wiener Filter:WF)法、(d)パラメトリックウィーナーフィルタ(Parametric Wiener Filter:PWF)法がある。それぞれフィルタ係数H(f,t)は式(2)〜式(5)で示される。
【0009】
(a)
【数2】

【0010】
(b)
【数3】

【0011】
(c)
【数4】

【0012】
(d)
【数5】

【0013】
上記に手法(a)〜(d)において、減算係数dの設定により、雑音抑制性能・音質性能が変動する。例えば、図5に減算係数と各性能の関係のシミュレーション結果を示す。図5に示すように、減算係数dを大きく設定した場合、抑圧性能は高くなるが、音質性能は低くなる。一方、減算係数dを小さく設定した場合、抑圧性能は低くなるが、音質性能は高くなる。
【0014】
実環境では、雑音と音声の混入度合いは周波数ごとに異なる。このため、減算係数dの最適値が変動する。また、実環境では、雑音と音声の混入度合いが不明であるため、図5のようなグラフすら描くことができない。よって、最適な減算係数dを求めることが困難である。
【先行技術文献】
【特許文献】
【0015】
【特許文献1】特開2000−330597号公報
【特許文献2】特開2007−6525号公報
【非特許文献】
【0016】
【非特許文献1】EUSIPCO2010 pp.994−998
【非特許文献2】脇坂龍, 井上貴之, 猿渡洋, 鹿野清宏, 高谷智哉, ``キュムラントの加法性を利用した雑音中からの音声カートシス逆推定, ''日本音響学会講演論文集, 2−9−6, pp.683−686, March 2011.
【発明の開示】
【発明が解決しようとする課題】
【0017】
特許文献1、特許文献2、及び非特許文献1に、雑音(ノイズ)を抑圧して、音声を強調する別の方法が開示されている。特許文献1では、入力音声信号のS/N比を推定し、雑音の抑圧量を制御する減算係数が複数個格納されている減算係数データテーブルが設けられている。そして、この減算係数データテーブルからS/N比に基づいて減算係数を決定している。
【0018】
特許文献2では、各周波数ビンにおいて、入力信号の信号対雑音比(SNR)を算出している。そして、SNRが低い時(雑音が多く、音声が少ないと判定された場合)、減算係数を補正して、減算量を増やしている。これにより、入力信号の抑圧をより強くすることができる。一方、SNRが高い時(雑音が少なく、音声が大勢と判定された場合)、減算係数を補正して、減算量を減らしている。これにより、入力信号の抑圧をより小さくすることができる。
【0019】
しかしながら、音声対話システムの場合、補正係数や減算係数データテーブルを算出するため、運営する環境にシステムを設置する必要がある。その環境において、予め騒音、及び音声データを測定する。各減算係数値での音声認識率を算出し、減算係数データテーブルの減算係数値や補正係数を決定しなければならない。実際の製品では、このような事前の処理は困難である。また、マイクロホンや、ADコンバータ等の器材が変更された場合、同様に減算係数データテーブルの減算係数値等を決定しなければならない。別環境で予め設定した減算係数を用いる場合、その値が最適値とならない。従って、雑音成分の過大減算、又は過小減算が発生する。音声成分の劣化や雑音成分の残留(ミュージカルノイズの発生)が生じる。これにより、音声認識率の低下、や音質劣化を引き起こしてしまう。
【0020】
非特許文献1では、処理前後の雑音抑圧量(Noise Reduction Rate:NRR)の自動推定と、処理前後における雑音区間の分布形状の変動を「カートシス比」として算出している。そして、このカートシス比の値を設定値以下に収めるように、減算係数を適応的に選択している。こうすることで、非音声区間の過大減算、又は過小減算を制御している。
【0021】
しかしながら、非特許文献1では、非音声区間の過大減算、又は過小減算を制御している。換言すると、音声区間の過大減算、又は過小減算を評価していない。よって、音声認識の目的である音声区間の過大減算、又は過小減算が生じてしまうおそれがある。このように特許文献1、特許文献2、及び非特許文献1では、効果的に音声を強調することが困難である。
【0022】
そこで、本願発明者は、観測信号のキュムラント及び雑音信号のキュムラントを推定し、キュムラントの加法性を利用して、観測信号及び雑音信号のキュムラントから音声信号のキュムラントを推定し、音声信号のカートシスを算出する手法を提案した(非特許文献2)。
【0023】
しかし、非特許文献2の手法において、キュムラントの推定には観測データが用いられるが、観測データには外れ値(ノイズ)が含まれてしまう。一方、音声信号のキュムラントからカートシスを算出する際には、8次の統計量を計算する必要がある。このような8次の統計量の計算は、観測データの外れ値に敏感になってしまう。つまり、外れ値の影響が大きく、音声成分のキュムラント推定がうまくできない。その結果、安定的に音声信号のカートシスを推定することができないという問題があった。
【0024】
本発明は、上記の問題点に鑑みてなされたものであり、安定的に音声を強調することができる音声強調装置、音声強調方法、及び音声強調プログラムを提供することを目的とする。
【課題を解決するための手段】
【0025】
本発明の一態様にかかる音声強調装置は、マイクロホンユニットによって取得された観測信号に対して、音声を強調する音声強調装置であって、音声成分と雑音成分とを含む混合信号のモーメントに基づいて、混合信号のカートシスを推定する混合信号カートシス推定部と、雑音成分のモーメントに基づいて、雑音成分のカートシスを推定する雑音成分カートシス推定部と、前記混合信号のカートシス及び前記雑音成分のカートシスに対して音声成分のカートシスの値が予め対応付けられたカートシステーブルを格納する記憶部と、前記カートシステーブルを参照し、前記音声成分のカートシスを推定する音声成分カートシス推定部と、前記音声成分カートシス推定部により推定された前記音声成分のカートシスに基づいて、減算係数を算出する減算係数適応部と、前記減算係数適応部により算出された前記減算係数を用いて、前記観測信号に対して雑音減算する雑音減算部と、を備えるものである。
【0026】
また、前記カートシステーブルにおける前記混合信号のカートシス、前記雑音成分のカートシス、及び前記音声成分のカートシスの値は、前記雑音信号及び前記音声信号のパワースペクトルのヒストグラムが、所定の分布に従うという仮定に基づいて算出されてもよい。
【0027】
また、前記所定の分布は、一般化ガウス分布であってもよい。
【0028】
また、前記観測信号のSNRを推定するSNR推定部をさらに備え、前記カートシステーブルは、前記SNRに対応して複数種類あり、前記音声成分カートシス推定部は、複数種類の前記カートシステーブルのうち、前記SNR推定部により推定された前記SNRに基づいて、参照するカートシステーブルを選択してもよい。
【0029】
本発明の一態様にかかる音声強調方法は、マイクロホンユニットによって取得された観測信号に対して、音声を強調する音声強調方法であって、音声成分と雑音成分とを含む混合信号のモーメントに基づいて、混合信号のカートシスを推定するステップと、雑音成分のモーメントに基づいて、雑音成分のカートシスを推定するステップと、前記混合信号のカートシス及び前記雑音成分のカートシスに対して音声成分のカートシスの値が予め対応付けられたカートシステーブルを参照し、前記音声成分のカートシスを推定するステップと、推定した前記音声成分のカートシスに基づいて、減算係数を算出するステップと、算出した前記減算係数を用いて、前記観測信号に対して雑音減算するステップと、を備えるものである。
【0030】
また、前記カートシステーブルにおける前記混合信号のカートシス、前記雑音成分のカートシス、及び前記音声成分のカートシスの値は、前記雑音信号及び前記音声信号のパワースペクトルのヒストグラムが、所定の分布に従うという仮定に基づいて算出されてもよい。
【0031】
また、前記所定の分布は、一般化ガウス分布であってもよい。
【0032】
また、前記観測信号のSNRを推定するステップと、複数種類の前記カートシステーブルのうち、推定した前記SNRに基づいて、参照するカートシステーブルを選択するステップと、をさらに備えてもよい。
【0033】
本発明の一態様にかかる音声強調プログラムは、マイクロホンユニットによって取得された観測信号に対して、音声を強調する音声強調プログラムであって、コンピュータに対して、音声成分と雑音成分とを含む混合信号のモーメントに基づいて、混合信号のカートシスを推定させるステップと、雑音成分のモーメントに基づいて、雑音成分のカートシスを推定させるステップと、前記混合信号のカートシス及び前記雑音成分のカートシスに対して音声成分のカートシスの値が予め対応付けられたカートシステーブルを参照させ、前記音声成分のカートシスを推定させるステップと、推定した前記音声成分のカートシスに基づいて、減算係数を算出させるステップと、算出された前記減算係数を用いて、前記観測信号に対して雑音減算させるステップと、を備えるものである。
【0034】
また、前記カートシステーブルにおける前記混合信号のカートシス、前記雑音成分のカートシス、及び前記音声成分のカートシスの値は、前記雑音信号及び前記音声信号のパワースペクトルのヒストグラムが、所定の分布に従うという仮定に基づいて算出されてもよい。
【0035】
また、前記所定の分布は、一般化ガウス分布であってもよい。
【0036】
また、コンピュータに対して、前記観測信号のSNRを推定させるステップと、複数種類の前記カートシステーブルのうち、推定した前記SNRに基づいて、参照させるカートシステーブルを選択させるステップと、をさらに備えてもよい。
【発明の効果】
【0037】
本発明により、安定的に音声を強調することができる音声強調装置、音声強調方法、及び音声強調プログラムを提供することができる。
【図面の簡単な説明】
【0038】
【図1】実施の形態にかかる音声強調装置のシステム構成を示すブロック図である。
【図2】実施の形態にかかるカートシステーブルの一例を示す図である。
【図3】実施の形態にかかるカートシステーブル作成部のブロック図である。
【図4】一般的な雑音減算処理を示す図である。
【図5】雑音減算処理における減算係数と性能の関係を示すシミュレーション結果である。
【発明を実施するための形態】
【0039】
以下、本発明に係る音声強調装置の実施形態を、図面に基づいて詳細に説明する。但し、本発明が以下の実施形態に限定される訳ではない。また、説明を明確にするため、以下の記載及び図面は、適宜、簡略化されている。
【0040】
まず、本発明の実施の形態1にかかる音声強調装置について、図1を用いて説明する。図1は、音声強調装置のシステム構成を示すブロック図である。マイクロホン1は、周囲で発生した音を収音して、その音に基づく観測信号x(t)を出力する。観測信号x(t)には、音声成分と、雑音成分とが含まれている。音声成分は、音声認識の目的となる発話者の音声の信号であり、雑音成分は、発話者の音声以外の信号である。音声強調装置2には、マイクロホン1が接続されている。従って、マイクロホン1が収音した観測信号x(t)が音声強調装置2に入力される。
【0041】
音声強調装置2によって、観測信号の音声を強調する。そして、音声が強調された出力信号を、出力側装置3に出力する。出力側装置3は、音声認識システムや、通信機器などであり、出力信号に対して、所定の処理を行う。例えば、音声認識システムの場合、出力信号に対して音声認識処理を行う。
【0042】
なお、音声強調装置2は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)、通信用のインタフェイスなどを有する演算処理装置であり、より具体的には、パーソナルコンピュータ(PC)等である。また、音声強調装置2は、着脱可能なHDD、光ディスク、光磁気ディスク等を有し、各種プログラムや制御パラメータなどを記憶し、そのプログラムやデータを必要に応じてメモリ(不図示)等に供給する。もちろん、音声強調装置2は、物理的に一つの構成に限られるものではない。音声強調装置2は、マイクロホン1によって、収音された音のデータに対して、音声処理を行う。
【0043】
音声強調装置2は、FFT処理部11と、雑音減算部12と、IFFT処理部13と、カートシス推定ユニット20と、減算係数算出ユニット30とを、備えている。カートシス推定ユニット20は、音声判定部21と、SNR推定器22と、変換テーブル選択器23と、メモリ24と、雑音成分用モーメント推定部25と、混合信号用モーメント推定部26と、雑音成分用カートシス推定部27と、混合信号用カートシス推定部28と、音声成分用カートシス推定部29と、を備えている。減算係数算出ユニット30は、減算係数適応器31と、出力信号用モーメント推定部32と、出力信号用カートシス推定部33と、を備えている。
【0044】
マイクロホン1からの観測信号は、FFT処理部11に入力される。FFT処理部11では、音声強調処理を行う前処理が行われ、時間−周波数領域の信号X(f,t)が生成される。具体的には、所定時間の観測信号をバッファに記憶して、その観測信号を、k個(kは2以上の整数)のフレームに分割する。ここでは、時間領域において、隣接フレームが半分重なるように、ハーフシフトによってフレーム分割している。さらに、窓関数を用いて、フレーム分割しても良い。さらに、フレーム分割された観測信号を離散フーリエ変換する。これにより、時間−周波数領域の観測信号X(f,t)を得ることができる。なお、この前処理は、音声強調装置2が行っても良く、他の装置、例えば、マイクロホン1を有するマイクロホンユニットが行っても良い。観測信号X(f,t)は、雑音減算部12及び音声判定部21に入力される。
【0045】
音声判定部21は、観測信号X(f,t)に音声成分が含まれているか否かを判定する。音声判定部21は、音声成分が含まれていると判定した場合、音声成分及び雑音成分が含まれている観測信号(以下、混合信号X(f,t)と称す。)を、混合信号用モーメント推定部26に出力する。一方、音声判定部21は、音声成分が含まれていないと判定した場合、雑音成分のみが含まれている観測信号(以下、雑音成分X(f,t)と称す。)を、雑音成分用モーメント推定部25に出力する。
【0046】
雑音成分用モーメント推定部25は、雑音成分X(f,t)のモーメントを推定する。雑音成分用カートシス推定部27は、雑音成分用モーメント推定部25により推定された雑音成分のモーメントに基づいて、雑音成分のカートシスを推定する。同様に、混合信号用モーメント推定部26は、混合信号X(f,t)のモーメントを推定する。混合信号用カートシス推定部28は、混合信号用モーメント推定部26により推定された混合信号のモーメントに基づいて、混合信号のカートシスを推定する。
【0047】
また、音声判定部21は、入力された観測信号X(f,t)が混合信号であるか雑音信号であるかに拘らず、入力された観測信号X(f,t)をSNR推定器22に出力する。
【0048】
SNR推定器22は、観測信号X(f,t)のSNR(Signal-Noise Ratio)を推定する。変換テーブル選択器23は、メモリ24に格納された複数種類のカートシステーブルのうち、推定されたSNRに基づいて、一のカートシステーブルを選択する。具体的には、メモリ24には、SNR毎に種類の異なるカートシステーブルが複数格納されている。そして、変換テーブル選択器23は、複数のカートシステーブルから、推定されたSNRに対応するカートシステーブルを選択する。
【0049】
ここで、カートシステーブルとは、混合信号のカートシス及び雑音成分のカートシスに対して音声成分のカートシスの値が予め対応付けられたテーブルである。つまり、カートシステーブルにおいて、混合信号のカートシスと雑音成分のカートシスとを特定すれば、音声成分のカートシスが決定される。なお、カートシステーブルの生成方法の詳細については後述する。また、カートシステーブルが音声強調装置2外部のメモリ(図示省略)に格納されていてもよい。
【0050】
音声成分用カートシス推定部29は、変換テーブル選択器により選択されたカートシステーブルを参照して、音声成分のカートシスを推定する。具体的には、音声成分用カートシス推定部29は、カートシステーブルにおいて、入力された雑音成分のカートシス及び混合信号のカートシスに対応する音声成分のカートシスを特定し、音声成分のカートシスの推定値として減算係数適応器31に出力する。
【0051】
減算係数適応器31には、音声成分のカートシスが入力される。減算係数適応器31は、音声成分のカートシスに基づいて、減算係数dを適応する。そして、減算係数適応器31で求められた減算係数dは、雑音減算部12に入力される。
【0052】
雑音減算部12は、減算係数dを用いて、雑音減算処理を実行する。そして、雑音減算部12からは、観測信号X(f,t)から雑音が減算された出力信号Y(f,t)が出力される。さらに、出力信号Y(f,t)は、出力信号用モーメント推定部32に入力される。出力信号用モーメント推定部32は、出力信号Y(f,t)のモーメントを推定し、出力信号用カートシス推定部33に出力する。出力信号用カートシス推定部33は、出力信号Y(f,t)のモーメントに基づいて、出力信号のカートシスを推定する。出力信号のカートシスは、減算係数適応器31に入力される。
【0053】
減算係数適応器31は、出力信号のカートシスと、音声成分のカートシスとに基づいて、減算係数dを算出する。例えば、出力信号のカートシスと、音声成分のカートシスとの差が収束するまで、繰り返し演算を行う。すなわち、出力信号のカートシスと、音声成分のカートシスとの差が収束するような、減算係数dを算出する。そして、この減算係数dに基づいて、雑音減算部12が雑音減算処理を行う。雑音減算については、上記の手法(a)〜(d)、すなわち、式(2)〜式(5)を用いることができる。減算係数dは、適応係数であり、入力された観測信号X(f,t)に応じて決定される。すなわち、雑音減算のためのフィルタが、入力された観測信号に基づいて自己適応されている。
【0054】
続いて、本実施の形態における音声強調装置2の音声強調方法について詳細に説明する。まず、マイクロホン1で取得した時間領域の観測信号x(t)がFFT処理部11に入力される。FFT処理部11は、時間領域の観測信号x(t)フレーム分割した後、離散フーリエ変換を行う。これにより、時間−周波数領域の観測信号X(f,t)を得ることができる。なお、フーリエ変換後の観測信号X(f,t)のデータ長は特に限定されるものではなく、例えば、数秒間の観測信号x(t)をフーリエ変換すればよい。FFT処理部11は、観測信号X(f,t)を雑音減算部12及び音声判定部21に出力する。
【0055】
次に、カートシス推定ユニット20の動作について説明する。音声判定部21は、入力された観測信号X(f,t)に音声成分が含まれるか否かを判定する。なお、音声成分が含まれているか否かの判定処理は、観測信号X(f,t)のパワーが所定の閾値より大きいか否か等、公知の判定処理を用いることができる。
【0056】
雑音成分用モーメント推定部25は、音声判定部21により音声成分が含まれていないと判定された観測信号、つまり雑音成分X(f,t)のモーメントを推定する。具体的には、雑音成分用モーメント推定部25は、雑音成分X(f,t)の2次のモーメント及び4次のモーメントを推定し、雑音成分用カートシス推定部27に出力する。
【0057】
雑音成分用カートシス推定部27は、雑音成分X(f,t)の2次のモーメント及び4次のモーメントに基づいて、雑音成分のカートシスK雑音成分を推定する。カートシスの推定については、特に限定されるものではない。例えば、雑音成分のカートシスK雑音成分の推定には、以下の式(6)を用いることができる。これにより、雑音成分のパワースペクトル領域のカートシスK雑音成分を求めることができる。なお、式(6)において、μ(|X(f,t)|)が雑音成分X(f,t)の2次のモーメントであり、μ(|X(f,t)|)が雑音成分X(f,t)の4次のモーメントである。
【0058】
【数6】

【0059】
同様に、混合信号用モーメント推定部26は、音声判定部21により音声成分が含まれていると判定された観測信号、つまり混合信号X(f,t)のモーメントを推定する。具体的には、混合信号用モーメント推定部26は、混合信号X(f,t)の2次のモーメント及び4次のモーメントを推定し、混合信号用カートシス推定部28に出力する。
【0060】
混合信号用カートシス推定部28は、混合信号X(f,t)の2次のモーメント及び4次のモーメントに基づいて、混合信号のカートシスK混合信号を推定する。カートシスの推定については、特に限定されるものではない。例えば、混合信号のカートシスK混合信号の推定には、以下の式(7)を用いることができる。これにより、混合信号のパワースペクトル領域のカートシスK混合信号を求めることができる。なお、式(7)において、μ(|X(f,t)|)が混合信号X(f,t)の2次のモーメントであり、μ(|X(f,t)|)が混合信号X(f,t)の4次のモーメントである。
【0061】
【数7】

【0062】
一方、SNR推定器22は、音声判定部21から入力された雑音成分X(f,t)及び混合信号X(f,t)に基づいて、観測信号X(f,t)のSNRを推定する。SNRは以下の式(8)によって求めることができる。なお、<>はフレームにおける時間平均を示す。
【0063】
【数8】

【0064】
SNR推定器22は、推定したSNRを変換テーブル選択器23に出力する。変換テーブル選択器23は、メモリ24に格納された複数種類のカートシステーブルから、入力されたSNRに対応するカートシステーブルを選択する。
【0065】
音声成分用カートシス推定部29は、変換テーブル選択器23により選択されたカートシステーブルを参照して、雑音成分のカートシスK雑音成分及び混合信号のカートシスK混合信号に対応付けられた音声成分のカートシスK音声成分を特定する。図2にカートシステーブルの一例を示す。図2のカートシステーブルを用いて、カートシスK音声成分の推定方法を具体的に説明する。
【0066】
このとき、カートシステーブルの縦軸は、雑音成分のカートシスの値を示し、横軸は、音声成分のカートシスの値を示す。また、テーブルの濃度は、混合信号のカートシスの値を示す。つまり、カートシステーブルは、雑音成分のカートシスと、音声成分のカートシスと、混合信号のカートシスと、が対応付けられた3次元のグラフである。なお、カートシステーブルの値は、後述のカートシステーブルの生成方法によって算出される理論値である。つまり、マイクロホン1が取得する観測データを使用せずに算出された値である。そのため、カートシステーブルにおいて、外れ値(ノイズ)は含まれていない。
【0067】
例えば、雑音成分用カートシス推定部27から出力された雑音成分のカートシスK雑音成分が2.0×10であるとする。一方、混合信号用カートシス推定部28から出力された混合信号のカートシスK混合信号が1.2×10であるとする。音声成分用カートシス推定部29は、縦軸(雑音成分のカートシス)が2.0×10の値において、テーブルの濃度(混合信号のカートシス)が1.2×10の対応する濃度である点を特定する(図2における破線で囲った部分)。当該点の横軸(音声成分のカートシス)の値(図2では2.5×10)が、音声成分のカートシスK音声成分の推定値となる。これにより、音声成分のパワースペクトル領域のカートシスK音声成分を求めることができる。音声成分用カートシス推定部29は、推定した音声信号のカートシスK音声成分を減算係数適応器31に出力する。
【0068】
次に、減算係数算出ユニット30の動作について説明する。減算係数適応器31に減算係数dの初期値をセットし、更新回数i=0をセットする。なお、減算係数dの初期値については、適当な値を選択することができる。
【0069】
そして、減算係数dの初期値を用いて、雑音減算部12が、観測信号X(f,t)に対して雑音減算処理を行う。雑音減算処理については、例えば、手法(a)〜(d)のいずれか一つを用いることができる。従って、式(2)〜式(5)のいずれか一つを採用し、その式に減算係数dの初期値を代入する。これにより、フィルタ係数H(f,t)を算出することができる。そして、フィルタ係数H(f,t)と観測信号X(f,t)とから、出力信号Y(f,t)を算出する。具体的には、Y(f,t)=H(f,t)X(f,t)となる。
【0070】
出力信号用モーメント推定部32が、出力信号Y(f,t)の2次のモーメント及び4次のモーメントを推定する。そして、出力信号用モーメント推定部32は、出力信号の2次及び4次のモーメントを、出力信号用カートシス推定部33に出力する。
【0071】
出力信号用カートシス推定部33は、出力信号Y(f,t)の2次のモーメント及び4次のモーメントに基づいて、出力信号のカートシスK出力信号を推定する。カートシスの推定については、特に限定されるものではない。例えば、出力信号のカートシスK出力信号の推定には、以下の式(9)を用いることができる。これにより、出力信号のパワースペクトル領域のカートシスK出力信号を求めることができる。なお、式(9)において、μ(|Y(f,t)|)が出力信号Y(f,t)の2次のモーメントであり、μ(|Y(f,t)|)が出力信号Y(f,t)の4次のモーメントである。出力信号用カートシス推定部33は、推定した出力信号のカートシスK出力信号を減算係数適応器31に出力する。
【0072】
【数9】

【0073】
減算係数適応器31が、出力信号のカートシスK出力信号と音声成分のカートシスK音声成分とを比較して、減算係数dを更新する。例えば、同時刻における出力信号のカートシスK出力信号と音声成分のカートシスK音声成分との差を求める。そして、カートシスの差に応じて、減算係数dを更新する。具体的には、以下の式(10)を用いて、減算係数dを更新する。
【0074】
【数10】

【0075】
なお、Thresholdは減算係数dが収束したか否かを判定するためのしきい値であり、任意の値を設定することができる。Δdは、dを収束させるループ計算における、減算係数dの増分値であり、任意の値とすることができる。また、Δdをカートシスの差に応じて、変更しても良い。このように、音声成分のカートシスK音声成分が出力信号のカートシスK出力信号よりも大きい場合、減算係数適応器31が、雑音減算が小さいと判定して、減算係数dを増加させる。また、カートシスの差の絶対値がしきい値よりも小さい場合、減算係数適応器31は、減算係数dが収束したと判定する。
【0076】
その後、更新回数iがインクリメントされる。更新回数iがIを越えたか否かが判定される。これにより、減算係数dを求めるためのループ計算が十分な回数を行われたか否かが判定される。更新回数iがIよりも小さい場合、フィルタ係数H(f,t)の算出処理へ戻り、再度上述のループ処理を行い、減算係数dを更新する。
【0077】
一方、更新回数iがI以上の場合、ループ計算を終了する。言い換えると、減算係数dが収束しない場合、更新回数iがIに達するまで、ループ計算が繰り返し行われる。もちろん、減算係数dが収束した場合、更新回数iがIに到達する前に、ループ計算を抜けても良い。
【0078】
IFFT処理部13には、雑音減算部12により算出された出力信号Y(f,t)が入力される。IFFT処理部13は、出力信号Y(f,t)を逆フーリエ変換する。そして、逆フーリエ変換された出力信号に窓掛けして、オーバーラップアッドにより、時間領域のデータを得る。これにより、時間領域の出力信号y(t)が出力側装置3に出力される。なお、逆フーリエ変換の処理は、音声強調装置2が行っても良く、他の装置、例えば、出力側装置3が行っても良い。
【0079】
以上のように、本実施の形態にかかる音声強調装置2の構成よれば、雑音成分用カートシス推定部27が、雑音成分のカートシスを推定する。また、混合信号用カートシス推定部28が、混合信号のカートシスを推定する。そして、音声成分用カートシス推定部29は、予め作成されたカートシステーブルを参照し、推定された雑音成分のカートシス及び混合信号のカートシスに対応する音声成分のカートシスを推定する。このとき、カートシステーブルのカートシスの値は、予め設定された値であり、観測信号から生成されるものではない。つまり、カートシステーブルのカートシスの値には外れ値が含まれていない。そのため、観測信号に外れ値が含まれている場合であっても、音声成分用カートシス推定部29がカートシステーブルを参照して音声成分のカートシスを推定する際には、当該外れ値の影響は受けない。その結果、音声強調装置2は、安定的に音声成分の強調処理をすることができる。
【0080】
続いて、メモリ24に格納されたカートシステーブルの作成方法について、図3を参照して詳細に説明する。図3は、カートシステーブル作成部4のブロック図である。カートシステーブル作成部4は、SNR算出部41と、音声成分用カートシス算出部42と、雑音成分用カートシス算出部43と混合信号用カートシス算出部44と、変換テーブル生成部45と、を備える。
【0081】
このとき、各カートシスの算出部は、観測信号からカートシスを算出するのではない。各カートシス算出部は、パワースペクトル領域における音声成分及び雑音成分のヒストグラムが、一般化ガウス分布に従うと仮定して、音声成分、雑音成分及び混合信号のカートシスを算出する。つまり、カートシステーブルの値は、観測信号から得られる実験値ではなく、一般化ガウス分布仮説に基づく理論値である。
【0082】
ここで、一般化ガウス分布の確率密度関数を式(11)に示す。パワースペクトル領域における音声成分及び雑音成分のヒストグラムが、式(11)の一般化ガウス分布に従うと仮定する。言い換えると、ヒストグラムを一般化ガウス分布の確率密度関数で近似する。このとき、yが音声成分または雑音成分のパワースペクトルであり、p(y)が頻度を示す。また、αは尺度母数、βは形状母数、Γはガンマ関数を示す。尺度母数α及び形状母数βの値に応じて、一般化ガウス分布の確率密度関数の形状が変化する。
【0083】
【数11】

【0084】
また、一般化ガウス分布におけるm次のモーメントは、以下の式(12)によって得られる。
【0085】
【数12】

【0086】
式(12)及びモーメント-キュムラント変換を用いて、カートシステーブルを作成する。具体的には、始めに、時間−周波数領域における音声成分及び雑音成分のm次のモーメントを以下の式(13)を用いて算出する。このとき、尺度母数パラメータα及びαは、音声成分及び雑音成分の尺度母数を示す。形状母数パラメータβ及びβは、音声成分及び雑音成分の形状母数を示す。また、音声成分の複素スペクトルを(s+is)、雑音成分の複素スペクトルを(n+in)、混合信号の複素スペクトルを(x+ix)とする。
【0087】
【数13】

【0088】
そして、モーメント−キュムラント変換を用いて、キュムラントを算出する。さらに、算出されたキュムラントを用いて、カートシスを算出する。なお、モーメント−キュムラント変換及びキュムラントを用いたカートシスの算出は、公知の技術であり、従来の手法を用いることができる。そのため、詳細な導出の説明については省略する。音声成分のカートシスは以下の式(14)によって求めることができる。つまり、図3の音声成分用カートシス算出部42は、式(14)を用いて音声成分のカートシスKspeechを算出する。
【0089】
【数14】

【0090】
音声成分のカートシスの算出と同様に、式(13)及びモーメント−キュムラント変換を用いて、雑音成分のキュムラントを算出する。そして、雑音成分のキュムラントから雑音成分のカートシスを算出する。雑音成分のカートシスは以下の式(15)によって求めることができる。つまり、図3の雑音成分用カートシス算出部43は、式(15)を用いて雑音成分のカートシスKnoiseを算出する。
【0091】
【数15】

【0092】
さらに、音声成分及び雑音成分のカートシス算出の過程で求めた音声成分及び雑音成分のキュムラントから、キュムラントの加法性を利用して、混合信号のキュムラントを求める。そして、混合信号のキュムラントに基づいて、混合信号のカートシスを算出する。混合信号のカートシスは以下の式(16)によって求めることができる。つまり、図3の混合信号用カートシス算出部44は、式(16)を用いて混合信号のカートシスKobservedを算出する。なお、上記のカートシスの算出においては、モーメント-キュムラント変換を用いたが、モーメントから直接カートシスを算出してもよく、必ずしもキュムラントを算出する必要はない。
【0093】
【数16】

【数17】

【数18】

【0094】
一方、SNR算出部41は、尺度母数パラメータα、α及び形状母数パラメータβ、βを用いて、以下の式(17)を用いてSNRを算出する。
【0095】
【数19】

【0096】
続いて、カートシステーブル作成部4のカートシステーブル作成動作について説明する。まず、カートシステーブルの作成者(つまり、音声強調装置2の開発者)は、任意の尺度母数パラメータα、α及び形状母数パラメータβ、βを、SNR算出部41と、音声成分用カートシス算出部42と、雑音成分用カートシス算出部43と、混合信号用カートシス算出部44と、に入力する。
【0097】
SNR算出部41は、式(17)を用いて、入力された尺度母数パラメータα、α及び形状母数パラメータβ、βに対応するSNRを算出する。SNR算出部41は、算出したSNRを変換テーブル生成部45に出力する。
【0098】
音声成分用カートシス算出部42は、式(14)を用いて、入力された音声成分モデルの形状母数パラメータβに対応する音声成分のカートシスKspeechを算出する。音声成分用カートシス算出部42は、算出した音声成分のカートシスKspeechを変換テーブル生成部45に出力する。
【0099】
同様に、雑音成分用カートシス算出部43は、式(15)を用いて、入力された雑音成分モデルの形状母数パラメータβに対応する雑音成分のカートシスKnoiseを算出する。雑音成分用カートシス算出部43は、算出した雑音成分のカートシスKnoiseを変換テーブル生成部45に出力する。
【0100】
同様に、混合信号用カートシス算出部44は、式(16)を用いて、入力された尺度母数パラメータα、α及び形状母数パラメータβ、βに対応する混合信号のカートシスKobservedを算出する。混合信号用カートシス算出部44は、算出した混合信号のカートシスKobservedを変換テーブル生成部45に出力する。
【0101】
変換テーブル生成部45は、音声成分のカートシスKspeech、雑音成分のカートシスKnoise、混合信号のカートシスKobserved、及びSNRに基づいて、カートシステーブルを生成する。つまり、あるSNRにおける音声成分のカートシスKspeech、雑音成分のカートシスKnoise、及び混合信号のカートシスKobservedをカートシステーブルにプロットする。
【0102】
例えば、任意の第1のパラメータの組(αs1n1s1n1)が、カートシステーブル作成部4に入力された場合に、各算出部によりSNR=0dB、Kspeech=2.0×10、Knoise=1.5×10、Kobserved=0.8×10が算出され、変換テーブル生成部45に入力されたとする。
【0103】
この場合、変換テーブル生成部45は、SNRが0dBのカートシステーブルにおいて、Kspeech=2.0×10、Knoise=1.5×10、Kobserved=0.8×10の点をプロットする。
【0104】
次に、任意の第2のパラメータの組(αs2n2s2n2)が、カートシステーブル作成部4に入力された場合に、各算出部によりSNR=5dB、Kspeech=1.0×10、Knoise=1.5×10、Kobserved=1.2×10が算出され、変換テーブル生成部45に入力されたとする。
【0105】
この場合、変換テーブル生成部45は、SNRが5dBのカートシステーブルにおいて、Kspeech=1.0×10、Knoise=1.5×10、Kobserved=1.2×10の点をプロットする。
【0106】
変換テーブル生成部45は、上述の動作を繰り返す。つまり、カートシステーブル作成部4には、任意の値の範囲で尺度母数パラメータα、α及び形状母数パラメータβ、βが入力される。そして、変換テーブル生成部45は、カートシステーブルをプロットで埋めていく。これにより、図3に例示するように、SNRの異なる複数のカートシステーブルが生成される。生成された複数種類のカートシステーブルは、カートシス推定ユニット20のメモリ24に格納される。このように、カートシステーブル作成部4は、様々な形状のヒストグラムを近似できるように、複数種類のカートシステーブルを作成する。SNRの異なる複数種類のカートシステーブルを用意しておくことにより、SNRの異なる多様な音声信号に対して音声強調処理を行うことができる。したがって、音声強調装置2は、音声信号のSNRに拘らず、安定的に音声を強調することができる。
【0107】
なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更及び組み合わせをすることが可能である。例えば、上記の実施の形態においては、パワースペクトル領域における音声成分及び雑音成分のヒストグラムが、一般化ガウス分布に従うと仮定しているが、他の分布に従うと仮定してもよい。また、カートシス推定ユニット20、減算係数算出ユニット30、及びカートシステーブル作成部4の各ブロックの処理に用いられる数式は、上述した式に限られない。各ブロックが出力すべきデータが求められれば、他の数式を用いてもよい。例えば、モーメントからカートシスを求める際には、キュムラントの算出を経由してもよいし、直接カートシスを算出してもよい。
【0108】
さらに、上述した雑音強調処理は、DSP(Digital Signal Processor)、MPU(Micro Processing Unit)、若しくはCPU(Central Processing Unit)又はこれらの組み合わせを含むコンピュータにプログラムを実行させることによって実現してもよい。
【0109】
上述の例において、音声強調処理をコンピュータに行わせるための命令群を含むプログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD−ROM(Read Only Memory)、CD−R、CD−R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(Random Access Memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
【符号の説明】
【0110】
1 マイクロホン
2 音声強調装置
3 出力装置
4 カートシステーブル作成部
11 FFT処理部
12 雑音減算部
13 IFFT処理部
20 カートシス推定ユニット
21 音声判定部
22 SNR推定器
23 変換テーブル選択部
24 メモリ
25 雑音成分用モーメント推定部
26 混合信号用モーメント推定部
27 雑音成分用カートシス推定部
28 混合信号用カートシス推定部
29 音声成分用カートシス推定部
30 減算係数算出ユニット
31 減算係数適応器
32 出力信号用モーメント推定部
33 出力信号用カートシス推定部
41 SNR算出部
42 音声成分用カートシス算出部
43 雑音成分用カートシス算出部
44 混合信号用カートシス算出部
45 変換テーブル生成部

【特許請求の範囲】
【請求項1】
マイクロホンユニットによって取得された観測信号に対して、音声を強調する音声強調装置であって、
音声成分と雑音成分とを含む混合信号のモーメントに基づいて、混合信号のカートシスを推定する混合信号カートシス推定部と、
雑音成分のモーメントに基づいて、雑音成分のカートシスを推定する雑音成分カートシス推定部と、
前記混合信号のカートシス及び前記雑音成分のカートシスに対して音声成分のカートシスの値が予め対応付けられたカートシステーブルを格納する記憶部と、
前記カートシステーブルを参照し、前記音声成分のカートシスを推定する音声成分カートシス推定部と、
前記音声成分カートシス推定部により推定された前記音声成分のカートシスに基づいて、減算係数を算出する減算係数適応部と、
前記減算係数適応部により算出された前記減算係数を用いて、前記観測信号に対して雑音減算する雑音減算部と、
を備える音声強調装置。
【請求項2】
前記カートシステーブルにおける前記混合信号のカートシス、前記雑音成分のカートシス、及び前記音声成分のカートシスの値は、前記雑音信号及び前記音声信号のパワースペクトルのヒストグラムが、所定の分布に従うという仮定に基づいて算出される請求項1に記載の音声強調装置。
【請求項3】
前記所定の分布は、一般化ガウス分布である請求項2に記載の音声強調装置。
【請求項4】
前記観測信号のSNRを推定するSNR推定部をさらに備え、
前記カートシステーブルは、前記SNRに対応して複数種類あり、
前記音声成分カートシス推定部は、複数種類の前記カートシステーブルのうち、前記SNR推定部により推定された前記SNRに基づいて、参照するカートシステーブルを選択する請求項1〜3のいずれか一項に記載の音声強調装置。
【請求項5】
マイクロホンユニットによって取得された観測信号に対して、音声を強調する音声強調方法であって、
音声成分と雑音成分とを含む混合信号のモーメントに基づいて、混合信号のカートシスを推定するステップと、
雑音成分のモーメントに基づいて、雑音成分のカートシスを推定するステップと、
前記混合信号のカートシス及び前記雑音成分のカートシスに対して音声成分のカートシスの値が予め対応付けられたカートシステーブルを参照し、前記音声成分のカートシスを推定するステップと、
推定した前記音声成分のカートシスに基づいて、減算係数を算出するステップと、
算出した前記減算係数を用いて、前記観測信号に対して雑音減算するステップと、
を備える音声強調方法。
【請求項6】
前記カートシステーブルにおける前記混合信号のカートシス、前記雑音成分のカートシス、及び前記音声成分のカートシスの値は、前記雑音信号及び前記音声信号のパワースペクトルのヒストグラムが、所定の分布に従うという仮定に基づいて算出される請求項5に記載の音声強調方法。
【請求項7】
前記所定の分布は、一般化ガウス分布である請求項6に記載の音声強調方法。
【請求項8】
前記観測信号のSNRを推定するステップと、
複数種類の前記カートシステーブルのうち、推定した前記SNRに基づいて、参照するカートシステーブルを選択するステップと、
をさらに備える請求項5〜7のいずれか一項に記載の音声強調方法。
【請求項9】
マイクロホンユニットによって取得された観測信号に対して、音声を強調する音声強調プログラムであって、
コンピュータに対して、
音声成分と雑音成分とを含む混合信号のモーメントに基づいて、混合信号のカートシスを推定させるステップと、
雑音成分のモーメントに基づいて、雑音成分のカートシスを推定させるステップと、
前記混合信号のカートシス及び前記雑音成分のカートシスに対して音声成分のカートシスの値が予め対応付けられたカートシステーブルを参照させ、前記音声成分のカートシスを推定させるステップと、
推定した前記音声成分のカートシスに基づいて、減算係数を算出させるステップと、
算出された前記減算係数を用いて、前記観測信号に対して雑音減算させるステップと、
を備える音声強調プログラム。
【請求項10】
前記カートシステーブルにおける前記混合信号のカートシス、前記雑音成分のカートシス、及び前記音声成分のカートシスの値は、前記雑音信号及び前記音声信号のパワースペクトルのヒストグラムが、所定の分布に従うという仮定に基づいて算出される請求項9に記載の音声強調プログラム。
【請求項11】
前記所定の分布は、一般化ガウス分布である請求項10に記載の音声強調プログラム。
【請求項12】
コンピュータに対して、
前記観測信号のSNRを推定させるステップと、
複数種類の前記カートシステーブルのうち、推定した前記SNRに基づいて、参照させるカートシステーブルを選択させるステップと、
をさらに備える請求項9〜11のいずれか一項に記載の音声強調プログラム。

【図3】
image rotate

【図5】
image rotate

【図1】
image rotate

【図2】
image rotate

【図4】
image rotate


【公開番号】特開2013−105041(P2013−105041A)
【公開日】平成25年5月30日(2013.5.30)
【国際特許分類】
【出願番号】特願2011−248999(P2011−248999)
【出願日】平成23年11月14日(2011.11.14)
【出願人】(504143441)国立大学法人 奈良先端科学技術大学院大学 (226)
【出願人】(000003207)トヨタ自動車株式会社 (59,920)
【Fターム(参考)】