音声強調装置、音声強調方法、及び音声強調プログラム

【課題】安定的に音声を強調することができる音声強調装置、音声強調方法、及び音声強調プログラムを提供すること。
【解決手段】本発明にかかる音声強調装置２は、雑音成分用カートシス推定部２７と、混合信号用カートシス推定部２８と、音声成分用カートシス推定部２９と、カートシステーブルを格納するメモリ２４と、減算係数適応器３１と、雑音減算部１２と、を備える。音声成分用カートシス推定部２９は、雑音成分用カートシス推定部２７により推定された雑音成分のカートシス及び混合信号用カートシス推定部２８により推定された混合信号のカートシス推定部に対応する音声成分のカートシスを、カートシステーブルを参照して推定する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、雑音成分と音声成分とを含む観測信号の音声を強調する音声強調装置、音声強調方法、及び音声強調プログラムに関する。
【背景技術】
【０００２】
近年、音声を利用するアプリケーションの増加とともに、雑音の存在する中から目的とする音声のみを抽出したいという要望が高まってきている。例えば、図４に示すような環境において、発話者が発話したとする。発話者による発話がマイクロホン１により収音される。このとき、周囲の雑音もマイクロホン１で収音される。従って、マイクロホン１が取得した観測信号Ｘ（ｆ,ｔ）は、目的となる音声信号Ｓ（ｆ,ｔ）と、雑音信号Ｎ（ｆ,ｔ）とを含んでいる。すなわち、Ｘ（ｆ,ｔ）＝Ｓ（ｆ,ｔ）＋Ｎ（ｆ,ｔ）となる。
【０００３】
そして、取得した観測信号Ｘ（ｆ,ｔ）から雑音推定を行う。観測信号Ｘ（ｆ,ｔ）から、推定雑音信号（推定雑音スペクトル）を推定する。なお、図４において、推定値を示すハット付きのＮ（ｆ,ｔ）が推定雑音信号である。推定雑音信号を用いて雑音減算を行うことで、出力信号Ｙ（ｆ,ｔ）を得ることができる。
【０００４】
具体的な雑音推定方法としては、以下の２つが挙げられる。１つ目は、ユーザ音声の無音区間を推定する方法である。この方法では、雑音が定常であると仮定する。そして、カートシス（尖度）やパワー閾値などにより、区間を判定して、推定雑音スペクトルを算出する。
【０００５】
２つ目の方法は、マイクロホンアレイを用いる方法である。この方法では、ユーザからの放射音は、マイクロホンに最も近い点音源と仮定する。そして、ユーザ方位に死角を形成し、雑音推定スペクトルを算出する。
【０００６】
このように推定された雑音推定スペクトルを用いて、雑音減算する。非線形雑音抑圧処理の多くは、時間−周波数領域に変換した観測信号Ｘ（ｆ,ｔ）に対してフィルタ係数Ｈ（ｆ,ｔ）を適用する。具体的には、以下の式（１）により、出力信号Ｙ（ｆ,ｔ）を求めることができる。
【０００７】
【数１】

【０００８】
フィルタ係数Ｈ（ｆ,ｔ）の設計は手法により異なるが、フィルタ係数Ｈ（ｆ,ｔ）は、観測信号Ｘ（ｆ,ｔ）、雑音推定信号、減算係数ｄにより生成される。具体的な設計手法については、例えば、（ａ）スペクトルサブトラクション（ＳｐｅｃｔｒａｌＳｕｂｔｒａｃｔｉｏｎ：ＳＳ）法、（ｂ）一般化スペクトルサブトラクション（ＧｅｎｅｒａｌｉｚｅｄＳｐｅｃｔｒａｌＳｕｂｔｒａｃｔｉｏｎ：ＧＳＳ）法、（ｃ）ウィーナーフィルタ（ＷｉｅｎｅｒＦｉｌｔｅｒ：ＷＦ）法、（ｄ）パラメトリックウィーナーフィルタ（ＰａｒａｍｅｔｒｉｃＷｉｅｎｅｒＦｉｌｔｅｒ：ＰＷＦ）法がある。それぞれフィルタ係数Ｈ（ｆ,ｔ）は式（２）〜式（５）で示される。
【０００９】
（ａ）
【数２】

【００１０】
（ｂ）
【数３】

【００１１】
（ｃ）
【数４】

【００１２】
（ｄ）
【数５】

【００１３】
上記に手法（ａ）〜（ｄ）において、減算係数ｄの設定により、雑音抑制性能・音質性能が変動する。例えば、図５に減算係数と各性能の関係のシミュレーション結果を示す。図５に示すように、減算係数ｄを大きく設定した場合、抑圧性能は高くなるが、音質性能は低くなる。一方、減算係数ｄを小さく設定した場合、抑圧性能は低くなるが、音質性能は高くなる。
【００１４】
実環境では、雑音と音声の混入度合いは周波数ごとに異なる。このため、減算係数ｄの最適値が変動する。また、実環境では、雑音と音声の混入度合いが不明であるため、図５のようなグラフすら描くことができない。よって、最適な減算係数ｄを求めることが困難である。
【先行技術文献】
【特許文献】
【００１５】
【特許文献１】特開２０００−３３０５９７号公報
【特許文献２】特開２００７−６５２５号公報
【非特許文献】
【００１６】
【非特許文献１】ＥＵＳＩＰＣＯ２０１０ｐｐ．９９４−９９８
【非特許文献２】脇坂龍, 井上貴之, 猿渡洋, 鹿野清宏, 高谷智哉, ``キュムラントの加法性を利用した雑音中からの音声カートシス逆推定, ''日本音響学会講演論文集, ２−９−６，ｐｐ．６８３−６８６，Ｍａｒｃｈ２０１１．
【発明の開示】
【発明が解決しようとする課題】
【００１７】
特許文献１、特許文献２、及び非特許文献１に、雑音（ノイズ）を抑圧して、音声を強調する別の方法が開示されている。特許文献１では、入力音声信号のＳ／Ｎ比を推定し、雑音の抑圧量を制御する減算係数が複数個格納されている減算係数データテーブルが設けられている。そして、この減算係数データテーブルからＳ／Ｎ比に基づいて減算係数を決定している。
【００１８】
特許文献２では、各周波数ビンにおいて、入力信号の信号対雑音比（ＳＮＲ）を算出している。そして、ＳＮＲが低い時（雑音が多く、音声が少ないと判定された場合）、減算係数を補正して、減算量を増やしている。これにより、入力信号の抑圧をより強くすることができる。一方、ＳＮＲが高い時（雑音が少なく、音声が大勢と判定された場合）、減算係数を補正して、減算量を減らしている。これにより、入力信号の抑圧をより小さくすることができる。
【００１９】
しかしながら、音声対話システムの場合、補正係数や減算係数データテーブルを算出するため、運営する環境にシステムを設置する必要がある。その環境において、予め騒音、及び音声データを測定する。各減算係数値での音声認識率を算出し、減算係数データテーブルの減算係数値や補正係数を決定しなければならない。実際の製品では、このような事前の処理は困難である。また、マイクロホンや、ＡＤコンバータ等の器材が変更された場合、同様に減算係数データテーブルの減算係数値等を決定しなければならない。別環境で予め設定した減算係数を用いる場合、その値が最適値とならない。従って、雑音成分の過大減算、又は過小減算が発生する。音声成分の劣化や雑音成分の残留（ミュージカルノイズの発生）が生じる。これにより、音声認識率の低下、や音質劣化を引き起こしてしまう。
【００２０】
非特許文献１では、処理前後の雑音抑圧量（ＮｏｉｓｅＲｅｄｕｃｔｉｏｎＲａｔｅ：ＮＲＲ）の自動推定と、処理前後における雑音区間の分布形状の変動を「カートシス比」として算出している。そして、このカートシス比の値を設定値以下に収めるように、減算係数を適応的に選択している。こうすることで、非音声区間の過大減算、又は過小減算を制御している。
【００２１】
しかしながら、非特許文献１では、非音声区間の過大減算、又は過小減算を制御している。換言すると、音声区間の過大減算、又は過小減算を評価していない。よって、音声認識の目的である音声区間の過大減算、又は過小減算が生じてしまうおそれがある。このように特許文献１、特許文献２、及び非特許文献１では、効果的に音声を強調することが困難である。
【００２２】
そこで、本願発明者は、観測信号のキュムラント及び雑音信号のキュムラントを推定し、キュムラントの加法性を利用して、観測信号及び雑音信号のキュムラントから音声信号のキュムラントを推定し、音声信号のカートシスを算出する手法を提案した（非特許文献２）。
【００２３】
しかし、非特許文献２の手法において、キュムラントの推定には観測データが用いられるが、観測データには外れ値（ノイズ）が含まれてしまう。一方、音声信号のキュムラントからカートシスを算出する際には、８次の統計量を計算する必要がある。このような８次の統計量の計算は、観測データの外れ値に敏感になってしまう。つまり、外れ値の影響が大きく、音声成分のキュムラント推定がうまくできない。その結果、安定的に音声信号のカートシスを推定することができないという問題があった。
【００２４】
本発明は、上記の問題点に鑑みてなされたものであり、安定的に音声を強調することができる音声強調装置、音声強調方法、及び音声強調プログラムを提供することを目的とする。
【課題を解決するための手段】
【００２５】
本発明の一態様にかかる音声強調装置は、マイクロホンユニットによって取得された観測信号に対して、音声を強調する音声強調装置であって、音声成分と雑音成分とを含む混合信号のモーメントに基づいて、混合信号のカートシスを推定する混合信号カートシス推定部と、雑音成分のモーメントに基づいて、雑音成分のカートシスを推定する雑音成分カートシス推定部と、前記混合信号のカートシス及び前記雑音成分のカートシスに対して音声成分のカートシスの値が予め対応付けられたカートシステーブルを格納する記憶部と、前記カートシステーブルを参照し、前記音声成分のカートシスを推定する音声成分カートシス推定部と、前記音声成分カートシス推定部により推定された前記音声成分のカートシスに基づいて、減算係数を算出する減算係数適応部と、前記減算係数適応部により算出された前記減算係数を用いて、前記観測信号に対して雑音減算する雑音減算部と、を備えるものである。
【００２６】
また、前記カートシステーブルにおける前記混合信号のカートシス、前記雑音成分のカートシス、及び前記音声成分のカートシスの値は、前記雑音信号及び前記音声信号のパワースペクトルのヒストグラムが、所定の分布に従うという仮定に基づいて算出されてもよい。
【００２７】
また、前記所定の分布は、一般化ガウス分布であってもよい。
【００２８】
また、前記観測信号のＳＮＲを推定するＳＮＲ推定部をさらに備え、前記カートシステーブルは、前記ＳＮＲに対応して複数種類あり、前記音声成分カートシス推定部は、複数種類の前記カートシステーブルのうち、前記ＳＮＲ推定部により推定された前記ＳＮＲに基づいて、参照するカートシステーブルを選択してもよい。
【００２９】
本発明の一態様にかかる音声強調方法は、マイクロホンユニットによって取得された観測信号に対して、音声を強調する音声強調方法であって、音声成分と雑音成分とを含む混合信号のモーメントに基づいて、混合信号のカートシスを推定するステップと、雑音成分のモーメントに基づいて、雑音成分のカートシスを推定するステップと、前記混合信号のカートシス及び前記雑音成分のカートシスに対して音声成分のカートシスの値が予め対応付けられたカートシステーブルを参照し、前記音声成分のカートシスを推定するステップと、推定した前記音声成分のカートシスに基づいて、減算係数を算出するステップと、算出した前記減算係数を用いて、前記観測信号に対して雑音減算するステップと、を備えるものである。
【００３０】
また、前記カートシステーブルにおける前記混合信号のカートシス、前記雑音成分のカートシス、及び前記音声成分のカートシスの値は、前記雑音信号及び前記音声信号のパワースペクトルのヒストグラムが、所定の分布に従うという仮定に基づいて算出されてもよい。
【００３１】
また、前記所定の分布は、一般化ガウス分布であってもよい。
【００３２】
また、前記観測信号のＳＮＲを推定するステップと、複数種類の前記カートシステーブルのうち、推定した前記ＳＮＲに基づいて、参照するカートシステーブルを選択するステップと、をさらに備えてもよい。
【００３３】
本発明の一態様にかかる音声強調プログラムは、マイクロホンユニットによって取得された観測信号に対して、音声を強調する音声強調プログラムであって、コンピュータに対して、音声成分と雑音成分とを含む混合信号のモーメントに基づいて、混合信号のカートシスを推定させるステップと、雑音成分のモーメントに基づいて、雑音成分のカートシスを推定させるステップと、前記混合信号のカートシス及び前記雑音成分のカートシスに対して音声成分のカートシスの値が予め対応付けられたカートシステーブルを参照させ、前記音声成分のカートシスを推定させるステップと、推定した前記音声成分のカートシスに基づいて、減算係数を算出させるステップと、算出された前記減算係数を用いて、前記観測信号に対して雑音減算させるステップと、を備えるものである。
【００３４】
また、前記カートシステーブルにおける前記混合信号のカートシス、前記雑音成分のカートシス、及び前記音声成分のカートシスの値は、前記雑音信号及び前記音声信号のパワースペクトルのヒストグラムが、所定の分布に従うという仮定に基づいて算出されてもよい。
【００３５】
また、前記所定の分布は、一般化ガウス分布であってもよい。
【００３６】
また、コンピュータに対して、前記観測信号のＳＮＲを推定させるステップと、複数種類の前記カートシステーブルのうち、推定した前記ＳＮＲに基づいて、参照させるカートシステーブルを選択させるステップと、をさらに備えてもよい。
【発明の効果】
【００３７】
本発明により、安定的に音声を強調することができる音声強調装置、音声強調方法、及び音声強調プログラムを提供することができる。
【図面の簡単な説明】
【００３８】
【図１】実施の形態にかかる音声強調装置のシステム構成を示すブロック図である。
【図２】実施の形態にかかるカートシステーブルの一例を示す図である。
【図３】実施の形態にかかるカートシステーブル作成部のブロック図である。
【図４】一般的な雑音減算処理を示す図である。
【図５】雑音減算処理における減算係数と性能の関係を示すシミュレーション結果である。
【発明を実施するための形態】
【００３９】
以下、本発明に係る音声強調装置の実施形態を、図面に基づいて詳細に説明する。但し、本発明が以下の実施形態に限定される訳ではない。また、説明を明確にするため、以下の記載及び図面は、適宜、簡略化されている。
【００４０】
まず、本発明の実施の形態１にかかる音声強調装置について、図１を用いて説明する。図１は、音声強調装置のシステム構成を示すブロック図である。マイクロホン１は、周囲で発生した音を収音して、その音に基づく観測信号ｘ（ｔ）を出力する。観測信号ｘ（ｔ）には、音声成分と、雑音成分とが含まれている。音声成分は、音声認識の目的となる発話者の音声の信号であり、雑音成分は、発話者の音声以外の信号である。音声強調装置２には、マイクロホン１が接続されている。従って、マイクロホン１が収音した観測信号ｘ（ｔ）が音声強調装置２に入力される。
【００４１】
音声強調装置２によって、観測信号の音声を強調する。そして、音声が強調された出力信号を、出力側装置３に出力する。出力側装置３は、音声認識システムや、通信機器などであり、出力信号に対して、所定の処理を行う。例えば、音声認識システムの場合、出力信号に対して音声認識処理を行う。
【００４２】
なお、音声強調装置２は、ＣＰＵ（Central Processing Unit）、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、通信用のインタフェイスなどを有する演算処理装置であり、より具体的には、パーソナルコンピュータ（ＰＣ）等である。また、音声強調装置２は、着脱可能なＨＤＤ、光ディスク、光磁気ディスク等を有し、各種プログラムや制御パラメータなどを記憶し、そのプログラムやデータを必要に応じてメモリ（不図示）等に供給する。もちろん、音声強調装置２は、物理的に一つの構成に限られるものではない。音声強調装置２は、マイクロホン１によって、収音された音のデータに対して、音声処理を行う。
【００４３】
音声強調装置２は、ＦＦＴ処理部１１と、雑音減算部１２と、ＩＦＦＴ処理部１３と、カートシス推定ユニット２０と、減算係数算出ユニット３０とを、備えている。カートシス推定ユニット２０は、音声判定部２１と、ＳＮＲ推定器２２と、変換テーブル選択器２３と、メモリ２４と、雑音成分用モーメント推定部２５と、混合信号用モーメント推定部２６と、雑音成分用カートシス推定部２７と、混合信号用カートシス推定部２８と、音声成分用カートシス推定部２９と、を備えている。減算係数算出ユニット３０は、減算係数適応器３１と、出力信号用モーメント推定部３２と、出力信号用カートシス推定部３３と、を備えている。
【００４４】
マイクロホン１からの観測信号は、ＦＦＴ処理部１１に入力される。ＦＦＴ処理部１１では、音声強調処理を行う前処理が行われ、時間−周波数領域の信号Ｘ（ｆ,ｔ）が生成される。具体的には、所定時間の観測信号をバッファに記憶して、その観測信号を、ｋ個（ｋは２以上の整数）のフレームに分割する。ここでは、時間領域において、隣接フレームが半分重なるように、ハーフシフトによってフレーム分割している。さらに、窓関数を用いて、フレーム分割しても良い。さらに、フレーム分割された観測信号を離散フーリエ変換する。これにより、時間−周波数領域の観測信号Ｘ（ｆ,ｔ）を得ることができる。なお、この前処理は、音声強調装置２が行っても良く、他の装置、例えば、マイクロホン１を有するマイクロホンユニットが行っても良い。観測信号Ｘ（ｆ,ｔ）は、雑音減算部１２及び音声判定部２１に入力される。
【００４５】
音声判定部２１は、観測信号Ｘ（ｆ,ｔ）に音声成分が含まれているか否かを判定する。音声判定部２１は、音声成分が含まれていると判定した場合、音声成分及び雑音成分が含まれている観測信号（以下、混合信号Ｘ_Ｓ（ｆ,ｔ）と称す。）を、混合信号用モーメント推定部２６に出力する。一方、音声判定部２１は、音声成分が含まれていないと判定した場合、雑音成分のみが含まれている観測信号（以下、雑音成分Ｘ_Ｎ（ｆ,ｔ）と称す。）を、雑音成分用モーメント推定部２５に出力する。
【００４６】
雑音成分用モーメント推定部２５は、雑音成分Ｘ_Ｎ（ｆ,ｔ）のモーメントを推定する。雑音成分用カートシス推定部２７は、雑音成分用モーメント推定部２５により推定された雑音成分のモーメントに基づいて、雑音成分のカートシスを推定する。同様に、混合信号用モーメント推定部２６は、混合信号Ｘ_Ｓ（ｆ,ｔ）のモーメントを推定する。混合信号用カートシス推定部２８は、混合信号用モーメント推定部２６により推定された混合信号のモーメントに基づいて、混合信号のカートシスを推定する。
【００４７】
また、音声判定部２１は、入力された観測信号Ｘ（ｆ,ｔ）が混合信号であるか雑音信号であるかに拘らず、入力された観測信号Ｘ（ｆ,ｔ）をＳＮＲ推定器２２に出力する。
【００４８】
ＳＮＲ推定器２２は、観測信号Ｘ（ｆ,ｔ）のＳＮＲ（Signal-Noise Ratio）を推定する。変換テーブル選択器２３は、メモリ２４に格納された複数種類のカートシステーブルのうち、推定されたＳＮＲに基づいて、一のカートシステーブルを選択する。具体的には、メモリ２４には、ＳＮＲ毎に種類の異なるカートシステーブルが複数格納されている。そして、変換テーブル選択器２３は、複数のカートシステーブルから、推定されたＳＮＲに対応するカートシステーブルを選択する。
【００４９】
ここで、カートシステーブルとは、混合信号のカートシス及び雑音成分のカートシスに対して音声成分のカートシスの値が予め対応付けられたテーブルである。つまり、カートシステーブルにおいて、混合信号のカートシスと雑音成分のカートシスとを特定すれば、音声成分のカートシスが決定される。なお、カートシステーブルの生成方法の詳細については後述する。また、カートシステーブルが音声強調装置２外部のメモリ（図示省略）に格納されていてもよい。
【００５０】
音声成分用カートシス推定部２９は、変換テーブル選択器により選択されたカートシステーブルを参照して、音声成分のカートシスを推定する。具体的には、音声成分用カートシス推定部２９は、カートシステーブルにおいて、入力された雑音成分のカートシス及び混合信号のカートシスに対応する音声成分のカートシスを特定し、音声成分のカートシスの推定値として減算係数適応器３１に出力する。
【００５１】
減算係数適応器３１には、音声成分のカートシスが入力される。減算係数適応器３１は、音声成分のカートシスに基づいて、減算係数ｄを適応する。そして、減算係数適応器３１で求められた減算係数ｄは、雑音減算部１２に入力される。
【００５２】
雑音減算部１２は、減算係数ｄを用いて、雑音減算処理を実行する。そして、雑音減算部１２からは、観測信号Ｘ（ｆ,ｔ）から雑音が減算された出力信号Ｙ（ｆ,ｔ）が出力される。さらに、出力信号Ｙ（ｆ,ｔ）は、出力信号用モーメント推定部３２に入力される。出力信号用モーメント推定部３２は、出力信号Ｙ（ｆ,ｔ）のモーメントを推定し、出力信号用カートシス推定部３３に出力する。出力信号用カートシス推定部３３は、出力信号Ｙ（ｆ,ｔ）のモーメントに基づいて、出力信号のカートシスを推定する。出力信号のカートシスは、減算係数適応器３１に入力される。
【００５３】
減算係数適応器３１は、出力信号のカートシスと、音声成分のカートシスとに基づいて、減算係数ｄを算出する。例えば、出力信号のカートシスと、音声成分のカートシスとの差が収束するまで、繰り返し演算を行う。すなわち、出力信号のカートシスと、音声成分のカートシスとの差が収束するような、減算係数ｄを算出する。そして、この減算係数ｄに基づいて、雑音減算部１２が雑音減算処理を行う。雑音減算については、上記の手法（ａ）〜（ｄ）、すなわち、式（２）〜式（５）を用いることができる。減算係数ｄは、適応係数であり、入力された観測信号Ｘ（ｆ,ｔ）に応じて決定される。すなわち、雑音減算のためのフィルタが、入力された観測信号に基づいて自己適応されている。
【００５４】
続いて、本実施の形態における音声強調装置２の音声強調方法について詳細に説明する。まず、マイクロホン１で取得した時間領域の観測信号ｘ（ｔ）がＦＦＴ処理部１１に入力される。ＦＦＴ処理部１１は、時間領域の観測信号ｘ（ｔ）フレーム分割した後、離散フーリエ変換を行う。これにより、時間−周波数領域の観測信号Ｘ（ｆ,ｔ）を得ることができる。なお、フーリエ変換後の観測信号Ｘ（ｆ,ｔ）のデータ長は特に限定されるものではなく、例えば、数秒間の観測信号ｘ（ｔ）をフーリエ変換すればよい。ＦＦＴ処理部１１は、観測信号Ｘ（ｆ,ｔ）を雑音減算部１２及び音声判定部２１に出力する。
【００５５】
次に、カートシス推定ユニット２０の動作について説明する。音声判定部２１は、入力された観測信号Ｘ（ｆ,ｔ）に音声成分が含まれるか否かを判定する。なお、音声成分が含まれているか否かの判定処理は、観測信号Ｘ（ｆ,ｔ）のパワーが所定の閾値より大きいか否か等、公知の判定処理を用いることができる。
【００５６】
雑音成分用モーメント推定部２５は、音声判定部２１により音声成分が含まれていないと判定された観測信号、つまり雑音成分Ｘ_Ｎ（ｆ,ｔ）のモーメントを推定する。具体的には、雑音成分用モーメント推定部２５は、雑音成分Ｘ_Ｎ（ｆ,ｔ）の２次のモーメント及び４次のモーメントを推定し、雑音成分用カートシス推定部２７に出力する。
【００５７】
雑音成分用カートシス推定部２７は、雑音成分Ｘ_Ｎ（ｆ,ｔ）の２次のモーメント及び４次のモーメントに基づいて、雑音成分のカートシスＫ_雑音成分を推定する。カートシスの推定については、特に限定されるものではない。例えば、雑音成分のカートシスＫ_雑音成分の推定には、以下の式（６）を用いることができる。これにより、雑音成分のパワースペクトル領域のカートシスＫ_雑音成分を求めることができる。なお、式（６）において、μ_２（｜Ｘ_Ｎ（ｆ,ｔ）｜^２）が雑音成分Ｘ_Ｎ（ｆ,ｔ）の２次のモーメントであり、μ_４（｜Ｘ_Ｎ（ｆ,ｔ）｜^２）が雑音成分Ｘ_Ｎ（ｆ,ｔ）の４次のモーメントである。
【００５８】
【数６】

【００５９】
同様に、混合信号用モーメント推定部２６は、音声判定部２１により音声成分が含まれていると判定された観測信号、つまり混合信号Ｘ_Ｓ（ｆ,ｔ）のモーメントを推定する。具体的には、混合信号用モーメント推定部２６は、混合信号Ｘ_Ｓ（ｆ,ｔ）の２次のモーメント及び４次のモーメントを推定し、混合信号用カートシス推定部２８に出力する。
【００６０】
混合信号用カートシス推定部２８は、混合信号Ｘ_Ｓ（ｆ,ｔ）の２次のモーメント及び４次のモーメントに基づいて、混合信号のカートシスＫ_混合信号を推定する。カートシスの推定については、特に限定されるものではない。例えば、混合信号のカートシスＫ_混合信号の推定には、以下の式（７）を用いることができる。これにより、混合信号のパワースペクトル領域のカートシスＫ_混合信号を求めることができる。なお、式（７）において、μ_２（｜Ｘ_Ｓ（ｆ,ｔ）｜^２）が混合信号Ｘ_Ｓ（ｆ,ｔ）の２次のモーメントであり、μ_４（｜Ｘ_Ｓ（ｆ,ｔ）｜^２）が混合信号Ｘ_Ｓ（ｆ,ｔ）の４次のモーメントである。
【００６１】
【数７】

【００６２】
一方、ＳＮＲ推定器２２は、音声判定部２１から入力された雑音成分Ｘ_Ｎ（ｆ,ｔ）及び混合信号Ｘ_Ｓ（ｆ,ｔ）に基づいて、観測信号Ｘ（ｆ,ｔ）のＳＮＲを推定する。ＳＮＲは以下の式（８）によって求めることができる。なお、＜＞_ｔはフレームにおける時間平均を示す。
【００６３】
【数８】

【００６４】
ＳＮＲ推定器２２は、推定したＳＮＲを変換テーブル選択器２３に出力する。変換テーブル選択器２３は、メモリ２４に格納された複数種類のカートシステーブルから、入力されたＳＮＲに対応するカートシステーブルを選択する。
【００６５】
音声成分用カートシス推定部２９は、変換テーブル選択器２３により選択されたカートシステーブルを参照して、雑音成分のカートシスＫ_雑音成分及び混合信号のカートシスＫ_混合信号に対応付けられた音声成分のカートシスＫ_音声成分を特定する。図２にカートシステーブルの一例を示す。図２のカートシステーブルを用いて、カートシスＫ_音声成分の推定方法を具体的に説明する。
【００６６】
このとき、カートシステーブルの縦軸は、雑音成分のカートシスの値を示し、横軸は、音声成分のカートシスの値を示す。また、テーブルの濃度は、混合信号のカートシスの値を示す。つまり、カートシステーブルは、雑音成分のカートシスと、音声成分のカートシスと、混合信号のカートシスと、が対応付けられた３次元のグラフである。なお、カートシステーブルの値は、後述のカートシステーブルの生成方法によって算出される理論値である。つまり、マイクロホン１が取得する観測データを使用せずに算出された値である。そのため、カートシステーブルにおいて、外れ値（ノイズ）は含まれていない。
【００６７】
例えば、雑音成分用カートシス推定部２７から出力された雑音成分のカートシスＫ_雑音成分が２．０×１０^３であるとする。一方、混合信号用カートシス推定部２８から出力された混合信号のカートシスＫ_混合信号が１．２×１０^３であるとする。音声成分用カートシス推定部２９は、縦軸（雑音成分のカートシス）が２．０×１０^３の値において、テーブルの濃度（混合信号のカートシス）が１．２×１０^３の対応する濃度である点を特定する（図２における破線で囲った部分）。当該点の横軸（音声成分のカートシス）の値（図２では２．５×１０^３）が、音声成分のカートシスＫ_音声成分の推定値となる。これにより、音声成分のパワースペクトル領域のカートシスＫ_音声成分を求めることができる。音声成分用カートシス推定部２９は、推定した音声信号のカートシスＫ_音声成分を減算係数適応器３１に出力する。
【００６８】
次に、減算係数算出ユニット３０の動作について説明する。減算係数適応器３１に減算係数ｄの初期値をセットし、更新回数ｉ＝０をセットする。なお、減算係数ｄの初期値については、適当な値を選択することができる。
【００６９】
そして、減算係数ｄの初期値を用いて、雑音減算部１２が、観測信号Ｘ（ｆ,ｔ）に対して雑音減算処理を行う。雑音減算処理については、例えば、手法（ａ）〜（ｄ）のいずれか一つを用いることができる。従って、式（２）〜式（５）のいずれか一つを採用し、その式に減算係数ｄの初期値を代入する。これにより、フィルタ係数Ｈ（ｆ,ｔ）を算出することができる。そして、フィルタ係数Ｈ（ｆ,ｔ）と観測信号Ｘ（ｆ,ｔ）とから、出力信号Ｙ（ｆ,ｔ）を算出する。具体的には、Ｙ（ｆ,ｔ）＝Ｈ（ｆ,ｔ）Ｘ（ｆ,ｔ）となる。
【００７０】
出力信号用モーメント推定部３２が、出力信号Ｙ（ｆ,ｔ）の２次のモーメント及び４次のモーメントを推定する。そして、出力信号用モーメント推定部３２は、出力信号の２次及び４次のモーメントを、出力信号用カートシス推定部３３に出力する。
【００７１】
出力信号用カートシス推定部３３は、出力信号Ｙ（ｆ,ｔ）の２次のモーメント及び４次のモーメントに基づいて、出力信号のカートシスＫ_出力信号を推定する。カートシスの推定については、特に限定されるものではない。例えば、出力信号のカートシスＫ_出力信号の推定には、以下の式（９）を用いることができる。これにより、出力信号のパワースペクトル領域のカートシスＫ_出力信号を求めることができる。なお、式（９）において、μ_２（｜Ｙ（ｆ,ｔ）｜^２）が出力信号Ｙ（ｆ,ｔ）の２次のモーメントであり、μ_４（｜Ｙ（ｆ,ｔ）｜^２）が出力信号Ｙ（ｆ,ｔ）の４次のモーメントである。出力信号用カートシス推定部３３は、推定した出力信号のカートシスＫ_出力信号を減算係数適応器３１に出力する。
【００７２】
【数９】

【００７３】
減算係数適応器３１が、出力信号のカートシスＫ_出力信号と音声成分のカートシスＫ_音声成分とを比較して、減算係数ｄを更新する。例えば、同時刻における出力信号のカートシスＫ_出力信号と音声成分のカートシスＫ_音声成分との差を求める。そして、カートシスの差に応じて、減算係数ｄを更新する。具体的には、以下の式（１０）を用いて、減算係数ｄを更新する。
【００７４】
【数１０】

【００７５】
なお、Ｔｈｒｅｓｈｏｌｄは減算係数ｄが収束したか否かを判定するためのしきい値であり、任意の値を設定することができる。Δｄは、ｄを収束させるループ計算における、減算係数ｄの増分値であり、任意の値とすることができる。また、Δｄをカートシスの差に応じて、変更しても良い。このように、音声成分のカートシスＫ_音声成分が出力信号のカートシスＫ_出力信号よりも大きい場合、減算係数適応器３１が、雑音減算が小さいと判定して、減算係数ｄを増加させる。また、カートシスの差の絶対値がしきい値よりも小さい場合、減算係数適応器３１は、減算係数ｄが収束したと判定する。
【００７６】
その後、更新回数ｉがインクリメントされる。更新回数ｉがＩを越えたか否かが判定される。これにより、減算係数ｄを求めるためのループ計算が十分な回数を行われたか否かが判定される。更新回数ｉがＩよりも小さい場合、フィルタ係数Ｈ（ｆ,ｔ）の算出処理へ戻り、再度上述のループ処理を行い、減算係数ｄを更新する。
【００７７】
一方、更新回数ｉがＩ以上の場合、ループ計算を終了する。言い換えると、減算係数ｄが収束しない場合、更新回数ｉがＩに達するまで、ループ計算が繰り返し行われる。もちろん、減算係数ｄが収束した場合、更新回数ｉがＩに到達する前に、ループ計算を抜けても良い。
【００７８】
ＩＦＦＴ処理部１３には、雑音減算部１２により算出された出力信号Ｙ（ｆ,ｔ）が入力される。ＩＦＦＴ処理部１３は、出力信号Ｙ（ｆ,ｔ）を逆フーリエ変換する。そして、逆フーリエ変換された出力信号に窓掛けして、オーバーラップアッドにより、時間領域のデータを得る。これにより、時間領域の出力信号ｙ（ｔ）が出力側装置３に出力される。なお、逆フーリエ変換の処理は、音声強調装置２が行っても良く、他の装置、例えば、出力側装置３が行っても良い。
【００７９】
以上のように、本実施の形態にかかる音声強調装置２の構成よれば、雑音成分用カートシス推定部２７が、雑音成分のカートシスを推定する。また、混合信号用カートシス推定部２８が、混合信号のカートシスを推定する。そして、音声成分用カートシス推定部２９は、予め作成されたカートシステーブルを参照し、推定された雑音成分のカートシス及び混合信号のカートシスに対応する音声成分のカートシスを推定する。このとき、カートシステーブルのカートシスの値は、予め設定された値であり、観測信号から生成されるものではない。つまり、カートシステーブルのカートシスの値には外れ値が含まれていない。そのため、観測信号に外れ値が含まれている場合であっても、音声成分用カートシス推定部２９がカートシステーブルを参照して音声成分のカートシスを推定する際には、当該外れ値の影響は受けない。その結果、音声強調装置２は、安定的に音声成分の強調処理をすることができる。
【００８０】
続いて、メモリ２４に格納されたカートシステーブルの作成方法について、図３を参照して詳細に説明する。図３は、カートシステーブル作成部４のブロック図である。カートシステーブル作成部４は、ＳＮＲ算出部４１と、音声成分用カートシス算出部４２と、雑音成分用カートシス算出部４３と混合信号用カートシス算出部４４と、変換テーブル生成部４５と、を備える。
【００８１】
このとき、各カートシスの算出部は、観測信号からカートシスを算出するのではない。各カートシス算出部は、パワースペクトル領域における音声成分及び雑音成分のヒストグラムが、一般化ガウス分布に従うと仮定して、音声成分、雑音成分及び混合信号のカートシスを算出する。つまり、カートシステーブルの値は、観測信号から得られる実験値ではなく、一般化ガウス分布仮説に基づく理論値である。
【００８２】
ここで、一般化ガウス分布の確率密度関数を式（１１）に示す。パワースペクトル領域における音声成分及び雑音成分のヒストグラムが、式（１１）の一般化ガウス分布に従うと仮定する。言い換えると、ヒストグラムを一般化ガウス分布の確率密度関数で近似する。このとき、ｙが音声成分または雑音成分のパワースペクトルであり、ｐ（ｙ）が頻度を示す。また、αは尺度母数、βは形状母数、Γはガンマ関数を示す。尺度母数α及び形状母数βの値に応じて、一般化ガウス分布の確率密度関数の形状が変化する。
【００８３】
【数１１】

【００８４】
また、一般化ガウス分布におけるｍ次のモーメントは、以下の式（１２）によって得られる。
【００８５】
【数１２】

【００８６】
式（１２）及びモーメント-キュムラント変換を用いて、カートシステーブルを作成する。具体的には、始めに、時間−周波数領域における音声成分及び雑音成分のｍ次のモーメントを以下の式（１３）を用いて算出する。このとき、尺度母数パラメータα_ｓ及びα_ｎは、音声成分及び雑音成分の尺度母数を示す。形状母数パラメータβ_ｓ及びβ_ｎは、音声成分及び雑音成分の形状母数を示す。また、音声成分の複素スペクトルを（ｓ_Ｒ＋ｉｓ_Ｉ）、雑音成分の複素スペクトルを（ｎ_Ｒ＋ｉｎ_Ｉ）、混合信号の複素スペクトルを（ｘ_Ｒ＋ｉｘ_Ｉ）とする。
【００８７】
【数１３】

【００８８】
そして、モーメント−キュムラント変換を用いて、キュムラントを算出する。さらに、算出されたキュムラントを用いて、カートシスを算出する。なお、モーメント−キュムラント変換及びキュムラントを用いたカートシスの算出は、公知の技術であり、従来の手法を用いることができる。そのため、詳細な導出の説明については省略する。音声成分のカートシスは以下の式（１４）によって求めることができる。つまり、図３の音声成分用カートシス算出部４２は、式（１４）を用いて音声成分のカートシスＫ_{ｓｐｅｅｃｈ}を算出する。
【００８９】
【数１４】

【００９０】
音声成分のカートシスの算出と同様に、式（１３）及びモーメント−キュムラント変換を用いて、雑音成分のキュムラントを算出する。そして、雑音成分のキュムラントから雑音成分のカートシスを算出する。雑音成分のカートシスは以下の式（１５）によって求めることができる。つまり、図３の雑音成分用カートシス算出部４３は、式（１５）を用いて雑音成分のカートシスＫ_{ｎｏｉｓｅ}を算出する。
【００９１】
【数１５】

【００９２】
さらに、音声成分及び雑音成分のカートシス算出の過程で求めた音声成分及び雑音成分のキュムラントから、キュムラントの加法性を利用して、混合信号のキュムラントを求める。そして、混合信号のキュムラントに基づいて、混合信号のカートシスを算出する。混合信号のカートシスは以下の式（１６）によって求めることができる。つまり、図３の混合信号用カートシス算出部４４は、式（１６）を用いて混合信号のカートシスＫ_{ｏｂｓｅｒｖｅｄ}を算出する。なお、上記のカートシスの算出においては、モーメント-キュムラント変換を用いたが、モーメントから直接カートシスを算出してもよく、必ずしもキュムラントを算出する必要はない。
【００９３】
【数１６】

【数１７】

【数１８】

【００９４】
一方、ＳＮＲ算出部４１は、尺度母数パラメータα_ｓ、α_ｎ及び形状母数パラメータβ_ｓ、β_ｎを用いて、以下の式（１７）を用いてＳＮＲを算出する。
【００９５】
【数１９】

【００９６】
続いて、カートシステーブル作成部４のカートシステーブル作成動作について説明する。まず、カートシステーブルの作成者（つまり、音声強調装置２の開発者）は、任意の尺度母数パラメータα_ｓ、α_ｎ及び形状母数パラメータβ_ｓ、β_ｎを、ＳＮＲ算出部４１と、音声成分用カートシス算出部４２と、雑音成分用カートシス算出部４３と、混合信号用カートシス算出部４４と、に入力する。
【００９７】
ＳＮＲ算出部４１は、式（１７）を用いて、入力された尺度母数パラメータα_ｓ、α_ｎ及び形状母数パラメータβ_ｓ、β_ｎに対応するＳＮＲを算出する。ＳＮＲ算出部４１は、算出したＳＮＲを変換テーブル生成部４５に出力する。
【００９８】
音声成分用カートシス算出部４２は、式（１４）を用いて、入力された音声成分モデルの形状母数パラメータβ_ｓに対応する音声成分のカートシスＫ_{ｓｐｅｅｃｈ}を算出する。音声成分用カートシス算出部４２は、算出した音声成分のカートシスＫ_{ｓｐｅｅｃｈ}を変換テーブル生成部４５に出力する。
【００９９】
同様に、雑音成分用カートシス算出部４３は、式（１５）を用いて、入力された雑音成分モデルの形状母数パラメータβ_ｎに対応する雑音成分のカートシスＫ_{ｎｏｉｓｅ}を算出する。雑音成分用カートシス算出部４３は、算出した雑音成分のカートシスＫ_{ｎｏｉｓｅ}を変換テーブル生成部４５に出力する。
【０１００】
同様に、混合信号用カートシス算出部４４は、式（１６）を用いて、入力された尺度母数パラメータα_ｓ、α_ｎ及び形状母数パラメータβ_ｓ、β_ｎに対応する混合信号のカートシスＫ_{ｏｂｓｅｒｖｅｄ}を算出する。混合信号用カートシス算出部４４は、算出した混合信号のカートシスＫ_{ｏｂｓｅｒｖｅｄ}を変換テーブル生成部４５に出力する。
【０１０１】
変換テーブル生成部４５は、音声成分のカートシスＫ_{ｓｐｅｅｃｈ}、雑音成分のカートシスＫ_{ｎｏｉｓｅ}、混合信号のカートシスＫ_{ｏｂｓｅｒｖｅｄ}、及びＳＮＲに基づいて、カートシステーブルを生成する。つまり、あるＳＮＲにおける音声成分のカートシスＫ_{ｓｐｅｅｃｈ}、雑音成分のカートシスＫ_{ｎｏｉｓｅ}、及び混合信号のカートシスＫ_{ｏｂｓｅｒｖｅｄ}をカートシステーブルにプロットする。
【０１０２】
例えば、任意の第１のパラメータの組（α_ｓ１,α_ｎ１,β_ｓ１,β_ｎ１）が、カートシステーブル作成部４に入力された場合に、各算出部によりＳＮＲ＝０ｄＢ、Ｋ_{ｓｐｅｅｃｈ}＝２．０×１０^３、Ｋ_{ｎｏｉｓｅ}＝１．５×１０^３、Ｋ_{ｏｂｓｅｒｖｅｄ}＝０．８×１０^３が算出され、変換テーブル生成部４５に入力されたとする。
【０１０３】
この場合、変換テーブル生成部４５は、ＳＮＲが０ｄＢのカートシステーブルにおいて、Ｋ_{ｓｐｅｅｃｈ}＝２．０×１０^３、Ｋ_{ｎｏｉｓｅ}＝１．５×１０^３、Ｋ_{ｏｂｓｅｒｖｅｄ}＝０．８×１０^３の点をプロットする。
【０１０４】
次に、任意の第２のパラメータの組（α_ｓ２,α_ｎ２,β_ｓ２,β_ｎ２）が、カートシステーブル作成部４に入力された場合に、各算出部によりＳＮＲ＝５ｄＢ、Ｋ_{ｓｐｅｅｃｈ}＝１．０×１０^３、Ｋ_{ｎｏｉｓｅ}＝１．５×１０^３、Ｋ_{ｏｂｓｅｒｖｅｄ}＝１．２×１０^３が算出され、変換テーブル生成部４５に入力されたとする。
【０１０５】
この場合、変換テーブル生成部４５は、ＳＮＲが５ｄＢのカートシステーブルにおいて、Ｋ_{ｓｐｅｅｃｈ}＝１．０×１０^３、Ｋ_{ｎｏｉｓｅ}＝１．５×１０^３、Ｋ_{ｏｂｓｅｒｖｅｄ}＝１．２×１０^３の点をプロットする。
【０１０６】
変換テーブル生成部４５は、上述の動作を繰り返す。つまり、カートシステーブル作成部４には、任意の値の範囲で尺度母数パラメータα_ｓ、α_ｎ及び形状母数パラメータβ_ｓ、β_ｎが入力される。そして、変換テーブル生成部４５は、カートシステーブルをプロットで埋めていく。これにより、図３に例示するように、ＳＮＲの異なる複数のカートシステーブルが生成される。生成された複数種類のカートシステーブルは、カートシス推定ユニット２０のメモリ２４に格納される。このように、カートシステーブル作成部４は、様々な形状のヒストグラムを近似できるように、複数種類のカートシステーブルを作成する。ＳＮＲの異なる複数種類のカートシステーブルを用意しておくことにより、ＳＮＲの異なる多様な音声信号に対して音声強調処理を行うことができる。したがって、音声強調装置２は、音声信号のＳＮＲに拘らず、安定的に音声を強調することができる。
【０１０７】
なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更及び組み合わせをすることが可能である。例えば、上記の実施の形態においては、パワースペクトル領域における音声成分及び雑音成分のヒストグラムが、一般化ガウス分布に従うと仮定しているが、他の分布に従うと仮定してもよい。また、カートシス推定ユニット２０、減算係数算出ユニット３０、及びカートシステーブル作成部４の各ブロックの処理に用いられる数式は、上述した式に限られない。各ブロックが出力すべきデータが求められれば、他の数式を用いてもよい。例えば、モーメントからカートシスを求める際には、キュムラントの算出を経由してもよいし、直接カートシスを算出してもよい。
【０１０８】
さらに、上述した雑音強調処理は、ＤＳＰ（Digital Signal Processor）、ＭＰＵ（Micro Processing Unit）、若しくはＣＰＵ（Central Processing Unit）又はこれらの組み合わせを含むコンピュータにプログラムを実行させることによって実現してもよい。
【０１０９】
上述の例において、音声強調処理をコンピュータに行わせるための命令群を含むプログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば光磁気ディスク）、ＣＤ−ＲＯＭ（Read Only Memory）、ＣＤ−Ｒ、ＣＤ−Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM）、フラッシュＲＯＭ、ＲＡＭ（Random Access Memory））を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
【符号の説明】
【０１１０】
１マイクロホン
２音声強調装置
３出力装置
４カートシステーブル作成部
１１ＦＦＴ処理部
１２雑音減算部
１３ＩＦＦＴ処理部
２０カートシス推定ユニット
２１音声判定部
２２ＳＮＲ推定器
２３変換テーブル選択部
２４メモリ
２５雑音成分用モーメント推定部
２６混合信号用モーメント推定部
２７雑音成分用カートシス推定部
２８混合信号用カートシス推定部
２９音声成分用カートシス推定部
３０減算係数算出ユニット
３１減算係数適応器
３２出力信号用モーメント推定部
３３出力信号用カートシス推定部
４１ＳＮＲ算出部
４２音声成分用カートシス算出部
４３雑音成分用カートシス算出部
４４混合信号用カートシス算出部
４５変換テーブル生成部

【特許請求の範囲】
【請求項１】
マイクロホンユニットによって取得された観測信号に対して、音声を強調する音声強調装置であって、
音声成分と雑音成分とを含む混合信号のモーメントに基づいて、混合信号のカートシスを推定する混合信号カートシス推定部と、
雑音成分のモーメントに基づいて、雑音成分のカートシスを推定する雑音成分カートシス推定部と、
前記混合信号のカートシス及び前記雑音成分のカートシスに対して音声成分のカートシスの値が予め対応付けられたカートシステーブルを格納する記憶部と、
前記カートシステーブルを参照し、前記音声成分のカートシスを推定する音声成分カートシス推定部と、
前記音声成分カートシス推定部により推定された前記音声成分のカートシスに基づいて、減算係数を算出する減算係数適応部と、
前記減算係数適応部により算出された前記減算係数を用いて、前記観測信号に対して雑音減算する雑音減算部と、
を備える音声強調装置。
【請求項２】
前記カートシステーブルにおける前記混合信号のカートシス、前記雑音成分のカートシス、及び前記音声成分のカートシスの値は、前記雑音信号及び前記音声信号のパワースペクトルのヒストグラムが、所定の分布に従うという仮定に基づいて算出される請求項１に記載の音声強調装置。
【請求項３】
前記所定の分布は、一般化ガウス分布である請求項２に記載の音声強調装置。
【請求項４】
前記観測信号のＳＮＲを推定するＳＮＲ推定部をさらに備え、
前記カートシステーブルは、前記ＳＮＲに対応して複数種類あり、
前記音声成分カートシス推定部は、複数種類の前記カートシステーブルのうち、前記ＳＮＲ推定部により推定された前記ＳＮＲに基づいて、参照するカートシステーブルを選択する請求項１〜３のいずれか一項に記載の音声強調装置。
【請求項５】
マイクロホンユニットによって取得された観測信号に対して、音声を強調する音声強調方法であって、
音声成分と雑音成分とを含む混合信号のモーメントに基づいて、混合信号のカートシスを推定するステップと、
雑音成分のモーメントに基づいて、雑音成分のカートシスを推定するステップと、
前記混合信号のカートシス及び前記雑音成分のカートシスに対して音声成分のカートシスの値が予め対応付けられたカートシステーブルを参照し、前記音声成分のカートシスを推定するステップと、
推定した前記音声成分のカートシスに基づいて、減算係数を算出するステップと、
算出した前記減算係数を用いて、前記観測信号に対して雑音減算するステップと、
を備える音声強調方法。
【請求項６】
前記カートシステーブルにおける前記混合信号のカートシス、前記雑音成分のカートシス、及び前記音声成分のカートシスの値は、前記雑音信号及び前記音声信号のパワースペクトルのヒストグラムが、所定の分布に従うという仮定に基づいて算出される請求項５に記載の音声強調方法。
【請求項７】
前記所定の分布は、一般化ガウス分布である請求項６に記載の音声強調方法。
【請求項８】
前記観測信号のＳＮＲを推定するステップと、
複数種類の前記カートシステーブルのうち、推定した前記ＳＮＲに基づいて、参照するカートシステーブルを選択するステップと、
をさらに備える請求項５〜７のいずれか一項に記載の音声強調方法。
【請求項９】
マイクロホンユニットによって取得された観測信号に対して、音声を強調する音声強調プログラムであって、
コンピュータに対して、
音声成分と雑音成分とを含む混合信号のモーメントに基づいて、混合信号のカートシスを推定させるステップと、
雑音成分のモーメントに基づいて、雑音成分のカートシスを推定させるステップと、
前記混合信号のカートシス及び前記雑音成分のカートシスに対して音声成分のカートシスの値が予め対応付けられたカートシステーブルを参照させ、前記音声成分のカートシスを推定させるステップと、
推定した前記音声成分のカートシスに基づいて、減算係数を算出させるステップと、
算出された前記減算係数を用いて、前記観測信号に対して雑音減算させるステップと、
を備える音声強調プログラム。
【請求項１０】
前記カートシステーブルにおける前記混合信号のカートシス、前記雑音成分のカートシス、及び前記音声成分のカートシスの値は、前記雑音信号及び前記音声信号のパワースペクトルのヒストグラムが、所定の分布に従うという仮定に基づいて算出される請求項９に記載の音声強調プログラム。
【請求項１１】
前記所定の分布は、一般化ガウス分布である請求項１０に記載の音声強調プログラム。
【請求項１２】
コンピュータに対して、
前記観測信号のＳＮＲを推定させるステップと、
複数種類の前記カートシステーブルのうち、推定した前記ＳＮＲに基づいて、参照させるカートシステーブルを選択させるステップと、
をさらに備える請求項９〜１１のいずれか一項に記載の音声強調プログラム。

【図３】

【図５】

【図１】

【図２】

【図４】

【公開番号】特開２０１３−１０５０４１（Ｐ２０１３−１０５０４１Ａ）
【公開日】平成２５年５月３０日（２０１３．５．３０）
【国際特許分類】

物理学 (1,541,580)
- 楽器；音響 (32,226)
  - 音声の分析または合成；音声認識；音響分析または処理 (17,022)
    - 音声認識 (6,879)
      - 不利な環境に特に適した音声認識技術，例．雑音またはアクセントの... (334)

【出願番号】特願２０１１−２４８９９９（Ｐ２０１１−２４８９９９）
【出願日】平成２３年１１月１４日（２０１１．１１．１４）
【出願人】（５０４１４３４４１）国立大学法人　奈良先端科学技術大学院大学 (226)
【出願人】（０００００３２０７）トヨタ自動車株式会社 (59,920)
【Ｆターム（参考）】

音声認識 (5,191)
- 前処理 (287)
  - 音素の強調 (13)

[ Back to top ]

音声強調装置、音声強調方法、及び音声強調プログラム

メニュー

スポンサーリンク

次の公報 »

« 前の公報

音声強調装置、音声強調方法、及び音声強調プログラム

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク