説明

雑音除去装置および雑音除去方法

【課題】マイクロホン間隔に依存しない雑音除去処理を可能とする。
【解決手段】目的音強調部105は、マイクロホン101a,101bの観測信号に目的音強調処理を施して目的音推定信号を得る。雑音推定部106は、マイクロホン101a,101bの観測信号に雑音推定処理を施して雑音推定信号を得る。ポストフィルタリング部109は、目的音推定信号に残留している雑音成分を、雑音推定信号を用いたポストフィルタリング処理によって除去し、雑音抑圧信号を得る。補正係数算出部107は、ポストフィルタリング処理を補正するため、つまり目的音推定信号に残留している雑音成分と雑音推定信号の利得を合わせるための補正係数を算出する。補正係数変更部108は、補正係数算出部107で算出された補正係数のうち、空間エイリアシングを起こしている帯域の係数を、特定の周波数にできるピークをつぶすように変更する。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、雑音除去装置および雑音除去方法に関し、特に、目的音の強調とポストフィルタリング処理によって雑音を除去する雑音除去装置等に関する。
【背景技術】
【0002】
例えば、携帯電話、パーソナルコンピュータ等で再生する音楽を、ユーザがノイズキャンセルヘッドホンで聴くという状況が想定される。この状況において、通話着信、チャット呼び出し等があった場合、いちいちマイクロホンを準備してから話し始めるのは、ユーザにとって非常に煩わしいことである。ユーザにとっては、マイクロホンを用意することなく、ハンズフリーでそのまま通話を開始することが望まれる。
【0003】
ノイズキャンセルヘッドホンの耳元にはノイズキャンセル用のマイクロホンが設置されており、このマイクロホンを利用して通話をすることが考えられる。これにより、ヘッドホンを付けたままでの通話を実現できる。この場合、周囲の雑音が問題となるため、雑音を抑圧して音声のみを伝送することが望まれる。
【0004】
例えば、特許文献1には、目的音の強調とポストフィルタリング処理によって雑音を除去する技術が記載されている。図31は、特許文献1に記載されている雑音除去装置の構成例を示している。この雑音除去装置においては、ビームフォーマ部(11)で音声が強調され、ブロッキング行列部(12)で雑音が強調される。音声の強調で雑音のすべてが消えるわけではないので、雑音低減手段(13)により、強調雑音が使用されて雑音成分が低減される。
【0005】
さらに、この雑音除去装置において、ポストフィルタリング手段(14)により、消し残りの雑音が除去される。この場合、雑音低減手段(13)と、処理手段(15)の出力が使用されるが、フィルタの特性でスペクトルの誤差が生じる。そのため、出力の適応部(16)で補正が行われる。
【0006】
この場合、目的音がなく、雑音のみが存在する区間において、雑音低減手段(13)の出力S1と適応部(16)の出力S2とが等しくなるように補正が行われる。このことは、以下の(1)式で表される。この(1)式において、左辺は適応部(16)の出力S2の期待値を示し、右辺は目的音がない区間における雑音低減手段(13)の出力S1の期待値を示している。
【0007】
【数1】

【0008】
このような補正により、ポストフィルタリング手段(14)において、雑音のみの区間では、S1,S2の誤差がなく、雑音を全て除去でき、また、(音声+雑音)の区間では、雑音の成分だけを除去して、音声を残すことができる。
【0009】
この補正は、フィルタの指向特性を補正していると解釈できる。図32(a)は補正前のフィルタの指向特性例を示し、図32(b)は補正後のフィルタの指向特性例を示している。これらの図において、縦軸は利得を示しており、上に行くほど、利得が高くなる。
【0010】
図32(a)において、実線aは、ビームフォーマ部(11)で作られた、目的音を強調する指向特性を示している。この指向特性により、正面の目的音が強調され、その他の方位からくる音の利得が下げられる。また、図32(a)において、破線bは、ブロッキング行列部12で作られた指向特性を示している。この指向特性により、目的音方位の利得が下げられ、雑音が推定される。
【0011】
補正前においては、目的音強調の指向特性(実線a)と雑音推定の指向特性(実線b)との間で、雑音(ノイズ)の方位において、利得の誤差がある。そのため、ポストフィルタリング手段(14)において、目的音推定信号から雑音推定信号を差し引いた場合、雑音の消し残り、あるいは消しすぎが生じる。
【0012】
また、図32(b)において、実線a′は、補正後における目的音強調の指向特性を示している。また、図32(b)において、破線b′は、補正後における雑音推定の指向特性を示している。補正係数により、目的音強調の指向特性と雑音推定の指向特性とにおける雑音(ノイズ)の方位の利得が合わせられる。そのため、ポストフィルタリング手段(14)において、目的音推定信号から雑音推定信号を差し引いた場合、雑音の消し残り、あるいは消しすぎが低減される。
【先行技術文献】
【特許文献】
【0013】
【特許文献1】特開2009−49998号公報
【発明の概要】
【発明が解決しようとする課題】
【0014】
上述の特許文献1に記載される雑音抑圧技術においては、マイクロホン間隔の考慮がなされていないという問題がある。すなわち、特許文献1に記載される雑音抑圧技術においては、マイクロホン間隔によって補正係数を正しく計算できない場合がある。補正係数の計算を誤った場合、目的音が歪んでしまう恐れがある。マイクロホン間隔が広い場合、指向特性の曲線が折り返す空間エイリアシングを起こすため、意図しない方位の利得を増幅、あるいは減衰させてしまう。
【0015】
図33は、空間エイリアシングを起こしている場合におけるフィルタの指向特性例を示し、実線aはビームフォーマ部(11)で作られた目的音強調の指向特性を示し、破線bはブロッキング行列部(12)で作られた雑音推定の指向特性を示している。この図33に示す指向特性例の場合、目的音と同時に雑音も増幅される。この場合には、補正係数を求めても意味がなく、雑音抑圧の性能が低下する。
【0016】
上述の特許文献1に記載される雑音抑圧技術においては、事前にマイクロホン間隔が既知であり、さらに、空間エイリアシングが起こらないマイクロホン間隔であることが前提である。この前提はかなり大きな制約である。例えば、電話帯域のサンプリング周波数(8000Hz)で、空間エイリアシングを起こさないようなマイクロホン間隔は約4.3cmとなる。
【0017】
空間エイリアシングを起こさないためには、事前にマイクロホンの間隔(素子間隔)を設定しておくことが必要である。ここで、音速をc、マイクロホンの間隔(素子間隔)をd、周波数をfとするとき、空間エイリアシングを起こさないためには、以下の(2)式を満たす必要がある。
d<c/2f ・・・(2)
【0018】
例えば、ノイズキャンセルヘッドホンに設置されているノイズキャンセル用のマイクロホンの場合、マイクロホン間隔は、左右の耳の間隔となる。つまり、この場合には、上述したように空間エイリアシングを起こさないようなマイクロホン間隔である約4.3cmは不可能となる。
【0019】
また、上述の特許文献1に記載される雑音抑圧技術においては、周囲雑音の音源数の考慮がなされていないという問題がある。すなわち、周囲に無数の雑音源がある状況では、各フレーム、各周波数で、周囲の音がランダムに入力されていることになる。この場合、目的音強調の指向特性と雑音推定の指向特性とで利得を合わせるべき箇所が各フレーム、各周波数でバラバラに動いてしまう。そのため、補正係数が時間と共に常に変化して安定せず、出力音に悪影響を及ぼす。
【0020】
図34は、周囲に無数の雑音源がある状況を示している。なお、実線aは、図32(a)における実線aと同様の目的音強調の指向特性を示しており、破線bは、図32(a)における破線bと同様の目的音強調の指向特性を示している。周囲に無数の雑音源があると、2つの指向特性の利得を合わせるべき箇所がたくさんできる。実環境では、このように周囲に無数の雑音源が存在するため、上述の特許文献1に記載される雑音抑圧技術では対応できない。
【0021】
この発明の目的は、マイクロホン間隔に依存しない雑音除去処理を可能とすることにある。また、この発明の目的は、周囲の雑音の状況に合わせた雑音除去処理を可能とすることにある。
【課題を解決するための手段】
【0022】
この発明の概念は、
所定の間隔をもって配置された第1のマイクロホンおよび第2のマイクロホンの観測信号に目的音強調処理を施して目的音推定信号を得る目的音強調部と、
上記第1のマイクロホンおよび上記第2のマイクロホンの観測信号に雑音推定処理を施して雑音推定信号を得る雑音推定部と、
上記目的音強調部で得られた目的音推定信号に残留している雑音成分を、上記雑音推定部で得られた雑音推定信号を用いたポストフィルタリング処理によって除去するポストフィルタリング部と、
上記目的音強調部で得られた目的音推定信号および上記雑音推定部で得られた雑音推定信号に基づいて、上記ポストフィルタリング部で行われるポストフィルタリング処理を補正するための補正係数を周波数毎に算出する補正係数算出部と、
上記補正係数算出部で算出された補正係数のうち、空間エイリアシングを起こしている帯域の補正係数を、特定の周波数にできるピークをつぶすように変更する補正係数変更部と
を備える雑音除去装置にある。
【0023】
この発明において、目的音強調部により、所定の間隔をもって配置された第1のマイクロホンおよび第2のマイクロホンの観測信号に目的音強調処理が施されて目的音推定信号が得られる。目的音強調処理としては、例えば、従来周知の、DS(Delay and Sum)処理、あるいは適応ビームフォーマ処理などが用いられる。また、雑音推定部により、第1のマイクロホンおよび第2のマイクロホンの観測信号に雑音推定処理が施されて雑音推定信号が得られる。雑音推定処理としては、例えば、従来周知の、NBF(Null-Beam Former)処理、あるいは適応ビームフォーマ処理などが用いられる。
【0024】
ポストフィルタリング部により、目的音強調部で得られた目的音推定信号に残留している雑音成分が、雑音推定部で得られた雑音推定信号を用いたポストフィルタリング処理によって除去される。ポストフィルタリング処理としては、例えば、従来周知の、スペクトルサブトラクション法、MMSE-STSA法などが用いられる。また、補正係数算出部により、目的音強調部で得られた目的音推定信号および雑音推定部で得られた雑音推定信号に基づいて、ポストフィルタリング部で行われるポストフィルタリング処理を補正するための補正係数が周波数毎に算出される。
【0025】
補正係数変更部により、補正係数算出部で算出された補正係数のうち、空間エイリアシングを起こしている帯域の補正係数が、特定の周波数にできるピークをつぶすように変更される。例えば、補正係数変更部では、空間エイリアシングを起こしている帯域において、補正係数算出部で算出された補正係数が周波数方向に平滑化されて各周波数の変更された補正係数が得られる。また、例えば、補正係数変更部では、空間エイリアシングを起こしている帯域において、各周波数の補正係数が1に変更される。
【0026】
第1のマイクロホンおよび第2のマイクロホンの間隔、つまりマイクロホン間隔が広い場合、空間エイリアシングを起こし、目的音強調の指向特性は、目的音の方位以外の音も強調するような指向特性となる。補正係数算出部で算出された各周波数の補正係数のうち、空間エイリアシングを起こしている帯域では、特定の周波数にピークができる。そのため、この補正係数をそのまま使用されると、上述したように特定の周波数にできたピークが出力音に悪影響を及ぼし、音質を劣化させる。
【0027】
この発明においては、空間エイリアシングを起こしている帯域の補正係数が、特定の周波数にできるピークをつぶすように変更されるものであり、このピークが出力音に及ぼす悪影響を軽減でき、音質の劣化を抑制できる。これにより、マイクロホン間隔に依存しない雑音除去処理が可能となる。
【0028】
この発明において、例えば、目的音強調部で得られた目的音推定信号および雑音推定部で得られた雑音推定信号に基づいて、目的音がある区間を検出する目的音区間検出部をさらに備え、補正係数算出部は、目的音区間検出部で得られた目的音区間情報に基づいて、目的音がない区間で補正係数の算出を行う、ようにされる。この場合、目的音推定信号には雑音成分のみが含まれるため、目的音の影響を受けることなく、補正係数を精度よく算出可能となる。
【0029】
例えば、目的音検出部では、目的音推定信号と雑音推定信号のエネルギー比が求められ、このエネルギー比が閾値より大きいときは目的音区間と判断される。また、例えば、補正係数算出部では、f番目の周波数のフレームtの補正係数β(f,t)は、このf番目の周波数のフレームtの目的音推定信号Z(f,t)および雑音推定信号N(f,t)と、f番目の周波数のフレームt−1の補正係数β(f,t-1)が用いられて、
【数2】

の式で算出される。
【0030】
また、この発明の他の概念は、
所定の間隔をもって配置された第1のマイクロホンおよび第2のマイクロホンの観測信号に目的音強調処理を施して目的音推定信号を得る目的音強調部と、
上記第1のマイクロホンおよび上記第2のマイクロホンの観測信号に雑音推定処理を施して雑音推定信号を得る雑音推定部と、
上記目的音強調部で得られた目的音推定信号に残留している雑音成分を、上記雑音推定部で得られた雑音推定信号を用いたポストフィルタリング処理によって除去するポストフィルタリング部と、
上記目的音強調部で得られた目的音推定信号および上記雑音推定部で得られた雑音推定信号に基づいて、上記ポストフィルタリング部で行われるポストフィルタリング処理を補正するための補正係数を周波数毎に算出する補正係数算出部と、
上記第1のマイクロホンおよび上記第2のマイクロホンの観測信号を処理して周囲雑音の音源数情報を得る周囲雑音状態推定部と、
上記周囲雑音状態推定部で得られた周囲雑音の音源数情報に基づき、音源数が多い程平滑化フレーム数を大きくして、上記補正係数算出部で算出された補正係数をフレーム方向に平滑化して各フレームの変更された補正係数を得る補正係数変更部と
を備える雑音除去装置にある。
【0031】
この発明において、目的音強調部により、所定の間隔をもって配置された第1のマイクロホンおよび第2のマイクロホンの観測信号に目的音強調処理が施されて目的音推定信号が得られる。目的音強調処理としては、例えば、従来周知の、DS(Delay and Sum)処理、あるいは適応ビームフォーマ処理などが用いられる。また、雑音推定部により、第1のマイクロホンおよび第2のマイクロホンの観測信号に雑音推定処理が施されて雑音推定信号が得られる。雑音推定処理としては、例えば、従来周知の、NBF(Null-Beam Former)処理、あるいは適応ビームフォーマ処理などが用いられる。
【0032】
ポストフィルタリング部により、目的音強調部で得られた目的音推定信号に残留している雑音成分が、雑音推定部で得られた雑音推定信号を用いたポストフィルタリングによって除去される。ポストフィルタリング処理としては、例えば、従来周知の、スペクトルサブトラクション法、MMSE-STSA法などが用いられる。また、補正係数算出部により、目的音強調部で得られた目的音推定信号および雑音推定部で得られた雑音推定信号に基づいて、ポストフィルタリング部で行われるポストフィルタリング処理を補正するための補正係数が周波数毎に算出される。
【0033】
周囲雑音状態推定部により、第1のマイクロホンおよび第2のマイクロホンの観測信号が処理されて周囲雑音の音源数情報が得られる。例えば、周囲雑音状態推定部では、第1のマイクロホンおよび第2のマイクロホンの観測信号の相関係数が算出され、この算出された相関係数が周囲雑音の音源数情報とされる。補正係数変更部により、周囲雑音状態推定部で得られた周囲雑音の音源数情報に基づき、音源数が多い程平滑化フレーム数が大きくされて、補正係数算出部で算出された補正係数がフレーム方向に平滑化されて各フレームの変更された補正係数が得られる。
【0034】
周囲に無数の雑音源がある状況では、各フレーム、各周波数で、周囲の各雑音源からの音がランダムに入力され、目的音強調の指向特性と雑音推定の指向特性とで利得を合わせるべき箇所が各フレーム、各周波数でバラバラに動く。つまり、補正係数算出部で算出される補正係数が時間と共に常に変化して安定せず、出力音に悪影響を及ぼす。
【0035】
この発明においては、周囲雑音の音源数が多い程平滑化フレーム数が大きくされ、各フレームの補正係数として、フレーム方向に平滑化されたものが使用される。これにより、周囲に無数の雑音源がある状況において、補正係数の時間方向の変化を抑制して出力音に及ぼす影響を軽減できる。これにより、周囲の雑音の状況(周囲に無数に雑音がある現実的な環境)に合わせた雑音除去処理が可能となる。
【発明の効果】
【0036】
この発明によれば、空間エイリアシングを起こしている帯域の補正係数が、特定の周波数にできるピークをつぶすように変更されるものであり、このピークが出力音に及ぼす悪影響を軽減でき、音質の劣化を抑制でき、マイクロホン間隔に依存しない雑音除去処理が可能となる。また、この発明によれば、周囲雑音の音源数が多い程平滑化フレーム数が大きくされ、各フレームの補正係数として、フレーム方向に平滑化されたものが使用されるものであり、周囲に無数の雑音源がある状況において、補正係数の時間方向の変化を抑制して出力音に及ぼす影響を軽減でき、周囲の雑音の状況に合わせた雑音除去処理が可能となる。
【図面の簡単な説明】
【0037】
【図1】この発明の第1の実施の形態としての音声入力システムの構成例を示すブロック図である。
【図2】目的音強調部を説明するための図である。
【図3】雑音推定部を説明するための図である。
【図4】ポストフィルタリング部を説明するための図である。
【図5】補正係数算出部を説明するための図である。
【図6】補正係数算出部で算出される周波数毎の補正係数の一例(マイクロホン間隔d=2cm、空間エイリアシング無し)を示す図である。
【図7】補正係数算出部で算出される周波数毎の補正係数の一例(マイクロホン間隔d=20cm、空間エイリアシング有り)を示す図である。
【図8】雑音(女性話者)が45°の方位に存在することを示す図である。
【図9】補正係数算出部で算出される周波数毎の補正係数の一例(マイクロホン間隔d=2cm、空間エイリアシング無し、雑音源数=2)を示す図である。
【図10】補正係数算出部で算出される周波数毎の補正係数の一例(マイクロホン間隔d=20cm、空間エイリアシング有り、雑音源数=2)を示す図である。
【図11】雑音(女性話者)が45°の方位に存在し、さらに、雑音(男性話者)が−30°の方位に存在することを示す図である。
【図12】空間エイリアシングを起こしている帯域の係数を、特定の周波数にできるピークをつぶすように変更するために、周波数方向に平滑化する方法(第1の方法)を説明するための図である。
【図13】空間エイリアシングを起こしている帯域の係数を、特定の周波数にできるピークをつぶすように変更するために、周波数方向に平滑化する方法(第1の方法)を説明するための図である。
【図14】空間エイリアシングを起こしている帯域の係数を、特定の周波数にできるピークをつぶすように変更するために、1に置き換える方法(第2の方法)を説明するための図である。
【図15】補正係数変更部における処理の手順を示すフローチャートである。
【図16】この発明の第2の実施の形態としての音声入力システムの構成例を示すブロック図である。
【図17】雑音の音源数と、相関係数corrとの関係の一例を示す棒グラフである。
【図18】雑音が45°の方位に存在する場合に補正係数算出部で算出される周波数毎の補正係数の一例(マイクロホン間隔d=2cm)を示す図である。
【図19】雑音が45°の方位に存在することを示す図である。
【図20】複数の方位に雑音が存在する場合に補正係数算出部で算出される周波数毎の補正係数の一例(マイクロホン間隔d=2cm)を示す図である。
【図21】複数の方位に雑音が存在することを示す図である。
【図22】補正係数算出部で算出される補正係数が、フレーム毎に、ランダムに変化することを示す図である。
【図23】相関係数corr(周囲雑音の音源数情報)に基づいて平滑化フレーム数γを求める際に使用される平滑化フレーム数算出関数の一例を示す図である。
【図24】補正係数算出部で算出された補正係数をフレーム方向(時間方向)に平滑化して変更された補正係数を得ることを説明するための図である。
【図25】周囲雑音状態推定部および補正係数変更部における処理の手順を示すフローチャートである。
【図26】この発明の第3の実施の形態としての音声入力システムの構成例を示すブロック図である。
【図27】補正係数変更部、周囲雑音状態推定部および補正係数変更部における処理の手順を示すフローチャートである。
【図28】この発明の第4の実施の形態としての音声入力システムの構成例を示すブロック図である。
【図29】目的音検出部を説明するための図である。
【図30】目的音検出部の原理を説明するための図である。
【図31】従来の雑音除去装置の構成例を示すブロック図である。
【図32】従来の雑音除去装置における補正前、補正後の目的音強調の指向特性と雑音推定の指向特性の一例を示す図である。
【図33】空間エイリアシングを起こしている場合におけるフィルタの指向特性例を示す図である。
【図34】周囲に無数の雑音源がある状況を示す図である。
【発明を実施するための形態】
【0038】
以下、発明を実施するための形態(以下、「実施の形態」とする)について説明する。なお、説明を以下の順序で行う。
1.第1の実施の形態
2.第2の実施の形態
3.第3の実施の形態
4.第4の実施の形態
5.変形例
【0039】
<1.第1の実施の形態>
[音声入力システムの構成例]
図1は、第1の実施の形態としての音声入力システム100の構成例を示している。この音声入力システム100は、ノイズキャンセルヘッドホンの左右のヘッドホンに設置されているノイズキャンセル用のマイクロホンを用いて音声入力を行うシステムである。
【0040】
この音声入力システム100は、マイクロホン101a,101bと、A/D変換器102と、フレーム分割部103と、高速フーリエ変換(FFT)部104と、目的音強調部105と、雑音推定部(目的音抑圧部)106を有している。また、この音声入力システム100は、補正係数算出部107と、補正係数変更部108と、ポストフィルタリング部109と、逆高速フーリエ変換(IFFT)部110と、波形合成部111を有している。
【0041】
マイクロホン101a,101bは、周囲音を集音して観測信号を得る。マイクロホン101aおよびマイクロホン101bは、所定の間隔をもって並べて配置されている。この実施の形態において、マイクロホン101a,101bは、ノイズキャンセルヘッドホンの左右のヘッドホンにそれぞれ設置されているノイズキャンセル用のマイクロホンとされる。
【0042】
A/D変換器102は、マイクロホン101a,101bから得られる観測信号を、アナログ信号からデジタル信号に変換する。フレーム分割部103は、A/D変換器102でデジタル信号に変換された観測信号を、フレーム毎の処理を行うために、所定時間長のフレームに分割して、フレーム化する。高速フーリエ変換部104は、フレーム分割部103で得られたフレーム化信号に対して、高速フーリエ変換(FFT:Fast Fourier transform)処理を施し、周波数領域の周波数スペクトルX(f,t)に変換する。ここで、(f,t)は、f番目の周波数のフレームtの周波数スペクトルであることを示している。つまり、fは周波数を示し、tは時間インデックスを示している。
【0043】
目的音強調部105は、マイクロホン101a,101bの観測信号に目的音強調処理を施して、各フレームにおいて、周波数毎に目的音推定信号を得る。この目的音強調部105は、図2に示すように、マイクロホン101aの観測信号をX1(f,t)とし、マイクロホン101bの観測信号をX2(f,t)とするとき、目的音推定信号Z(f,t)を得る。目的音強調部105は、目的音強調処理として、例えば、従来周知の、DS(Delayand Sum)処理、あるいは適応ビームフォーマ処理などを用いる。
【0044】
DSは、マイクロホン101a,101bに入力される信号の位相を目的音の方位に合わせ込む技術である。マイクロホン101a,101bはノイズキャンセルヘッドホンの左右のヘッドホンに設置されているノイズキャンセル用のマイクロホンであり、ユーザの口はマイクロホン101a,101bから見て必ず正面となる。
【0045】
そのため、目的音強調部105は、DS処理を用いる場合、以下の(3)式に基づき、観測信号X1(f,t)および観測信号X2(f,t)を加算処理した後に、2で割って目的音推定信号Z(f,t)を得る。
Z(f,t)={X1(f,t)+X2(f,t)}/2 ・・・(3)
【0046】
なお、DSは固定ビームフォーマとよばれる技術であり、入力信号の位相を変化させて、指向特性を制御する技術である。目的音強調部105は、マイクロホン間隔が事前にわかっている場合には、上述したように、DS処理の代わりに、適応ビームフォーマ処理などの処理を用いて、目的音推定信号Z(f,t)を得ることもできる。
【0047】
図1に戻って、雑音推定部(目的音抑圧部)106は、マイクロホン101a,101bの観測信号に雑音推定処理を施して、各フレームにおいて、周波数毎に雑音推定信号を得る。この雑音推定部106は、目的音(ユーザ音声)以外の音を雑音として推定する。すなわち、この雑音推定部106は、目的音だけを除去して、雑音を残す処理を行う。
【0048】
この雑音推定部106は、図3に示すように、マイクロホン101aの観測信号をX1(f,t)とし、マイクロホン101bの観測信号をX2(f,t)とするとき、雑音推定信号N(f,t)を得る。雑音推定部106は、雑音推定処理として、例えば、従来周知の、NBF(Null-BeamFormer)処理、あるいは適応ビームフォーマ処理などを用いる。
【0049】
上述したように、マイクロホン101a,101bはノイズキャンセルヘッドホンの左右のヘッドホンに設置されているノイズキャンセル用のマイクロホンであり、ユーザの口はマイクロホン101a,101bから見て必ず正面となる。そのため、雑音推定部106は、NBF処理を用いる場合、以下の(4)式に基づき、観測信号X1(f,t)および観測信号X2(f,t)を減算処理した後に、2で割って雑音推定信号N(f,t)を得る。
N(f,t)={X1(f,t)−X2(f,t)}/2 ・・・(4)
【0050】
なお、NBFは固定ビームフォーマとよばれる技術であり、入力信号の位相を変化させて、指向特性を制御する技術である。雑音推定部106は、マイクロホン間隔が事前にわかっている場合には、上述したように、NBF処理の代わりに、適応ビームフォーマ処理などの処理を用いて、雑音推定信号N(f,t)を得ることもできる。
【0051】
図1に戻って、ポストフィルタリング部109は、目的音強調部105で得られた目的音推定信号Z(f,t)に残留している雑音成分を、雑音推定部106で得られた雑音推定信号N(f,t)を用いたポストフィルタリング処理によって除去する。すなわち、このポストフィルタリング部109は、図4に示すように、目的音推定信号Z(f,t)および雑音推定信号N(f,t)に基づいて、雑音抑圧信号Y(f,t)を得る。
【0052】
ポストフィルタリング部109は、スペクトルサブトラクション法、MMSE−STSA法などの公知技術を使用して、雑音抑圧信号Y(f,t)を得る。スペクトルサブトラクション法は、例えば、文献「S.F.Boll, “Suppression of acoustic noise in speech using spectral subtraction,” IEEE Trans. Acoustics, Speech, and Signal Processing, vol.27, no.2,pp.113-120, 1979.」に記載されている。また、MMSE−STSA法は、文献「Y.Ephraimand D.Malah, “Speech enhancement using a minimummean-square error short-time spectral amplitude estimator,” IEEE Trans. Acoustics, Speech, and Signal Processing, vol.32, no.6,pp.1109-1121, 1984.」に記載されている。
【0053】
図1に戻って、補正係数算出部107は、補正係数β(f,t)を、各フレームにおいて、周波数毎に算出する。この補正係数β(f,t)は、上述のポストフィルタリング部109で行われるポストフィルタリング処理を補正するため、つまり目的音推定信号Z(f,t)に残留している雑音成分の利得と、雑音推定信号N(f,t)の利得を合わせるためのものである。補正係数算出部107は、図5に示すように、目的音強調部105で得られた目的音推定信号Z(f,t)および雑音推定部106で得られた雑音推定信号N(f,t)に基づいて、各フレームにおいて、周波数毎に補正係数β(f,t)を算出する。
【0054】
この実施の形態において、補正係数算出部107は、以下の(5)式に基づいて、補正係数β(f,t)を算出する。
【数3】

【0055】
補正係数算出部107は、現フレームの算出係数だけではフレーム毎に補正係数がばらつくので、前フレームの補正係数β(f,t-1)を使用して平滑化することで、安定した補正係数β(f,t)を求めている。(5)式の右辺第1項は、前フレームの補正係数β(f,t-1)をキャリーする項であり、(5)式の右辺第2項は、現フレームの係数を算出する項である。なお、αは平滑化係数であって、例えば、0.9あるいは0.95等の固定値とされ、前フレームに重みが置かれている。
【0056】
上述のポストフィルタリング部109は、スペクトルサブトラクション法の公知技術を使用して雑音抑圧信号Y(f,t)を得る場合、以下の(6)式のように補正係数β(f,t)を使用する。この場合、ポストフィルタリング部109は、雑音推定信号N(f,t)に補正係数β(f,t)を掛けて、当該雑音推定信号N(f,t)の補正を行う。この(6)式において、補正係数β(f,t)=1では、補正を行わないということになる。
Y(f,t)=Z(f,t)−β(f,t)*N(f,t) ・・・(6)
【0057】
補正係数変更部108は、各フレームにおいて、補正係数算出部107で算出された補正係数β(f,t)のうち、空間エイリアシングを起こしている帯域の係数を、特定の周波数にできるピークをつぶすように変更する。ポストフィルタリング部109は、実際には、補正係数算出部107で算出された補正係数β(f,t)そのものではなく、この変更後の補正係数β′(f,t)を用いる。
【0058】
上述したように、マイクロホン間隔が広い場合、指向特性の曲線が折り返す空間エイリアシングを起こし、目的音強調の指向特性は目的音の方位以外の音も強調するような指向特性となる。補正係数算出部107で算出される各周波数の補正係数のうち、空間エイリアシングを起こしている帯域では、特定の周波数にピークができる。この補正係数がそのまま使用されると、特定の周波数にできたピークが出力音に悪影響を及ぼし、音質を劣化させる。
【0059】
図6、図7は、それぞれ、図8に示すように、雑音(女性話者)が45°の方位に存在する場合の補正係数の一例を示している。図6は、マイクロホン間隔dが2cmの場合であって、空間エイリアシングがない場合を示している。これに対して、図7は、マイクロホン間隔dが20cmの場合であって、空間エイリアシングがある場合を示しており、特定の周波数にピークができている。
【0060】
上述の図6、図7の補正係数の一例は、雑音が1つの場合を示している。しかし、実際の環境においては、雑音は1つではない。図9、図10は、それぞれ、図11に示すように、雑音(女性話者)が45°の方位に存在し、さらに、雑音(男性話者)が−30°の方位に存在する場合の補正係数の一例を示している。
【0061】
図9は、マイクロホン間隔dが2cmの場合であって、空間エイリアシングがない場合を示している。これに対して、図10は、マイクロホン間隔dが20cmの場合であって、空間エイリアシングがある場合を示しており、特定の周波数にピークができている。この場合、雑音が1つの場合(図7参照)に比べて係数のピークは複雑になるが、雑音が1つの場合と同様に、係数の値が落ち込む周波数がある。
【0062】
補正係数変更部108は、補正係数算出部107で算出された補正係数β(f,t)をチェックし、係数の値が落ち込んでいる低域側の最初の周波数Fa(t)を見つける。補正係数変更部108は、図7、図10に示すように、Fa(t)以上の帯域では空間エイリアシングを起こしていると判断する。そして、補正係数変更部108は、上述したように、補正係数算出部107で算出された補正係数β(f,t)のうち、空間エイリアシングを起こしている帯域の係数を、特定の周波数にできるピークをつぶすように変更する。
【0063】
補正係数変更部108は、例えば、第1の方法、あるいは第2の方法を用いて、空間エイリアシングを起こしている帯域の補正係数を変更する。第1の方法を用いる場合、補正係数変更部108は、以下のようにして、各周波数の変更された補正係数β′(f,t)を得る。補正係数変更部108は、補正係数算出部107で算出された補正係数β(f,t)のうち、空間エイリアシングを起こしている帯域の補正係数を、図12、図13に示すように、周波数方向に平滑化して、各周波数の変更された補正係数β′(f,t)を得る。
【0064】
このように周波数方向に平滑化することで、過剰に現れた係数のピークをつぶすことができる。なお、平滑化の区間長は任意に設定でき、図12においては、矢印の長さを短くして区間長が短く設定されていることを表している。また、図13においては、矢印の長さを長くして区間長が長く設定されていることを表している。
【0065】
一方、第2の方法を用いる場合、補正係数変更部108は、補正係数算出部107で算出された補正係数β(f,t)のうち、空間エイリアシングを起こしている帯域の補正係数を、図14に示すように、1に置き換えて、変更された補正係数β′(f,t)を得る。なお、図14は対数表記であるので、1ではなく、0となっている。この第2の方法は、第1の方法において極端に平滑化した場合には補正係数が1に近づいていくことを利用している。この第2の方法は、平滑化の演算を省略できる利益がある。
【0066】
図15のフローチャートは、補正係数変更部108における処理(1フレーム分)の手順を示している。補正係数変更部108は、ステップST1において、処理を開始し、その後にステップST2の処理に移る。このステップST2において、補正係数変更部108は、補正係数算出部107から補正係数β(f,t)を取得する。そして、補正係数変更部108は、ステップST3において、現在のフレームtにおいて、各周波数fの係数を低域からサーチし、係数の値が落ち込んでいる低域側の最初の周波数Fa(t)を見つける。
【0067】
次に、補正係数変更部108は、ステップST4において、Fa(t)以上の帯域、つまり、空間エイリアシングを起こしている帯域を平滑化するか否かのフラグをチェックする。なお、このフラグは、予めユーザ操作によって、設定されている。フラグオン(ON)のとき、補正係数変更部108は、ステップST5において、補正係数算出部107で算出された補正係数β(f,t)のうち、Fa(t)以上の帯域の係数を周波数方向に平滑化して、各周波数fの変更された補正係数β′(f,t)を得る。補正係数変更部108は、このステップST5の処理の後、ステップST6において、処理を終了する。
【0068】
また、補正係数変更部108は、ステップST4でフラグオフ(off)のとき、ステップST7において、補正係数算出部107で算出された補正係数β(f,t)のうち、Fa(t)以上の帯域の補正係数を「1」に置き換えて、補正係数β′(f,t)を得る。補正係数変更部108は、このステップST7の処理の後、ステップST6において、処理を終了する。
【0069】
図1に戻って、逆高速フーリエ変換(IFFT)部110は、フレーム毎に、ポストフィルタリング部109から出力される雑音抑圧信号Y(f,t)に対して、逆高速フーリエ変換処理を施す。この逆高速フーリエ変換部110は、上述のフーリエ変換部104とは逆の処理を行い、周波数領域信号を時間領域信号に変換して、フレーム化信号を得る。
【0070】
波形合成部111は、逆高速フーリエ変換部110で得られた各フレームのフレーム化信号を合成して、時系列的に連続した音声信号に復元する。この波形合成部111は、フレーム合成部を構成している。この波形合成部111は、音声入力システム100の出力として、雑音抑圧された音声信号SAoutを出力する。
【0071】
図1に示す音声入力システム100の動作を簡単に説明する。所定の間隔をもって並べて配置されているマイクロホン101a,101bでは周囲音が集音されて観測信号が得られる。マイクロホン101a,101bで得られた観測信号は、A/D変換器102でアナログ信号からデジタル信号に変換された後に、フレーム分割部103に供給される。そして、フレーム分割部103では、マイクロホン101a,101bからの観測信号が、所定時間長のフレームに分割されて、フレーム化される。
【0072】
フレーム分割部103でフレーム化されて得られた各フレームのフレーム化信号は、高速フーリエ変換部104に順次供給される。高速フーリエ変換部104では、フレーム化信号に対して、高速フーリエ変換(FFT)処理が施されて、周波数領域の信号として、マイクロホン101aの観測信号X1(f,t)と、マイクロホン101bの観測信号をX2(f,t)が得られる。
【0073】
高速フーリエ変換部104で得られた観測信号X1(f,t),X2(f,t)は、目的音強調部105に供給される。この目的音強調部105では、観測信号X1(f,t),X2(f,t)に、従来周知のDS処理、あるいは適応ビームフォーマ処理などが施され、各フレームにおいて、周波数毎に目的音推定信号Z(f,t)が得られる。例えば、DS処理が用いられる場合には、観測信号X1(f,t)および観測信号X2(f,t)が加算処理された後に2で割られて目的音推定信号Z(f,t)とされる((3)式参照)。
【0074】
また、高速フーリエ変換部104で得られた観測信号X1(f,t),X2(f,t)は、雑音推定部106に供給される。この雑音推定部106では、観測信号X1(f,t),X2(f,t)に、従来周知のNBF処理、あるいは適応ビームフォーマ処理などが施され、各フレームにおいて、周波数毎に雑音推定信号N(f,t)が得られる。例えば、NBF処理が用いられる場合には、観測信号X1(f,t)および観測信号X2(f,t)が減算処理された後に2で割られて雑音推定信号N(f,t)とされる((4)式参照)。
【0075】
目的音強調部105で得られた目的音推定信号Z(f,t)および雑音推定部106で得られた雑音推定信号N(f,t)は、補正係数算出部107に供給される。補正係数算出部107では、目的音推定信号Z(f,t)および雑音推定信号N(f,t)に基づいて、ポストフィルタリング処理を補正するための補正係数β(f,t)が、各フレームにおいて、周波数毎に算出される((5)式参照)。
【0076】
補正係数算出部107で算出された補正係数β(f,t)は、補正係数変更部108に供給される。補正係数変更部108では、補正係数算出部107で算出された補正係数β(f,t)のうち、空間エイリアシングを起こしている帯域の係数が、特定の周波数にできるピークをつぶすように変更されて、変更後の補正係数β′(f,t)が得られる。
【0077】
この補正係数変更部108では、補正係数算出部107で算出された補正係数β(f,t)がチェックされて、係数の値が落ち込んでいる低域側の最初の周波数Fa(t)が見つけられ、Fa(t)以上の帯域では空間エイリアシングを起こしていると判断される。そして、補正係数変更部108では、補正係数算出部107で算出された補正係数β(f,t)のうち、Fa(t)以上の帯域の係数が、特定の周波数にできるピークをつぶすように変更される。
【0078】
例えば、補正係数算出部107で算出された補正係数β(f,t)のうち、Fa(t)以上の帯域の補正係数が、周波数方向に平滑化されて、各周波数の変更された補正係数β′(f,t)が得られる(図12、図13参照)。また、例えば、補正係数算出部107で算出された補正係数β(f,t)のうち、Fa(t)以上の帯域の補正係数が1に置き換えられて、変更された補正係数β′(f,t)が得られる(図14参照)。
【0079】
目的音強調部105で得られた目的音推定信号Z(f,t)および雑音推定部106で得られた雑音推定信号N(f,t)は、ポストフィルタリング部109に供給される。また、このポストフィルタリング部109には、補正係数変更部108で変更された補正係数β′(f,t)が供給される。このポストフィルタリング部109では、目的音推定信号Z(f,t)に残留している雑音成分が、雑音推定信号N(f,t)を用いたポストフィルタリング処理によって除去される。補正係数β′(f,t)は、このポストフィルタリング処理を補正するため、つまり目的音推定信号Z(f,t)に残留している雑音成分の利得と、雑音推定信号N(f,t)の利得を合わせるために用いられる。
【0080】
このポストフィルタリング部109では、例えば、スペクトルサブトラクション法、MMSE−STSA法などの公知技術が使用されて、雑音抑圧信号Y(f,t)が得られる。例えば、スペクトルサブトラクション法が使用される場合、雑音抑圧信号Y(f,t)は、以下の(7)式に基づいて求められる。
Y(f,t)=Z(f,t)−β′(f,t)*N(f,t) ・・・(7)
【0081】
ポストフィルタリング部109からフレーム毎に出力される各周波数の雑音抑圧信号Y(f,t)は、逆高速フーリエ変換部110に供給される。この逆高速フーリエ変換部110では、フレーム毎に、各周波数の雑音抑圧信号Y(f,t)に対して、逆高速フーリエ変換処理が施され、時間領域信号に変換されたフレーム化信号が得られる。各フレームのフレーム化信号は、波形合成部111に順次供給される。この波形合成部111では、各フレームのフレーム化信号が合成されて、時系列的に連続した、音声入力システム100の出力としての、雑音抑圧された音声信号SAoutが得られる。
【0082】
上述したように、図1に示す音声入力システム100においては、補正係数算出部107で算出された補正係数β(f,t)が補正係数変更部108により変更される。この場合、補正係数算出部107で算出された補正係数β(f,t)のうち、空間エイリアシングを起こしている帯域(Fa(t)以上の帯域)の係数が、特定の周波数にできるピークをつぶすように変更されて、変更された補正係数β′(f,t)が得られる。ポストフィルタリング部109では、この変更された補正係数β′(f,t)が用いられる。
【0083】
そのため、空間エイリアシングを起こしている帯域の特定の周波数にできる係数のピークが出力音に及ぼす悪影響を軽減でき、音質の劣化を抑制できる。これにより、マイクロホン間隔に依存しない雑音除去処理が可能となる。したがって、マイクロホン101a,101bがヘッドホンに設置されているノイズキャンセル用のマイクロホンであって、マイクロホン間隔が広い場合にあっても、効率よく雑音の補正を行うことができ、歪みの少ない良好な雑音除去処理が行われる。
【0084】
<2.第2の実施の形態>
[音声入力システムの構成例]
図16は、第2の実施の形態としての音声入力システム100Aの構成例を示している。この音声入力システム100Aも、上述の図1に示す音声入力システム100と同様に、ノイズキャンセルヘッドホンの左右のヘッドホンに設置されているノイズキャンセル用のマイクロホンを用いて音声入力を行うシステムである。この図16において、図1と対応する部分には同一符号を付し、適宜、その詳細説明は省略する。
【0085】
この音声入力システム100Aは、マイクロホン101a,101bと、A/D変換器102と、フレーム分割部103と、高速フーリエ変換(FFT)部104と、目的音強調部105と、雑音推定部106を有している。また、この音声入力システム100Aは、補正係数算出部107と、ポストフィルタリング部109と、逆高速フーリエ変換(IFFT)部110と、波形合成部111と、周囲雑音状態推定部112と、補正係数変更部113を有している。
【0086】
周囲雑音状態推定部112は、マイクロホン101a,101bの観測信号を処理して周囲雑音の音源数情報を得る。周囲雑音状態推定部112は、以下の(8)式に基づいて、フレーム毎に、マイクロホン101aの観測信号およびマイクロホン101bの観測信号の相関係数corrを算出し、周囲雑音の音源数情報とする。この(8)式において、x1(n)は、マイクロホン101aの時間軸データを示し、x2(n)は、マイクロホン101bの時間軸データを示し、Nはサンプル数を示している。
【0087】
【数4】

【0088】
図17の棒グラフは、雑音の音源数と、相関係数corrとの関係の一例を示している。一般に、音源数が増えると、マイクロホン101a,101bの観測信号の相関が低下していく。理論的には、音源数が増えていくにつれて相関係数corrは0に近づいていく。そのため、相関係数corrにより周囲雑音の音源数を推定することができる。
【0089】
図16に戻って、補正係数変更部113は、各フレームにおいて、周囲雑音状態推定部112で得られた相関係数corr(周囲雑音の音源数情報)に基づいて、補正係数算出部107で算出された補正係数β(f,t)を変更する。すなわち、補正係数変更部113は、音源数が多い程平滑化フレーム数を大きくして、補正係数算出部107で算出された係数をフレーム方向に平滑化して、変更された補正係数β′(f,t)を得る。ポストフィルタリング部109は、実際には、補正係数算出部107で算出された補正係数β(f,t)そのものではなく、この変更後の補正係数β′(f,t)を用いる。
【0090】
図18は、図19に示すように、45°の方位に雑音が存在する場合の補正係数の一例(マイクロホン間隔dは2cm)を示している。これに対して、図20は、図21に示すように、複数の方位に雑音が存在する場合の補正係数の一例(マイクロホン間隔dは2cm)を示している。このようにマイクロホン間隔が空間エイリアシングを起こさないような適正な間隔であったとしても、雑音の音源数が増えると、補正係数が安定しなくなる。これにより、図22に示すように、補正係数が、フレーム毎に、ランダムに変化する。この補正係数がそのまま使用されると、出力音に悪影響を及ぼし、音質を劣化させる。
【0091】
補正係数変更部113は、各フレームにおいて、周囲雑音状態推定部112で得られた相関係数corr(周囲雑音の音源数情報)に基づいて、平滑化フレーム数γを計算する。補正係数変更部113は、例えば、図23に示すような、平滑化フレーム数算出関数により、平滑化フレーム数γを求める。この場合、マイクロホン101a,101bの観測信号の相関が大きいとき、つまり相関係数corrの値が大きいときは、平滑化フレーム数γは小さく求められる。
【0092】
一方、マイクロホン101a,101bの観測信号の相関が小さいとき、つまり相関係数corrの値が小さいときは、平滑化フレーム数γは大きく求められる。なお、補正係数変更部113は、実際に演算処理を行う必要はなく、相関係数corrと平滑化フレーム数γとの対応関係が記憶されたテーブルから、相関係数corrにより平滑化フレーム数γを読み出すようにしてもよい。
【0093】
補正係数変更部113は、各フレームにおいて、補正係数算出部107で算出された補正係数β(f,t)を、図24に示すように、フレーム方向(時間方向)に平滑化して、各フレームの変更された補正係数β′(f,t)を得る。この場合、上述したように求められた平滑化フレーム数γで平滑化が行われる。このように変更された各フレームの補正係数がβ′(f,t)は、フレーム方向(時間方向)になだらかに変化するものとなる。
【0094】
図25のフローチャートは、周囲雑音状態推定部112および補正係数変更部113における処理(1フレーム分)の手順を示している。各部は、ステップST11において、処理を開始する。その後に、ステップST12において、周囲雑音状態推定部112は、マイクロホン101a,101bの観測信号のデータフレームx1(t),x2(t)を取得する。そして、周囲雑音状態推定部112は、ステップST13において、マイクロホン101a,101bの観測信号の相関の度合いを示す相関係数corr(t)を算出する((8)式参照)。
【0095】
次に、補正係数変更部113は、ステップST14において、ステップST13で周囲雑音状態推定部112で計算された相関係数corr(t)の値を用いて、平滑化フレーム数算出関数により(図23参照)、平滑化フレーム数γを算出する。そして、補正係数変更部113は、ステップST15において、補正係数算出部107で算出された補正係数β(f,t)を、ステップST14で計算した平滑化フレーム数γで平滑化して、変更された補正係数β′(f,t)を得る。各部は、このステップST15の処理の後、ステップST16において、処理を終了する。
【0096】
図16に示す音声入力システム100Aのその他は、詳細説明は省略するが、図1に示す音声入力システム100と同様に構成されている。
【0097】
図16に示す音声入力システム100Aの動作を簡単に説明する。所定の間隔をもって並べて配置されているマイクロホン101a,101bでは周囲音が集音されて観測信号が得られる。マイクロホン101a,101bで得られた観測信号は、A/D変換器102でアナログ信号からデジタル信号に変換された後に、フレーム分割部103に供給される。そして、フレーム分割部103では、マイクロホン101a,101bからの観測信号が、所定時間長のフレームに分割されて、フレーム化される。
【0098】
フレーム分割部103でフレーム化されて得られた各フレームのフレーム化信号は、高速フーリエ変換部104に順次供給される。高速フーリエ変換部104では、フレーム化信号に対して、高速フーリエ変換(FFT)処理が施されて、周波数領域の信号として、マイクロホン101aの観測信号X1(f,t)と、マイクロホン101bの観測信号をX2(f,t)が得られる。
【0099】
高速フーリエ変換部104で得られた観測信号X1(f,t),X2(f,t)は、目的音強調部105に供給される。この目的音強調部105では、観測信号X1(f,t),X2(f,t)に、従来周知のDS処理、あるいは適応ビームフォーマ処理などが施され、各フレームにおいて、周波数毎に目的音推定信号Z(f,t)が得られる。例えば、DS処理が用いられる場合には、観測信号X1(f,t)および観測信号X2(f,t)が加算処理された後に2で割られて目的音推定信号Z(f,t)とされる((3)式参照)。
【0100】
また、高速フーリエ変換部104で得られた観測信号X1(f,t),X2(f,t)は、雑音推定部106に供給される。この雑音推定部106では、観測信号X1(f,t),X2(f,t)に、従来周知のNBF処理、あるいは適応ビームフォーマ処理などが施され、各フレームにおいて、周波数毎に雑音推定信号N(f,t)が得られる。例えば、NBF処理が用いられる場合には、観測信号X1(f,t)および観測信号X2(f,t)が減算処理された後に2で割られて雑音推定信号N(f,t)とされる((4)式参照)。
【0101】
目的音強調部105で得られた目的音推定信号Z(f,t)および雑音推定部106で得られた雑音推定信号N(f,t)は、補正係数算出部107に供給される。補正係数算出部107では、目的音推定信号Z(f,t)および雑音推定信号N(f,t)に基づいて、ポストフィルタリング処理を補正するための補正係数β(f,t)が、各フレームにおいて、周波数毎に算出される((5)式参照)。
【0102】
また、フレーム分割部103でフレーム化されて得られた各フレームのフレーム化信号、すなわちマイクロホン101a,101bの観測信号x1(n),x2(n)は、周囲雑音状態推定部112に供給される。すなわち、周囲雑音状態推定部112では、マイクロホン101a,101bの観測信号x1(n),x2(n)の相関係数corrが求められ、周囲雑音の音源数情報とされる((8)式参照)。
【0103】
補正係数算出部107で算出された補正係数β(f,t)は、補正係数変更部113に供給される。また、この補正係数変更部113には、周囲雑音状態推定部112で得られた相関係数corrも供給される。補正係数変更部113では、各フレームにおいて、周囲雑音状態推定部112で得られた相関係数corr(周囲雑音の音源数情報)に基づいて、補正係数算出部107で算出された補正係数β(f,t)が変更される。
【0104】
まず、補正係数変更部113では、相関係数corrに基づいて、平滑化フレーム数が求められる。この場合、平滑化フレーム数γは、相関係数corrの値が大きいときは小さく求められ、相関係数corrの値が小さいときは大きく求められる(図23参照)。次に、補正係数変更部113では、補正係数算出部107で算出された補正係数β(f,t)が、平滑化フレーム数γにより、フレーム方向(時間方向)に平滑化されて、各フレームの変更された補正係数β′(f,t)が得られる(図24参照)。
【0105】
目的音強調部105で得られた目的音推定信号Z(f,t)および雑音推定部106で得られた雑音推定信号N(f,t)は、ポストフィルタリング部109に供給される。また、このポストフィルタリング部109には、補正係数変更部113で変更された補正係数β′(f,t)が供給される。このポストフィルタリング部109では、目的音推定信号Z(f,t)に残留している雑音成分が、雑音推定信号N(f,t)を用いたポストフィルタリング処理によって除去される。補正係数β′(f,t)は、このポストフィルタリング処理を補正するため、つまり目的音推定信号Z(f,t)に残留している雑音成分の利得と、雑音推定信号N(f,t)の利得を合わせるために用いられる。
【0106】
このポストフィルタリング部109では、例えば、スペクトルサブトラクション法、MMSE−STSA法などの公知技術が使用されて、雑音抑圧信号Y(f,t)が得られる。例えば、スペクトルサブトラクション法が使用される場合、雑音抑圧信号Y(f,t)は、以下の(9)式に基づいて求められる。
Y(f,t)=Z(f,t)−β′(f,t)*N(f,t) ・・・(9)
【0107】
ポストフィルタリング部109からフレーム毎に出力される各周波数の雑音抑圧信号Y(f,t)は、逆高速フーリエ変換部110に供給される。この逆高速フーリエ変換部110では、フレーム毎に、各周波数の雑音抑圧信号Y(f,t)に対して、逆高速フーリエ変換処理が施され、時間領域信号に変換されたフレーム化信号が得られる。各フレームのフレーム化信号は、波形合成部111に順次供給される。この波形合成部111では、各フレームのフレーム化信号が合成されて、時系列的に連続した、音声入力システム100の出力としての、雑音抑圧された音声信号SAoutが得られる。
【0108】
上述したように、図16に示す音声入力システム100Aにおいては、補正係数算出部107で算出された補正係数β(f,t)が補正係数変更部113により変更される。この場合、周囲雑音状態推定部112では、マイクロホン101a,101bの観測信号x1(n),x2(n)の相関係数corrが周囲雑音の音源数情報として得られる。そして、補正係数変更部113では、この音源数情報に基づいて、音源数が大きくなる程大きくなるように平滑化フレーム数γが求められ、補正係数β(f,t)がフレーム方向に平滑化されて、各フレームの変更された補正係数β′(f,t)が得られる。ポストフィルタリング部109では、この変更された補正係数β′(f,t)が用いられる。
【0109】
そのため、周囲に無数の雑音源がある状況において、補正係数のフレーム方向(時間方向)の変化を抑制して出力音に及ぼす影響を軽減できる。これにより、周囲の雑音の状況に合わせた雑音除去処理が可能となる。したがって、マイクロホン101a,101bがヘッドホンに設置されているノイズキャンセル用のマイクロホンであって、周囲に多くの雑音音源がある場合にあっても、効率よく雑音の補正を行うことができ、歪みの少ない良好な雑音除去処理が行われる。
【0110】
<3.第3の実施の形態>
[音声入力システムの構成例]
図26は、第3の実施の形態としての音声入力システム100Bの構成例を示している。この音声入力システム100Bも、上述の図1、図16に示す音声入力システム100,100Aと同様に、ノイズキャンセルヘッドホンの左右のヘッドホンに設置されているノイズキャンセル用のマイクロホンを用いて音声入力を行うシステムである。この図26において、図1、図16と対応する部分には同一符号を付し、適宜、その詳細説明は省略する。
【0111】
この音声入力システム100Bは、マイクロホン101a,101bと、A/D変換器102と、フレーム分割部103と、高速フーリエ変換(FFT)部104と、目的音強調部105と、雑音推定部106と、補正係数算出部107を有している。また、この音声入力システム100Bは、補正係数変更部108と、ポストフィルタリング部109と、逆高速フーリエ変換(IFFT)部110と、波形合成部111と、周囲雑音状態推定部112と、補正係数変更部113を有している。
【0112】
補正係数変更部108は、各フレームにおいて、補正係数算出部107で算出された補正係数β(f,t)のうち、空間エイリアシングを起こしている帯域の係数を、特定の周波数にできるピークをつぶすように変更して、補正係数β′(f,t)を得る。詳細説明は省略するが、この補正係数変更部108は、図1に示す音声入力システム100の補正係数変更部108と同様のものである。この補正係数変更部108は、第1の補正係数変更部を構成している。
【0113】
周囲雑音状態推定部112は、フレーム毎に、マイクロホン101aの観測信号およびマイクロホン101bの観測信号の相関係数corrを算出し、周囲雑音の音源数情報とする。詳細説明は省略するが、この周囲雑音状態推定部112は、図16に示す音声入力システム100Aの周囲雑音状態推定部112と同様のものである。
【0114】
補正係数変更部113は、各フレームにおいて、周囲雑音状態推定部112で得られた相関係数corr(周囲雑音の音源数情報)に基づいて、補正係数変更部108で変更された補正係数β′(f,t)をさらに変更して、補正係数β″(f,t)を得る。詳細説明は省略するが、この補正係数変更部113は、図16に示す音声入力システム100Aの補正係数変更部113と同様のものである。この補正係数変更部113は、第2の補正係数変更部を構成している。ポストフィルタリング部109は、実際には、補正係数算出部107で算出された補正係数β(f,t)そのものではなく、この変更後の補正係数β″(f,t)を用いる。
【0115】
図26に示す音声入力システム100Bのその他は、詳細説明は省略するが、図1、図16に示す音声入力システム100,100Aと同様に構成されている。
【0116】
図27のフローチャートは、補正係数変更部108、周囲雑音状態推定部112および補正係数変更部113における処理(1フレーム分)の手順を示している。各部は、ステップST21において、処理を開始する。その後、ステップST22において、補正係数変更部108は、補正係数算出部107から補正係数β(f,t)を取得する。そして、補正係数変更部108は、ステップST23において、現在のフレームtにおいて、各周波数fの係数を低域からサーチし、係数の値が落ち込んでいる低域側の最初の周波数Fa(t)を見つける。
【0117】
次に、補正係数変更部108は、ステップST24において、Fa(t)以上の帯域、つまり、空間エイリアシングを起こしている帯域を平滑化するか否かのフラグをチェックする。なお、このフラグは、予めユーザ操作によって、設定されている。フラグオンのとき、補正係数変更部108は、ステップST25において、補正係数算出部107で算出された補正係数β(f,t)のうち、Fa(t)以上の帯域の係数を周波数方向に平滑化して、各周波数fの変更された補正係数β′(f,t)を得る。また、補正係数変更部108は、ステップST24でフラグオフのとき、ステップST27において、補正係数算出部107で算出された補正係数β(f,t)のうち、Fa(t)以上の帯域の補正係数を「1」に置き換えて、補正係数β′(f,t)を得る。
【0118】
ステップST25、あるいはステップST26の処理の後、周囲雑音状態推定部112は、ステップST27において、マイクロホン101a,101bの観測信号のデータフレームx1(t),x2(t)を取得する。そして、周囲雑音状態推定部112は、ステップST28において、マイクロホン101a,101bの観測信号の相関の度合いを示す相関係数corr(t)を算出する((8)式参照)。
【0119】
次に、補正係数変更部113は、ステップST29において、ステップST28で周囲雑音状態推定部112によって計算された相関係数corr(t)の値を用いて、平滑化フレーム数算出関数により(図23参照)、平滑化フレーム数γを算出する。そして、補正係数変更部113は、ステップST30において、補正係数変更部108で変更された補正係数β′(f,t)を、ステップST29で計算した平滑化フレーム数γで平滑化して、変更された補正係数β″(f,t)を得る。各部は、このステップST30の処理の後、ステップST31において、処理を終了する。
【0120】
図26に示す音声入力システム100Bの動作を簡単に説明する。所定の間隔をもって並べて配置されているマイクロホン101a,101bでは周囲音が集音されて観測信号が得られる。マイクロホン101a,101bで得られた観測信号は、A/D変換器102でアナログ信号からデジタル信号に変換された後に、フレーム分割部103に供給される。そして、フレーム分割部103では、マイクロホン101a,101bからの観測信号が、所定時間長のフレームに分割されて、フレーム化される。
【0121】
フレーム分割部103でフレーム化されて得られた各フレームのフレーム化信号は、高速フーリエ変換部104に順次供給される。高速フーリエ変換部104では、フレーム化信号に対して、高速フーリエ変換(FFT)処理が施されて、周波数領域の信号として、マイクロホン101aの観測信号X1(f,t)と、マイクロホン101bの観測信号をX2(f,t)が得られる。
【0122】
高速フーリエ変換部104で得られた観測信号X1(f,t),X2(f,t)は、目的音強調部105に供給される。この目的音強調部105では、観測信号X1(f,t),X2(f,t)に、従来周知のDS処理、あるいは適応ビームフォーマ処理などが施され、各フレームにおいて、周波数毎に目的音推定信号Z(f,t)が得られる。例えば、DS処理が用いられる場合には、観測信号X1(f,t)および観測信号X2(f,t)が加算処理された後に2で割られて目的音推定信号Z(f,t)とされる((3)式参照)。
【0123】
また、高速フーリエ変換部104で得られた観測信号X1(f,t),X2(f,t)は、雑音推定部106に供給される。この雑音推定部106では、観測信号X1(f,t),X2(f,t)に、従来周知のNBF処理、あるいは適応ビームフォーマ処理などが施され、各フレームにおいて、周波数毎に雑音推定信号N(f,t)が得られる。例えば、NBF処理が用いられる場合には、観測信号X1(f,t)および観測信号X2(f,t)が減算処理された後に2で割られて雑音推定信号N(f,t)とされる((4)式参照)。
【0124】
目的音強調部105で得られた目的音推定信号Z(f,t)および雑音推定部106で得られた雑音推定信号N(f,t)は、補正係数算出部107に供給される。補正係数算出部107では、目的音推定信号Z(f,t)および雑音推定信号N(f,t)に基づいて、ポストフィルタリング処理を補正するための補正係数β(f,t)が、各フレームにおいて、周波数毎に算出される((5)式参照)。
【0125】
補正係数算出部107で算出された補正係数β(f,t)は、補正係数変更部108に供給される。補正係数変更部108では、補正係数算出部107で算出された補正係数β(f,t)のうち、空間エイリアシングを起こしている帯域の係数が、特定の周波数にできるピークをつぶすように変更されて、変更後の補正係数β′(f,t)が得られる。
【0126】
また、フレーム分割部103でフレーム化されて得られた各フレームのフレーム化信号、すなわち、マイクロホン101a,101bの観測信号x1(n),x2(n)は、周囲雑音状態推定部112に供給される。周囲雑音状態推定部112では、マイクロホン101a,101bの観測信号x1(n),x2(n)の相関係数corrが求められ、周囲雑音の音源数情報としての相関係数corrが得られる((8)式参照)。
【0127】
補正係数変更部108で得られた変更後の補正係数β′(f,t)は、さらに、補正係数変更部113に供給される。また、この補正係数変更部113には、周囲雑音状態推定部112で得られた相関係数corrも供給される。補正係数変更部113では、各フレームにおいて、周囲雑音状態推定部112で得られた相関係数corr(周囲雑音の音源数情報)に基づいて、補正係数算出部107で得られた補正係数β′(f,t)がさらに変更される。
【0128】
まず、補正係数変更部113では、相関係数corrに基づいて、平滑化フレーム数が求められる。この場合、平滑化フレーム数γは、相関係数corrの値が大きいときは小さく求められ、相関係数corrの値が小さいときは大きく求められる(図23参照)。次に、補正係数変更部113では、補正係数算出部107で得られた補正係数β′(f,t)が、平滑化フレーム数γにより、フレーム方向(時間方向)に平滑化されて、各フレームの変更された補正係数β″(f,t)が得られる(図24参照)。
【0129】
目的音強調部105で得られた目的音推定信号Z(f,t)および雑音推定部106で得られた雑音推定信号N(f,t)は、ポストフィルタリング部109に供給される。また、このポストフィルタリング部109には、補正係数変更部113で変更された補正係数β″(f,t)が供給される。このポストフィルタリング部109では、目的音推定信号Z(f,t)に残留している雑音成分が、雑音推定信号N(f,t)を用いたポストフィルタリング処理によって除去される。補正係数β″(f,t)は、このポストフィルタリング処理を補正するため、つまり目的音推定信号Z(f,t)に残留している雑音成分の利得と、雑音推定信号N(f,t)の利得を合わせるために用いられる。
【0130】
このポストフィルタリング部109では、例えば、スペクトルサブトラクション法、MMSE−STSA法などの公知技術が使用されて、雑音抑圧信号Y(f,t)が得られる。例えば、スペクトルサブトラクション法が使用される場合、雑音抑圧信号Y(f,t)は、以下の(10)式に基づいて求められる。
Y(f,t)=Z(f,t)−β″(f,t)*N(f,t) ・・・(10)
【0131】
ポストフィルタリング部109からフレーム毎に出力される各周波数の雑音抑圧信号Y(f,t)は、逆高速フーリエ変換部110に供給される。この逆高速フーリエ変換部110では、フレーム毎に、各周波数の雑音抑圧信号Y(f,t)に対して、逆高速フーリエ変換処理が施され、時間領域信号に変換されたフレーム化信号が得られる。各フレームのフレーム化信号は、波形合成部111に順次供給される。この波形合成部111では、各フレームのフレーム化信号が合成されて、時系列的に連続した、音声入力システム100の出力としての、雑音抑圧された音声信号SAoutが得られる。
【0132】
上述したように、図26に示す音声入力システム100Bにおいては、補正係数算出部107で算出された補正係数β(f,t)が補正係数変更部108により変更される。この場合、補正係数算出部107で算出された補正係数β(f,t)のうち、空間エイリアシングを起こしている帯域(Fa(t)以上の帯域)の係数が、特定の周波数にできるピークをつぶすように変更されて、変更された補正係数β′(f,t)が得られる。
【0133】
また、図26に示す音声入力システム100Bにおいては、補正係数変更部108で変更された補正係数β′(f,t)が補正係数変更部113によりさらに変更される。この場合、周囲雑音状態推定部112では、マイクロホン101a,101bの観測信号x1(n),x2(n)の相関係数corrが周囲雑音の音源数情報として得られる。そして、補正係数変更部113では、この音源数情報に基づいて、音源数が大きくなる程大きくなるように平滑化フレーム数γが求められ、補正係数β′(f,t)がフレーム方向に平滑化されて、各フレームの変更された補正係数β″(f,t)が得られる。ポストフィルタリング部109では、この変更された補正係数β″(f,t)が用いられる。
【0134】
そのため、空間エイリアシングを起こしている帯域の特定の周波数にできる係数のピークが出力音に及ぼす悪影響を軽減でき、音質の劣化を抑制できる。これにより、マイクロホン間隔に依存しない雑音除去処理が可能となる。したがって、マイクロホン101a,101bがヘッドホンに設置されているノイズキャンセル用のマイクロホンであって、マイクロホン間隔が広い場合にあっても、効率よく雑音の補正を行うことができ、歪みの少ない良好な雑音除去処理が行われる。
【0135】
また、周囲に無数の雑音源がある状況において、補正係数のフレーム方向(時間方向)の変化を抑制して出力音に及ぼす影響を軽減できる。これにより、周囲の雑音の状況に合わせた雑音除去処理が可能となる。したがって、マイクロホン101a,101bがヘッドホンに設置されているノイズキャンセル用のマイクロホンであって、周囲に多くの雑音音源がある場合にあっても、効率よく雑音の補正を行うことができ、歪みの少ない良好な雑音除去処理が行われる。
【0136】
<4.第4の実施の形態>
[音声入力システムの構成例]
図28は、第4の実施の形態としての音声入力システム100Cの構成例を示している。この音声入力システム100Cも、図1、図16、図26に示す音声入力システム100,100A,100Bと同様に、ノイズキャンセルヘッドホンの左右のヘッドホンに設置されているノイズキャンセル用のマイクロホンを用いて音声入力を行うシステムである。この図28において、図26と対応する部分には同一符号を付し、適宜、その詳細説明は省略する。
【0137】
この音声入力システム100Cは、マイクロホン101a,101bと、A/D変換器102と、フレーム分割部103と、高速フーリエ変換(FFT)部104と、目的音強調部105と、雑音推定部106と、補正係数算出部107Cを有している。また、この音声入力システム100Cは、補正係数変更部108,113と、ポストフィルタリング部109と、逆高速フーリエ変換(IFFT)部110と、波形合成部111と、周囲雑音状態推定部112と、目的音区間検出部114を有している。
【0138】
目的音区間検出部114は、目的音がある区間を検出する。目的音区間検出部114は、図29に示すように、目的音強調部105で得られた目的音推定信号Z(f,t)および雑音推定部106で得られた雑音推定信号N(f,t)に基づき、各フレームにおいて、目的音区間であるか判断して、目的音区間情報を出力する。
【0139】
目的音区間検出部114は、目的音推定信号Z(f,t)と雑音推定信号N(f,t)のエネルギー比を求める。以下の(11)式はエネルギー比を示している。
【数5】

【0140】
目的音区間検出部114は、このエネルギー比が閾値(threshould)より大きいか否かを判断する。そして、目的音区間検出部114は、以下の(12)式に示すように、エネルギー比が閾値より大きいときは、目的音区間であると判断して目的音区間検出情報として“1”を出力し、それ以外のときは、目的音区間ではないと判断して“0”を出力する。
【0141】
【数6】

【0142】
この場合、目的音は図30に示すように正面にあり、目的音がある場合には、目的音推定信号Z(f,t)と雑音推定信号N(f,t)の利得の差が大きく、雑音だけの場合には、それらの利得の差が小さいこと、が利用されている。なお、マイクロホン間隔が既知で、目的音が正面でなくて任意の方向である場合も同様に処理できる。
【0143】
補正係数算出部107Cは、図1、図16、図26の音声入力システム100,100A,100Bの補正係数算出部107と同様にして、補正係数β(f,t)を算出する。ただし、補正係数算出部107Cは、補正係数算出部107とは異なり、目的音区間検出部114からの目的音区間情報に基づいて、補正係数β(f,t)を算出するか否かを決定する。すなわち、補正係数算出部107Cは、目的音がないフレームでは補正係数β(f,t)を新たに算出して出力し、その他のフレームでは補正係数β(f,t)を算出せずに、前のフレームと同じ補正係数β(f,t)をそのまま出力する。
【0144】
図28に示す音声入力システム100Cのその他は、詳細説明は省略するが、図26に示す音声入力システム100Bと同様に構成され、同様に動作をする。そのため、この音声入力システム100Cにおいては、図26に示す音声入力システム100Bと同様の効果を得ることができる。
【0145】
また、この音声入力システム100Cにおいては、さらに、補正係数算出部107Cで、目的音がない区間で補正係数β(f,t)の算出が行われる。この場合、目的音推定信号Z(f,t)には雑音成分のみが含まれるため、目的音の影響を受けることなく、補正係数β(f,t)を精度よく算出でき、結果として、良好な雑音除去処理が行われる。
【0146】
<5.変形例>
なお、上述実施の形態において、マイクロホン101a,101bは、ノイズキャンセルヘッドホンの左右のヘッドホンにそれぞれ設置されているノイズキャンセル用のマイクロホンである場合を示した。しかし、このマイクロホン101a,101bが、パーソナルコンピュータ本体に設置されているマイクロホンなどであることも考えられる。
【0147】
また、図1、図16に示す音声入力システム100,100Aにおいても、図28に示す音声入力システム100Cと同様に目的音区間検出部114を設け、補正係数算出部107は目的音がないフレームでのみ補正係数β(f,t)の算出を行うようにしてもよい。
【産業上の利用可能性】
【0148】
この発明は、ノイズキャンセルヘッドホンに設置されたノイズキャンセル用のマイクロホン、あるいはパーソナルコンピュータに設置されたマイクロホン等を利用して通話をするシステムに適用できる。
【符号の説明】
【0149】
100,100A,100B,100C・・・音声入力システム
101a,101b・・・マイクロホン
102・・・A/D変換器
103・・・フレーム分割部
104・・・高速フーリエ変換(FFT)部
105・・・目的音強調部
106・・・雑音推定部(目的音抑圧部)
107,107C・・・補正係数算出部
108・・・補正係数変更部
109・・・ポストフィルタリング部
110・・・逆高速フーリエ変換(IFFT)部
111・・・波形合成部
112・・・周囲雑音状態推定部
113・・・補正係数変更部
114・・・目的音区間検出部

【特許請求の範囲】
【請求項1】
所定の間隔をもって配置された第1のマイクロホンおよび第2のマイクロホンの観測信号に目的音強調処理を施して目的音推定信号を得る目的音強調部と、
上記第1のマイクロホンおよび上記第2のマイクロホンの観測信号に雑音推定処理を施して雑音推定信号を得る雑音推定部と、
上記目的音強調部で得られた目的音推定信号に残留している雑音成分を、上記雑音推定部で得られた雑音推定信号を用いたポストフィルタリング処理によって除去するポストフィルタリング部と、
上記目的音強調部で得られた目的音推定信号および上記雑音推定部で得られた雑音推定信号に基づいて、上記ポストフィルタリング部で行われるポストフィルタリング処理を補正するための補正係数を周波数毎に算出する補正係数算出部と、
上記補正係数算出部で算出された補正係数のうち、空間エイリアシングを起こしている帯域の補正係数を、特定の周波数にできるピークをつぶすように変更する補正係数変更部と
を備える雑音除去装置。
【請求項2】
上記補正係数変更部は、
上記空間エイリアシングを起こしている帯域において、上記補正係数算出部で算出された補正係数を周波数方向に平滑化して各周波数の変更された補正係数を得る
請求項1に記載の雑音除去装置。
【請求項3】
上記補正係数変更部は、
上記空間エイリアシングを起こしている帯域において、各周波数の補正係数を1に変更する
請求項1に記載の雑音除去装置。
【請求項4】
上記目的音強調部で得られた目的音推定信号および上記雑音推定部で得られた雑音推定信号に基づいて、目的音がある区間を検出する目的音区間検出部をさらに備え、
上記補正係数算出部は、
上記目的音区間検出部で得られた目的音区間情報に基づいて、目的音がない区間で上記補正係数の算出を行う
請求項1に記載の雑音除去装置。
【請求項5】
上記目的音検出部は、
上記目的音推定信号と上記雑音推定信号のエネルギー比を求め、該エネルギー比が閾値より大きいときは目的音区間と判断する
請求項4に記載の雑音除去装置。
【請求項6】
上記補正係数算出部は、
f番目の周波数のフレームtの補正係数β(f,t)を、該f番目の周波数のフレームtの目的音推定信号Z(f,t)および雑音推定信号N(f,t)と、f番目の周波数のフレームt−1の補正係数β(f,t-1)を用いて、
【数1】

の式で算出する
請求項1に記載の雑音除去装置。
【請求項7】
所定の間隔をもって配置された第1のマイクロホンおよび第2のマイクロホンの観測信号に目的音強調処理を施して目的音推定信号を得る目的音強調ステップと、
上記第1のマイクロホンおよび上記第2のマイクロホンの観測信号に雑音推定処理を施して雑音推定信号を得る雑音推定ステップと、
上記目的音強調ステップで得られた目的音推定信号に残留している雑音成分を、上記雑音推定ステップで得られた雑音推定信号を用いたポストフィルタリング処理によって除去するポストフィルタリングステップと、
上記目的音強調ステップで得られた目的音推定信号および上記雑音推定ステップで得られた雑音推定信号に基づいて、上記ポストフィルタリングステップで行われるポストフィルタリング処理を補正するための補正係数を周波数毎に算出する補正係数算出ステップと、
上記補正係数算出ステップで算出された補正係数のうち、空間エイリアシングを起こしている帯域の補正係数を、特定の周波数にできるピークをつぶすように変更する補正係数変更ステップと
を備える雑音除去方法。
【請求項8】
所定の間隔をもって配置された第1のマイクロホンおよび第2のマイクロホンの観測信号に目的音強調処理を施して目的音推定信号を得る目的音強調部と、
上記第1のマイクロホンおよび上記第2のマイクロホンの観測信号に雑音推定処理を施して雑音推定信号を得る雑音推定部と、
上記目的音強調部で得られた目的音推定信号に残留している雑音成分を、上記雑音推定部で得られた雑音推定信号を用いたポストフィルタリング処理によって除去するポストフィルタリング部と、
上記目的音強調部で得られた目的音推定信号および上記雑音推定部で得られた雑音推定信号に基づいて、上記ポストフィルタリング部で行われるポストフィルタリング処理を補正するための補正係数を周波数毎に算出する補正係数算出部と、
上記第1のマイクロホンおよび上記第2のマイクロホンの観測信号を処理して周囲雑音の音源数情報を得る周囲雑音状態推定部と、
上記周囲雑音状態推定部で得られた周囲雑音の音源数情報に基づき、音源数が多い程平滑化フレーム数を大きくして、上記補正係数算出部で算出された補正係数をフレーム方向に平滑化して各フレームの変更された補正係数を得る補正係数変更部と
を備える雑音除去装置。
【請求項9】
上記周囲雑音状態推定部は、
上記第1のマイクロホンおよび上記第2のマイクロホンの観測信号の相関係数を算出し、該算出された相関係数を上記周囲雑音の音源数情報とする
請求項8に記載の雑音除去装置。
【請求項10】
上記目的音強調部で得られた目的音推定信号および上記雑音推定部で得られた雑音推定信号に基づいて、目的音がある区間を検出する目的音区間検出部をさらに備え、
上記補正係数算出部は、
上記目的音区間検出部で得られた目的音区間情報に基づいて、目的音がない区間で上記補正係数の算出を行う
請求項8に記載の雑音除去装置。
【請求項11】
上記目的音検出部は、
上記目的音推定信号と上記雑音推定信号のエネルギー比を求め、該エネルギー比が閾値より大きいときは目的音区間と判断する
請求項10に記載の雑音除去装置。
【請求項12】
上記補正係数算出部は、
f番目の周波数のフレームtの補正係数β(f,t)を、該f番目の周波数のフレームtの目的音推定信号Z(f,t)および雑音推定信号N(f,t)と、f番目の周波数のフレームt−1の補正係数β(f,t-1)を用いて、
【数2】

の式で算出する
請求項8に記載の雑音除去装置。
【請求項13】
所定の間隔をもって配置された第1のマイクロホンおよび第2のマイクロホンの観測信号に目的音強調処理を施して目的音推定信号を得る目的音強調ステップと、
上記第1のマイクロホンおよび上記第2のマイクロホンの観測信号に雑音推定処理を施して雑音推定信号を得る雑音推定ステップと、
上記目的音強調ステップで得られた目的音推定信号に残留している雑音成分を、上記雑音推定ステップで得られた雑音推定信号を用いたポストフィルタリング処理によって除去するポストフィルタリング部と、
上記目的音強調ステップで得られた目的音推定信号および上記雑音推定ステップで得られた雑音推定信号に基づいて、上記ポストフィルタリング部で行われるポストフィルタリング処理を補正するための補正係数を周波数毎に算出する補正係数算出ステップと、
上記第1のマイクロホンおよび上記第2のマイクロホンの観測信号を処理して周囲雑音の音源数情報を得る周囲雑音状態推定ステップと、
上記周囲雑音状態推定ステップで得られた周囲雑音の音源数情報に基づき、音源数が多い程平滑化フレーム数を大きくして、上記補正係数算出ステップで算出された補正係数をフレーム方向に平滑化して各フレームの変更された補正係数を得る補正係数変更ステップと
を備える雑音除去方法。
【請求項14】
所定の間隔をもって配置された第1のマイクロホンおよび第2のマイクロホンの観測信号に目的音強調処理を施して目的音推定信号を得る目的音強調部と、
上記第1のマイクロホンおよび上記第2のマイクロホンの観測信号に雑音推定処理を施して雑音推定信号を得る雑音推定部と、
上記目的音強調部で得られた目的音推定信号に残留している雑音成分を、上記雑音推定部で得られた雑音推定信号を用いたポストフィルタリング処理によって除去するポストフィルタリング部と、
上記目的音強調部で得られた目的音推定信号および上記雑音推定部で得られた雑音推定信号に基づいて、上記ポストフィルタリング部で行われるポストフィルタリング処理を補正するための補正係数を周波数毎に算出する補正係数算出部と、
上記補正係数算出部で算出された補正係数のうち、空間エイリアシングを起こしている帯域の補正係数を、特定の周波数にできるピークをつぶすように変更する第1の補正係数変更部と、
上記第1のマイクロホンおよび上記第2のマイクロホンの観測信号を処理して周囲雑音の音源数情報を得る周囲雑音状態推定部と、
上記周囲雑音状態推定部で得られた周囲雑音の音源数情報に基づき、音源数が多い程平滑化フレーム数を大きくして、上記補正係数算出部で算出された補正係数をフレーム方向に平滑化して各フレームの変更された補正係数を得るだい2の補正係数変更部と
を備える雑音除去装置。
【請求項15】
上記第1の補正係数変更部は、
上記空間エイリアシングを起こしている帯域において、上記補正係数算出部で算出された補正係数を周波数方向に平滑化して各周波数の変更された補正係数を得る
請求項14に記載の雑音除去装置。
【請求項16】
上記第1の補正係数変更部は、
上記空間エイリアシングを起こしている帯域において、各周波数の補正係数を1に変更する
請求項14に記載の雑音除去装置。
【請求項17】
上記周囲雑音状態推定部は、
上記第1のマイクロホンおよび上記第2のマイクロホンの観測信号の相関係数を算出し、該算出された相関係数を上記周囲雑音の音源数情報とする
請求項14に記載の雑音除去装置。
【請求項18】
上記目的音強調部で得られた目的音推定信号および上記雑音推定部で得られた雑音推定信号に基づいて、目的音がある区間を検出する目的音区間検出部をさらに備え、
上記補正係数算出部は、
上記目的音区間検出部で得られた目的音区間情報に基づいて、目的音がない区間で上記補正係数の算出を行う
請求項14に記載の雑音除去装置。
【請求項19】
上記目的音検出部は、
上記目的音推定信号と上記雑音推定信号のエネルギー比を求め、該エネルギー比が閾値より大きいときは目的音区間と判断する
請求項18に記載の雑音除去装置。
【請求項20】
上記補正係数算出部は、
f番目の周波数のフレームtの補正係数β(f,t)を、該f番目の周波数のフレームtの目的音推定信号Z(f,t)および雑音推定信号N(f,t)と、f番目の周波数のフレームt−1の補正係数β(f,t-1)を用いて、
【数3】

の式で算出する
請求項14に記載の雑音除去装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate

【図22】
image rotate

【図23】
image rotate

【図24】
image rotate

【図25】
image rotate

【図26】
image rotate

【図27】
image rotate

【図28】
image rotate

【図29】
image rotate

【図30】
image rotate

【図31】
image rotate

【図32】
image rotate

【図33】
image rotate

【図34】
image rotate


【公開番号】特開2012−58360(P2012−58360A)
【公開日】平成24年3月22日(2012.3.22)
【国際特許分類】
【出願番号】特願2010−199517(P2010−199517)
【出願日】平成22年9月7日(2010.9.7)
【出願人】(000002185)ソニー株式会社 (34,172)
【Fターム(参考)】