説明

雑音抑制装置、雑音抑制方法、及びプログラム

【課題】発音体の発音に重なって瞬時的な非定常雑音が含まれている収音信号から当該非定常雑音を抑制する。
【解決手段】変換部1は、発音体の発音を収音して得た収音信号であって時間領域で表現されている該収音信号を周波数領域のスペクトルに変換する。抑圧ゲイン設定部2は、このスペクトルの周波数毎に、各スペクトルを抑圧する程度を表す抑圧ゲインを、当該各スペクトルについての非定常度の時間変化量に基づき設定する。スペクトル抑圧処理部3は、抑圧ゲイン設定部2によりスペクトルの周波数毎に設定された抑圧ゲインに基づいて、各スペクトルを抑圧する処理を行う。逆変換部4は、スペクトル抑圧処理部3による抑圧処理後のスペクトルに対して、変換部1による変換の逆変換を施す。

【発明の詳細な説明】
【技術分野】
【0001】
本明細書で議論される実施態様は、発音体の発音を収音した信号に含まれる雑音成分を低減する音声信号処理技術に関する。
【背景技術】
【0002】
話者の発声をマイクロフォン等で収音して得られる収音信号に含まれる雑音成分を低減させる音声信号処理技術が幾つか知られている。これらの技術について簡単に説明する。
まず、第一の技術として、入力された音響信号に存在する人の音声の信号成分が有声音か無声音かによって、雑音消去特性が異なる出力信号を選択するようにして、背景雑音の消去を行うという技術が知られている。この技術では、入力音響信号の時間軸上での短期平均及び長期平均を計算し、算出された短期平均と長時間平均との差が第一閾値を超えるときには、この音響信号には音声成分が含まれていると判定する。あるいは、入力音響信号の信号対雑音比と第一閾値との比較結果に基づいて入力音響信号中の音声成分の有無の検出を行う。また、この技術では、入力音響信号の信号対雑音比と第二閾値との大小関係、及び、入力音響信号の周波数軸上での最大値についての推定背景雑音に対するパワー比と第三閾値との大小関係に応じて、入力音響信号中の音声成分が有声音か無声音かを判定する。
【0003】
また、第二の技術として、所定の方向の音源が発する音声信号を強調して周囲の雑音を抑制するという技術も知られている。この技術では、複数のマイクを使用して収音した、複数の方向に存在する音源からの音声、雑音等を含む音声信号が入力された場合に、周波数毎のマイク間位相差に基づき、その音声信号が話者の方向から到来しているか否かを判定する処理が行われる。
【0004】
また、第三の技術として、複数の周波数帯域に分割した音声信号のスペクトルの形状を周波数毎に解析して音声、雑音、若しくは音声に類似した音声的雑音に分類し、その分類に応じて選択される最適な雑音抑圧の処理を帯域毎に行うという技術も知られている。
【0005】
なお、この他の背景技術として、高能率音声符号化のために、音声信号の有る状態(有音)と音声信号の無い状態(無音)との判定を行う技術が知られている。例えば、フレームに分割した音声信号の有音・無音の判定の材料となる要素の値を、音声符号化処理の処理単位である当該フレームよりも更に短く分割した区間毎に算出し、その値の大きさ及び変化の度合いにより、当該判定を行うという技術が知られている。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開平10−003297号公報
【特許文献2】特開2007−318528号公報
【特許文献3】特開2004−341339号公報
【特許文献4】特開2000−172283号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
前述した第一の技術による背景雑音の消去では、音響信号に混入している瞬時的な非定常雑音(継続時間が10ミリ秒前後である、単発の、若しくは断続している雑音)を抑圧することは困難である。このような非定常雑音が人の音声の信号成分に含まれていると、非定常雑音を含んだ信号成分全体を、人の音声と判定してしまう可能性があるからである。
【0008】
また、前述した第二の技術は、音源からの音声の収音にマイクを複数使用する必要があるため、マイクを1つしか設置できない場合には、この技術を利用できない。また、前述したような瞬時的な非定常雑音の雑音源が、話者の方向と同じ方向に存在する場合には、話者の音声のみを強調して非定常雑音のみを抑制することはできない。
【0009】
上述した問題に鑑み、本明細書で後述する雑音抑制装置は、発音体の発音に重なって瞬時的な非定常雑音が含まれている収音信号から当該非定常雑音を抑制する。
【課題を解決するための手段】
【0010】
本明細書で後述する雑音抑制装置のひとつに、変換部と、抑圧ゲイン設定部と、スペクトル抑圧処理部と、逆変換部とを備えるというものがある。ここで、変換部は、発音体の発音を収音して得た収音信号であって時間領域で表現されている該収音信号を周波数領域のスペクトルに変換する。抑圧ゲイン設定部は、このスペクトルの周波数毎に、各スペクトルを抑圧する程度を表す抑圧ゲインを、当該各スペクトルについての非定常度の時間変化量に基づき設定する。スペクトル抑圧処理部は、抑圧ゲイン設定部によりスペクトルの周波数毎に設定された抑圧ゲインに基づいて、各スペクトルを抑圧する処理を行う。そして、逆変換部は、スペクトル抑圧処理部による抑圧処理後のスペクトルに対して、変換部による変換の逆変換を施す。
【0011】
本明細書で後述する雑音制御方法のひとつは、まず、発音体の発音を収音して得た収音信号であって時間領域で表現されている該収音信号を周波数領域のスペクトルに変換する。そして、このスペクトルの周波数毎に、各スペクトルを抑圧する程度を表す抑圧ゲインを、当該各スペクトルについての非定常度の時間変化量に基づき設定する。次に、スペクトルの周波数毎に設定した抑圧ゲインに基づいて、各スペクトルを抑圧する処理を行う。そして、各スペクトルを抑圧する処理後のスペクトルに対して、前述の変換の逆変換を施す。
【0012】
また、本明細書で後述するプログラムのひとつは、以下の処理をコンピュータに行わせる。この処理は、まず、発音体の発音を収音して得た収音信号であって時間領域で表現されている該収音信号を周波数領域のスペクトルに変換する。そして、このスペクトルの周波数毎に、各スペクトルを抑圧する程度を表す抑圧ゲインを、当該各スペクトルについての非定常度の時間変化量に基づき設定する。次に、スペクトルの周波数毎に設定した抑圧ゲインに基づいて、各スペクトルを抑圧する処理を行う。そして、各スペクトルを抑圧する処理後のスペクトルに対して、前述の変換の逆変換を施す。
【発明の効果】
【0013】
本明細書で後述する雑音抑制装置は、発音体の発音に重なって瞬時的な非定常雑音が含まれている収音信号から当該非定常雑音を抑制することができるという効果を奏する。
【図面の簡単な説明】
【0014】
【図1】雑音抑制装置の一実施例の機能ブロック図である。
【図2】瞬時的な非定常雑音を含む収音信号の波形例である。
【図3】雑音抑制装置の別の一実施例の機能ブロック図である。
【図4】コンピュータのハードウェア構成例である。
【図5】雑音抑制制御処理の処理内容を図解したフローチャートである。
【図6】瞬時的な非定常雑音が混入した時刻及びその前後の時刻における収音信号のスペクトル分布の例である。
【図7】SNRと非定常度との関係を表現したグラフである。
【図8A】非定常度の算出に用いる第一閾値の設定例である。
【図8B】非定常度の算出に用いる第二閾値の設定例である。
【図9】図6のスペクトル分布を有する収音信号の非定常度の分布である。
【図10】図9の分布から求めた収音信号の非定常度時間変化量の分布である。
【図11】図3の雑音抑制装置による雑音抑制効果を表した波形例である。
【発明を実施するための形態】
【0015】
まず図1について説明する。図1は、雑音抑制装置の一実施例の機能ブロック図である。この雑音抑制装置は、変換部1、抑圧ゲイン設定部2、スペクトル抑圧処理部3、及び逆変換部4を備えている。
【0016】
変換部1は、発音体の発音を収音して得た収音信号であって時間領域で表現されている該収音信号を周波数領域のスペクトルに変換する。
抑圧ゲイン設定部2は、上述のスペクトルの周波数毎に、各スペクトルを抑圧する程度を表す抑圧ゲインを、各スペクトルについての非定常度の時間変化量に基づき設定する。
【0017】
スペクトル抑圧処理部3は、抑圧ゲイン設定部2によりスペクトルの周波数毎に設定された抑圧ゲインに基づいて、各スペクトルを抑圧する処理を行う。
逆変換部4は、スペクトル抑圧処理部3による抑圧処理後のスペクトルに対して、変換部1による変換の逆変換を施す。
【0018】
この雑音抑制装置は、瞬時的な非定常雑音を含む収音信号は、そのスペクトルの大きさが、非定常雑音が含まれている時点において一時的に急激に変化することを利用して非定常雑音の抑制を行う。この手法について、図2を参照しながら説明する。図2は、瞬時的な非定常雑音を含む収音信号の波形例である。
【0019】
図2において、[1]、[2]、[3]の各波形の横軸は時間の経過を表している。
[1]の波形は、発音体の一例である、人の発声音を収音している途中で、瞬時的な非定常雑音が混入した場合の収音信号の波形例であり、波形上に描かれている楕円内の急峻なパルス状の波形が、瞬時的な非定常雑音を表している。
【0020】
[2]の波形における実線の波形は、[1]に波形を示した収音信号についての周波数900Hz付近のスペクトルの時間変動を表したものである。この波形上に描かれている実線楕円内の比較的急峻なピークが、瞬時的な非定常雑音を表している。一方、この波形上に描かれている点線楕円内の、比較的なだらかなピークは、瞬時的な非定常雑音ではなく、人の発声音によってもたらされたものである。
【0021】
なお、この[2]の波形における破線の波形は、[1]に波形を示した収音信号についての定常雑音モデルのスペクトルの大きさの時間変動を表している。なお、定常雑音モデルとは、収音信号に基づいて推定される、当該収音信号に含まれる定常雑音成分(収音信号に連続的に含まれている雑音成分)のことである。
【0022】
また、[3]の波形は、[2]の波形で示されているスペクトルの大きさについての定常雑音モデルに対する比率である、SNR(Signal to Noise Ratio:信号対雑音比)を元にして算出した非定常度の時間変動を表している。この非定常度についての本実施例における具体的な算出手法は後述するが、この非定常度は0から1までの値をとり、その値が大きいほど、そのスペクトルに含まれている非定常成分が多いことを表している。
【0023】
[3]の波形上に描かれている実線楕円内の比較的急峻なピークが、瞬時的な非定常雑音によるもの表している。一方、この波形上に描かれている点線楕円内の、比較的なだらかなピークは、瞬時的な非定常雑音ではなく、人の発声音によるものである。この2つのピークを対比すると分かるように、非定常度の単位時間当たりの変化量(時間変化量)は、瞬時的な非定常雑音によるものの方が、人の発声音によるものよりも顕著に大きく、急激に変化するという特徴を有している。
【0024】
図1の雑音抑制装置では、上述した特徴に注目し、収音信号のスペクトルから非定常度の時間変化量が顕著に大きい箇所の検出を行い、検出された箇所を、瞬時的な非定常雑音とみなして抑圧することで、収音音声に混入した瞬時的な非定常雑音を除去する。より具体的には、この雑音抑制装置では、まず、収音信号のスペクトルについて、各スペクトルが音声成分と雑音成分とのどちらが支配的であるかの判定が、各スペクトルについての非定常度の時間変化量に基づき抑圧ゲイン設定部2により行われる。そして、この判定において雑音と判定されたスペクトルについては、スペクトル抑圧処理部3での抑圧処理によって当該スペクトルの大きさが小さくなるような抑圧ゲインを抑圧ゲイン設定部2が設定する。この結果、逆変換部4による逆変換によって、収音信号から非定常雑音が抑制された信号が得られる。
【0025】
なお、図1に図解されているように、この雑音抑制装置の抑圧ゲイン設定部2が、定常雑音成分推定部5と非定常度算出部6とを備えていてもよい。
定常雑音成分推定部5は、前述のスペクトルの周波数毎に、各スペクトルに含まれている定常雑音成分の量を推定する。
【0026】
非定常度算出部6は、スペクトルの周波数毎に、各スペクトルの大きさと定常雑音成分推定部5により推定された各スペクトルについての定常雑音成分の量とに基づき、各スペクトルに含まれる非定常成分の比率を、各スペクトルについての非定常度として算出する。
【0027】
この場合には、抑圧ゲイン設定部2は、非定常度算出部6がスペクトルの周波数毎に算出した各スペクトルについての非定常度についての時間変化量に基づき、スペクトルの周波数毎の前記抑圧ゲインを設定する。
【0028】
なお、定常雑音成分推定部5による推定は、例えば、前述のスペクトルの周波数毎に、収音信号において発音体の発音が含まれていない期間におけるスペクトルの大きさの平均値を算出することで行われる。この場合には、この平均値が定常雑音成分の量の推定結果とされる。
【0029】
また、抑圧ゲイン設定部2による抑圧ゲインの設定は、例えば以下のように行ってもよい。
すなわち、抑圧ゲイン設定部2は、まず、スペクトルの周波数毎に、各スペクトルの成分が非定常雑音であるか否かの判定を、各スペクトルについての非定常度の時間変化量に基づき行う。そして、抑圧ゲイン設定部2は、成分が非定常雑音であると判定したスペクトルについての抑圧ゲインをスペクトルの大きさが小さくなる値に設定する。その一方、抑圧ゲイン設定部2は、成分が非定常雑音ではないと判定したスペクトルについての抑圧ゲインをスペクトルの大きさが維持される値に設定する。
【0030】
なお、抑圧ゲイン設定部2は、各スペクトルの成分が非定常雑音であるか否かの判定を、以下に例示するいずれの手法により行ってもよい。
その判定の第一の手法では、抑圧ゲイン設定部2が、判定対象のスペクトルについての非定常度の時間変化量と所定の上限閾値との大小比較を行い、その比較結果を、前述の判定の結果として扱うというものである。すなわち、抑圧ゲイン設定部2は、判定対象のスペクトルについての非定常度の時間変化量がこの上限閾値よりも大きい場合には、当該スペクトルの成分が非定常雑音であるとの判定を下す。一方、抑圧ゲイン設定部2は、判定対象のスペクトルについての非定常度の時間変化量がこの上限閾値よりも小さい場合には、当該スペクトルの成分が非定常雑音ではないとの判定を下す。
【0031】
また、前述の判定の第二の手法は、収音信号のスペクトルの幾つかを極大スペクトル及び極小スペクトルと定め、各スペクトルについての前述の判定を、これらの極大スペクトル及び極小スペクトルの周波数軸上での配置関係に基づいて行うというものである。なお、極大スペクトルと定めるスペクトルは、周波数軸上に並べられているスペクトルのうちで、非定常度の時間変化量が所定の上限閾値よりも大きいものである。また、極小スペクトルと定めるスペクトルは、周波数軸上に並べられているスペクトルのうちで、非定常度の時間変化量が所定の下限閾値よりも小さいものである。
【0032】
更に、この判定の第二の手法では、周波数軸上で連続する複数の極大スペクトルがグループ化されてスペクトルグループが定められる。なお、周波数軸上において連続しておらず、極大スペクトルではないスペクトルに挟まれて孤立している極大スペクトルについては、その極大スペクトル1つのみでスペクトルグループが定められる。
【0033】
抑圧ゲイン設定部2は、このようなスペクトルグループのうちで、一対の隣接極小スペクトル周の間に1グループのみ存在しているスペクトルグループを抽出する。なお、一対の隣接極小スペクトルとは、周波数軸上に周波数順に並んでいる極小スペクトルのうちの1つと、周波数軸上において当該1つの極小スペクトルの次の周波数順である極小スペクトルとからなる、一対の極小スペクトルのことをいう。この抽出においては、当該一対の隣接極小スペクトルとスペクトルグループとの間に他のスペクトルが1つ以上挟まれていても、そのスペクトルグループは抽出される。ここで、抑圧ゲイン設定部2は、抽出したスペクトルグループに含まれている極大スペクトルについては、スペクトルの成分が非定常雑音であるとの判定を下す。
【0034】
上述したようにして抽出されるスペクトルグループに含まれている極大スペクトルは、周波数軸上において近傍である他のスペクトルに比べて非定常度の時間変化量が際立って大きいという特徴を有している。従って、そのような極大スペクトルは、前述の第一の手法よりも高い確実性を持って、その成分が非定常雑音であると推定できる。
【0035】
なお、抑圧ゲイン設定部2は、収音信号のスペクトルのうち、前述のようにして抽出したスペクトルグループに含まれている極大スペクトルを除いた他のスペクトルについては、スペクトルの成分が非定常雑音ではないとの判定を下す。
【0036】
上述した判定の第二の手法を用いることで、非定常雑音の抑制後の信号で表現されている発音体の発音の忠実度が向上する。
また、前述の判定の第三の手法では、抑圧ゲイン設定部2は、第二の手法と同様に、スペクトルグループのうちで、前述の一対の隣接極小スペクトルの間に1グループのみ存在しているスペクトルグループをまず抽出する。次に、抑圧ゲイン設定部2は、周波数軸上において、抽出されたスペクトルグループと当該一対の隣接極小スペクトルとに挟まれている他のスペクトルの存在個数を、当該スペクトルグループに対する該周波数軸上での上側及び下側の各々において計数する。ここで、各々計数されたスペクトルの存在個数のどちらもが0若しくは所定の個数閾値以内である場合には、抑圧ゲイン設定部2は、そのスペクトルグループに含まれている極大スペクトルについて、スペクトルの成分が非定常雑音であるとの判定を下す。
【0037】
このような極大スペクトルは、前述の第二の手法において非定常雑音であるとの判定を下されるもののうちで、非定常度の時間変化量が、周波数軸上において近傍である他のスペクトルに比べて更に際立って大きいものに限定される。従って、そのような極大スペクトルは、前述の第二の手法よりも更に高い確実性を持って、その成分が非定常雑音であると推定できる。
【0038】
なお、抑圧ゲイン設定部2は、収音信号のスペクトルのうち、前述のようにして非定常雑音であるとの判定が下された極大スペクトルを除いた他のスペクトルについては、スペクトルの成分が非定常雑音ではないとの判定を下す。
【0039】
上述した判定の第三の手法を用いることで、非定常雑音の抑制後の信号で表現されている発音体の発音の忠実度が、更に向上する。
なお、抑圧ゲイン設定部2は、成分が非定常雑音であると判定したスペクトルである抑圧対象スペクトルについて設定する抑圧ゲインの値を、以下に例示するどちらの手法により行ってもよい。
【0040】
その値の設定の第一の手法では、抑圧ゲイン設定部2は、まず、周波数軸上に並べられている前述のスペクトルのうちで前述の上限閾値よりも小さいスペクトルから、周波数が、抑圧対象スペクトルの周波数の上下でそれぞれ最も近いものを1つずつ選択する。そして、抑圧ゲイン設定部2は、選択した2つのスペクトルの大きさの平均値を抑圧対象スペクトルの大きさで除算した値を、この抑圧対象スペクトルについての抑圧ゲインとして設定する。
【0041】
また、その値の設定の第二の手法では、定常雑音成分推定部5が利用される。この手法では、抑圧ゲイン設定部2は、抑圧対象スペクトルについての抑圧ゲインとして、定常雑音成分推定部5が当該抑圧対象スペクトルの周波数について推定した定常雑音成分の量を抑圧対象スペクトルの大きさで除算した値を設定する。
【0042】
なお、非定常度算出部6は、各スペクトルについての非定常度の算出を、以下の手法のように行ってもよい。
この手法では、非定常度算出部6は、まず、前述のスペクトルの周波数毎に、各スペクトルの信号対雑音比の算出を、各スペクトルの大きさを定常雑音成分推定部5により推定された各スペクトルについての定常雑音成分の量で除算して行う。そして、非定常度算出部6は、この信号対雑音比の値に基づき、この値が所定の第一閾値よりも小さいスペクトルについては、当該スペクトルについての非定常度を0とする。また、非定常度算出部6は、この信号対雑音比の値が、第一閾値よりも大きい所定の第二閾値よりも更に大きいスペクトルについては、当該スペクトルについての非定常度を1とする。更に、非定常度算出部6は、この信号対雑音比から第一閾値を減算した値を、第二閾値から第一閾値を減算した値で除算する。そして、非定常度算出部6は、信号対雑音比の値が第一閾値よりも大きく第二閾値よりも小さいスペクトルについては、前述した除算により得られる値を、当該スペクトルについての非定常度とする。
【0043】
なお、非定常度算出部6は、第一閾値と第二閾値との組み合わせを複数組有しており、非定常度の算出対象であるスペクトルの周波数に応じて1組選択される組み合わせに属している第一閾値及び第二閾値を用いて、非定常度の算出を行うようにしてもよい。
【0044】
また、非定常度算出部6は、各スペクトルについての第一閾値を次のようにして算出してもよい。すなわち、非定常度算出部6は、まず、前述のスペクトルの周波数毎に、収音信号において発音体の発音が含まれていない期間における、各スペクトルの大きさと定常雑音成分推定部5が推定した定常雑音成分の量との差分の絶対値の平均値を算出する。そして、定常雑音成分の量に算出された平均値を加算し、更に定常雑音成分の量で除した値を第一閾値とする。なお、この場合には、非定常度算出部6は、この第一閾値に所定の定数値を加算した値を、各スペクトルについての第二閾値とし、この第一閾値と第二閾値とを用いて、各スペクトルについての非定常度の算出を行う。
【0045】
次に図3について説明する。図3は、雑音抑制装置の別の一実施例の機能ブロック図である。
図3の雑音抑制装置は、FFT部11、定常雑音モデル推定部12、非定常度算出部13、非定常度時間変化量算出部14、雑音検出部15、ゲイン設定部16、出力用スペクトル生成部17、及びIFFT部18を備えており、マイク10が接続されている。
【0046】
マイク10は、発音体の一例である人の発声音を収音する収音装置であり、収音した発声音を表している収音信号を出力する。
FFT(Fast Fourier Transform)部11は高速フーリエ変換を行うものであり、マイク10から出力される、時間領域で表現されている収音信号の所定のサンプル数分の信号波形を周波数領域のスペクトルに変換して出力する。なお、この高速フーリエ変換のために行う収音信号のサンプリングでは、収音信号で表現されている人の発声音を表現するために十分なサンプリング間隔で行うものとする。このFFT部11により、図1の雑音抑制装置における変換部1に相当する機能が提供される。
【0047】
定常雑音モデル推定部12は、FFT部11から出力される収音信号のスペクトルの周波数毎に、当該スペクトルに含まれている定常雑音成分の量を推定して出力する。本実施例では、定常雑音モデル推定部12は、人の発声音が含まれていない期間の当該スペクトルの大きさの平均値を算出し、その算出結果を、そのスペクトルにおける定常雑音成分の量の推定結果として出力する。この定常雑音モデル推定部12により、図1の雑音抑制装置における定常雑音成分推定部5に相当する機能が提供される。
【0048】
非定常度算出部13は、FFT部11から出力される収音信号のスペクトルの周波数毎に、各スペクトルについての非定常度を算出する。本実施例では、非定常度算出部13は、収音信号のスペクトルの周波数毎に、スペクトルの大きさと定常雑音モデル推定部12での当該スペクトルについての定常雑音成分量の推定結果とを用いて、当該スペクトルに含まれる非定常成分の比率を算出する。この算出結果が、当該スペクトルについての非定常度の算出結果として非定常度算出部13から出力される。非定常度算出部13による非定常度の算出の手法の詳細については後述する。この非定常度算出部13により、図1の雑音抑制装置における非定常度算出部6に相当する機能が提供される。
【0049】
非定常度時間変化量算出部14は、収音信号のスペクトルの周波数毎に非定常度算出部13が算出した各スペクトルについての非定常度を用いて、その非定常度についての時間変化量を、当該スペクトルの周波数毎に算出する。
【0050】
雑音検出部15は、収音信号のスペクトルの周波数毎に非定常度時間変化量算出部14が算出した非定常度の時間変化量に基づき、各スペクトルの成分が非定常雑音であるか否かの判定を行う。この雑音検出部15による非定常雑音であるか否かの判定手法の詳細については後述する。雑音検出部15による判定結果は、非定常雑音の検出結果として、ゲイン設定部16へ送われる。
【0051】
ゲイン設定部16は、収音信号のスペクトルの周波数毎に、各スペクトルを抑圧する程度を表す抑圧ゲインを、雑音検出部15から送られてきた非定常雑音の検出結果に応じて設定する。その手法の詳細は後述するが、本実施例において、ゲイン設定部16は、成分が非定常雑音であると判定したスペクトルについては、その抑圧ゲインをスペクトルの大きさが小さくなる値に設定する。また、ゲイン設定部16は、成分が非定常雑音ではないと判定したスペクトルについては、その抑圧ゲインをスペクトルの大きさが維持される値に設定する。
【0052】
以上の定常雑音モデル推定部12、非定常度算出部13、非定常度時間変化量算出部14、雑音検出部15、及びゲイン設定部16により、図1の雑音抑制装置における抑圧ゲイン設定部2に相当する機能が提供される。
【0053】
出力用スペクトル生成部17は、収音信号のスペクトルの周波数毎にゲイン設定部16により設定された抑圧ゲインを当該収音信号のスペクトルの周波数毎に乗算して各スペクトルを抑圧する処理を行い、出力信号の周波数領域のスペクトルを生成する。この出力用スペクトル生成部17により、図1の雑音抑制装置におけるスペクトル抑圧処理部3に相当する機能が提供される。
【0054】
IFFT(Inverse Fast Fourier Transform)部18は、FFT部11による変換の逆変換である高速逆フーリエ変換を行うものであり、出力用スペクトル生成部17で生成された周波数領域のスペクトルを、時間領域表現の出力信号に変換して出力する。このIFFT部18からの出力信号が、図3の雑音抑制装置の出力である。
なお、図1や図3に図解した雑音抑制装置を、標準的なハードウェア構成のコンピュータを用いて構成することができる。
【0055】
ここで図4について説明する。図4は、コンピュータのハードウェア構成例であり、図1や図3に図解した雑音抑制装置を構成することができるものの一例である。
このコンピュータ20は、MPU21、ROM22、RAM23、ハードディスク装置24、入力装置25、表示装置26、インタフェース装置27、及び記録媒体駆動装置28を備えている。なお、これらの構成要素はバスライン29を介して接続されており、MPU21の管理の下で各種のデータを相互に授受することができる。
【0056】
MPU(Micro Processing Unit)21は、このコンピュータ20全体の動作を制御する演算処理装置である。
ROM(Read Only Memory)22は、所定の基本制御プログラムが予め記録されている読み出し専用半導体メモリである。MPU21は、この基本制御プログラムをコンピュータ20の起動時に読み出して実行することにより、このコンピュータ20の各構成要素の動作制御が可能になる。
【0057】
RAM(Random Access Memory)23は、MPU21が各種の制御プログラムを実行する際に、必要に応じて作業用記憶領域として使用する、随時書き込み読み出し可能な半導体メモリである。
【0058】
ハードディスク装置24は、MPU21によって実行される各種の制御プログラムや各種のデータを記憶しておく記憶装置である。
MPU21は、ハードディスク装置24に記憶されている所定の制御プログラムを読み出して実行することにより、後述する制御処理を行えるようになる。
【0059】
入力装置25は、例えばキーボード装置やマウス装置であり、コンピュータ20の使用者により操作されると、その操作内容に対応付けられている使用者からの各種情報の入力を取得し、取得した入力情報をMPU21に送付する。
【0060】
表示装置26は例えば液晶ディスプレイであり、MPU21から送付される表示データに応じて各種のテキストや画像を表示する。
インタフェース装置27は、このコンピュータ20に接続される各種機器との間での各種データの授受の管理を行う。より具体的には、インタフェース装置27は、マイク10から送られてくる収音信号のアナログ−デジタル変換や、雑音抑制装置の出力信号の後続機器への送信などを行う。
【0061】
記録媒体駆動装置28は、可搬型記録媒体30に記録されている各種の制御プログラムやデータの読み出しを行う装置である。MPU21は、可搬型記録媒体30に記録されている所定の制御プログラムを、記録媒体駆動装置28を介して読み出して実行することによって、後述する各種の制御処理を行うようにすることもできる。なお、可搬型記録媒体30としては、例えばUSB(Universal Serial Bus)規格のコネクタが備えられているフラッシュメモリ、CD−ROM(Compact Disc Read Only Memory)、DVD−ROM(Digital Versatile Disc Read Only Memory)などがある。
【0062】
このようなコンピュータ20を雑音抑制装置として動作させるには、まず、後述する雑音抑制制御処理の処理内容をMPU21に行わせるための制御プログラムを作成する。作成された制御プログラムはハードディスク装置24若しくは可搬型記録媒体30に予め格納しておく。そして、MPU21に所定の指示を与えてこの制御プログラムを読み出させて実行させる。こうすることで、MPU21が、図1や図3に図解した各機能ブロックとして機能し、このコンピュータ20が雑音抑制装置として動作するようになる。
【0063】
次に図5について説明する。図5は、雑音抑制制御処理の処理内容を図解したフローチャートである。この処理は、雑音抑制装置の使用者が、所定の指示を与えることによって開始される。
【0064】
なお、ここでは、図3に図解した雑音抑制装置の各機能ブロックが図5に図解した各処理を行う場合について説明する。
図5において、まずS101では、FFT処理をFFT部11が行う。この処理は、マイク10から出力される、時間領域で表現されている収音信号の所定のサンプル数分の信号波形に対して高速フーリエ変換を施して周波数領域のスペクトルに変換する処理である。
【0065】
以降に説明するS102からS108にかけての各処理では、S101のFFT処理により得られたスペクトルの各々を処理対象として、各処理が行われる。
まず、S102では、定常雑音モデル推定処理を定常雑音モデル推定部12が行う。この処理は、処理対象のスペクトルに含まれている定常雑音成分の量を推定する処理である。本実施例では、この処理では、前述したように、発声音が含まれていない期間の収音信号の信号レベルの平均値を算出し、その算出結果を、定常雑音成分の量の推定結果とする処理が行われる。なお、収音信号から発声音が含まれていない期間を検出する手法は、幾つもの手法が広く知られており、そのうちのいずれの手法を採用してもよい。
【0066】
そのような手法の一例では、収音信号を時間方向に一定の時間間隔で分割した数サンプル分の信号データ列と、その前後の信号データ列との間での相互相関係数の算出が行われる。ここで、所定の相関閾値以上の正の相関が得られたデータ列の区間は発声音が含まれている区間であると判定され、そのような正の相関が得られなかったデータ列の区間には発声音が含まれていない区間であると判定される。
【0067】
また、そのような手法の別の一例では、判定対象のスペクトルの現在の大きさについての、当該スペクトルについて過去に推定されていた定常雑音成分の量に対する比率の算出が行われる。ここで、現在のスペクトルの大きさの比率が所定の比率閾値以上に大きい場合には、そのスペクトルには発声音が含まれていると判定され、その比率が所定の比率閾値未満である場合には、このスペクトルには発声音が含まれていないと判定される。
【0068】
次に、S103では、非定常度算出処理を非定常度算出部13が行う。この処理では、処理対象のスペクトルについての非定常度を算出する。より具体的には、この処理では、判定対象のスペクトルの大きさと、S102の処理により得られた当該スペクトルについての定常雑音成分量の推定結果とを用いて、当該スペクトルに含まれる非定常成分の比率を算出する処理が行われる。そして、この算出結果が、当該スペクトルについての非定常度の算出結果とされる。なお、このS103の処理の詳細については後述する。
【0069】
次に、S104では、非定常度時間変化量算出処理を非定常度時間変化量算出部14が行う。この処理は、S103の処理により算出された処理対象のスペクトルについての非定常度を用いて、その非定常度についての時間変化量を算出する処理である。
【0070】
次に、S105では、雑音検出部15が、処理対象のスペクトルが、雑音条件、すなわち、スペクトルの成分が非定常雑音であるとの判定が下される条件に合致するか否かを判定する処理を行う。この判定の詳細は後述する。雑音検出部15は、この判定処理において、処理対象のスペクトルが雑音条件に合致すると判定したとき(判定結果がYesのとき)にはS106に処理を進める。一方、雑音検出部15は、処理対象のスペクトルが雑音条件に合致しないと判定したとき(判定結果がNoのとき)にはS107に処理を進める。
【0071】
S107では、処理対象のスペクトルについての抑圧ゲインを「1.0」に設定する処理をゲイン設定部16が行い、その後はS108に処理を進める。一方、S106では、処理対象のスペクトルについての抑圧ゲインを算出して設定する処理をゲイン設定部16が行い、その後はS108に処理を進める。このS106及びS107の処理である抑圧ゲイン設定処理の詳細は後述する。
【0072】
次に、S108では、出力用スペクトル生成処理を出力用スペクトル生成部17が行う。この処理は、処理対象のスペクトルについてS106若しくはS107のゲイン設定処理により設定された抑圧ゲインを当該スペクトルに乗算して、出力信号の周波数領域のスペクトルを生成する処理である。
【0073】
次に、S109では、IFFT処理をIFFT部18が行う。この処理は、S108までの処理により得られた周波数領域のスペクトルを、時間領域表現の信号に変換し、得られた信号を、雑音抑制装置の出力信号として出力する処理である。この処理が完了すると、図5の雑音抑制制御処理が終了する。
【0074】
以上までの処理が雑音抑制制御処理である。
なお、図1に図解した雑音抑制装置が図5の雑音抑制制御処理を行う場合には、雑音抑制装置の各機能ブロックは、図5の各処理を、次のように分担して行う。すなわち、まず、S101のFFT処理は変換部1が行う。また、S102の定常雑音モデル推定処理、S103の非定常度算出処理、S104の非定常度時間変化量算出処理、S105の判定処理、並びにS106及びS107の抑圧ゲイン設定処理は抑圧ゲイン設定部2が行う。特に、S102の定常雑音モデル推定処理は定常雑音成分推定部5が行い、S103の非定常度算出処理は非定常度算出部6が行う。そして、S108の出力用スペクトル生成処理はスペクトル抑圧処理部3が行い、S109のIFFT処理は逆変換部4が行う。
【0075】
次に、非定常度算出部13による非定常度の算出の手法の詳細について説明する。
まず図6について説明する。図6は、瞬時的な非定常雑音が混入した時刻及びその前後の時刻における収音信号のスペクトル分布の例であり、図2の[1]の波形に描かれている楕円内の収音信号のスペクトル分布の例である。
【0076】
図6における横軸は周波数を表しており、縦軸はスペクトルの大きさを表している。
図6において、「τ」の波形は、瞬時的な非定常雑音が混入した時刻τにおける収音信号のスペクトル分布を表している。また、「τ−1」の波形は、当該時刻τよりもFFT変換における1フレーム前の時刻τ−1における収音信号のスペクトル分布を表しており、「τ+1」の波形は、当該時刻τよりも1フレーム後の時刻τ+1におけるそのスペクトル分布を表している。なお、破線の波形は、定常雑音モデル推定部12による定常雑音成分の量の推定結果(定常雑音モデル)を表している。
【0077】
図6において、「τ−1」の波形及び「τ+1」の波形については、どちらも、周波数の変化に応じてスペクトルの大きさの山と谷とが交互に幾つも並んでいる。人の発声音は、スペクトルの波形の形状にこのような特徴を有している。これに対し、「τ」の波形の形状は、「τ−1」の波形の形状及び「τ+1」の波形の形状とは顕著に異なっている。このような形状の違いは、瞬時的な非定常雑音の混入によって生じたものである。一方、定常雑音モデルは、このような瞬時的な非定常雑音の混入の有無によらず、比較的安定した形状を呈している。
【0078】
そこで、本実施例では、スペクトルの大きさについての定常雑音モデルに対する比率である前述したSNRに注目し、非定常度の算出を、このSNRを用いて行う。より具体的には、非定常度算出部13は、下記の[1]式の値を算出することで、算出対象スペクトルについての非定常度NSVを求める。
NSV = (SNR-a) / (b-a)……………[1]
【0079】
但し、上記の[数1]式において、第一閾値a及び第二閾値bはどちらも定数であり、第二閾値bは第一閾値aよりも大きい値とする。また、SNRの値が第一閾値aよりも小さい場合にはNSVの値を0とし、SNRの値が第二閾値bの値よりも大きい場合にはNSVの値を1とする。図7は、上記の[1]式におけるSNRと非定常度NSVとの関係を表現したグラフである。このように、非定常度NSVは0から1までの値をとる。
【0080】
SNRは、その値が大きくなるほど、算出対象スペクトルにおけるスペクトルの大きさが定常雑音成分に比べて大きいことを表している。従って、[1]式により求める非定常度NSVは、その値が大きくなるほど、そのスペクトルに含まれている非定常成分が多いことを表していることが分かる。
【0081】
なお、第一閾値a及び第二閾値bの値の設定手法としては、後述する幾つかの手法があるが、どの手法を採用してもよい。
その第一の設定手法は、予め設定しておいた固定値(例えばa=2.5、b=6.0)を用いるというものである。
【0082】
また、その第二の設定手法は、第一閾値aと第二閾値bとの組み合わせを複数組予め用意しておき、非定常度の算出対象であるスペクトルの周波数に応じて1組選択される組み合わせに属している第一閾値a及び第二閾値bを設定するというものである。
【0083】
本実施例においての発音体である人の発声音では、低周波数域のスペクトルの方が、形状の山谷が明りょうであり、その山の位置のスペクトルのSNRも大きな値になる傾向がある。その一方、人の発声音における高周波数域のスペクトルは、形状の山谷が不明りょうであり、山の位置のスペクトルのSNRも比較的小さな値に留まる傾向がある。そこで、このような傾向を考慮し、非定常度の算出対象であるスペクトルの周波数が低周波数域のものである場合には、第一閾値a及び第二閾値bを大きな値に設定する。そして、当該スペクトルの周波数が高周波数域のものである場合には、第一閾値a及び第二閾値bを小さな値に設定する。
【0084】
より具体的には、例えば、図8A及び図8Bにそれぞれ図解するような第一閾値aと第二閾値bとの値の組合せを複数組予め用意しておく。そして、そこから、非定常度の算出対象であるスペクトルの周波数に応じた値の組合せを選択して第一閾値a及び第二閾値bとして設定するようにする。なお、図8A及び図8Bの例では、非定常度の算出対象であるスペクトルの周波数が2000Hz以下の場合には、第一閾値aに3.0が設定され、第二閾値bに6.0が設定される。また、当該スペクトルの周波数が4500Hz以下の場合には、第一閾値aに1.5が設定され、第二閾値bに4.5が設定される。なお、当該スペクトルの周波数が2000Hz以上4500Hz以下の場合には、第一閾値aとしては、図示されているような3.0〜1.5の間で周波数変化に応じて直線的に変化する値が設定される。また、第二閾値bとしては、図示されているような6.0〜4.5の間で周波数変化に応じて直線的に変化する値が設定される。
【0085】
また、その第三の設定手法は、まず、収音信号において発声音が含まれていない期間における非定常度の算出対象であるスペクトルの大きさと、定常雑音モデル推定部12が推定した当該スペクトルについての定常雑音成分の量との差分の絶対値の平均値を算出する。更に、定常雑音成分の量に差分の絶対値の平均値を加算し、定常雑音成分の量で除算する。そして、このようにして算出された値を当該スペクトルについての第一閾値aに設定し、更に、この第一閾値aに所定の定数値を加算した値を、当該スペクトルについての第二閾値bに設定する。例えば、所定の定数値が3.5とされていた場合に、第一閾値aとして設定される前述の平均値が2.35であった場合には、第二閾値bは、2.35+3.5=5.58に設定される。
【0086】
ここで図9について説明する。図9は、図6に図解したスペクトル分布を有する収音信号について非定常度算出部13が算出した非定常度の分布を表したものである。
図9における横軸は周波数を表しており、縦軸は非定常度の大きさを表している。
【0087】
図9における各波形の線種は図6の各波形におけるものと対応している。すなわち、図9において、「τ」の波形は、瞬時的な非定常雑音が混入した時刻τにおける非定常度の分布を表している。また、「τ−1」の波形は、当該時刻τよりもFFT変換における1フレーム前の時刻τ−1における非定常度の分布を表しており、「τ+1」の波形は、当該時刻τよりも1フレーム後の時刻τ+1における非定常度の分布を表している。
【0088】
図9の各波形を参照すると分かるように、「τ」の波形で表されている非定常度の分布は、「τ−1」の波形で表されている非定常度の分布及び「τ+1」の波形で表されている非定常度の分布に比べ、実に多くの周波数において非定常度が1.0になっている。
本実施例における非定常度算出部13による非定常度の算出は、以上のようにして行われる。
【0089】
次に、非定常度時間変化量の算出手法について説明する。時刻τにおける算出対象スペクトルについての非定常度をNSV(τ)とすると、非定常度時間変化量算出部14は、下記の[2]式の計算を行うことで、その時刻τにおける算出対象スペクトルについての非定常度時間変化量δNSV(τ)を算出する。
δNSV(τ) = {|NSV(τ)-NSV(τ-1)| + |NSV(τ+1)-NSV(τ)|} / 2………[2]
図9の分布から求めた、時刻τにおける収音信号の非定常度時間変化量の分布を図10に示す。
【0090】
次に、雑音検出部15により行われる、判定対象のスペクトルが非定常雑音成分であるか否かの判定の手法について説明する。雑音検出部15は、この判定を、判定対象のスペクトルが雑音条件に合致するか否かを判定することによって行う。なお、本実施例では、この判定条件として、以下に説明する3種類の条件のいずれかを採用する。
【0091】
その第一の判定条件は、判定対象のスペクトルについての非定常度の時間変化量が所定の上限閾値(具体的な数値は例えば0.9)よりも大きいことである。このようなスペクトルが非定常雑音成分である可能性が高いことは、例えば図6の各時刻における収音信号のスペクトル分布の例から明らかである。
【0092】
但し、この第一の判定条件に合致するスペクトルを全て抑制すると、元の発声音のスペクトル成分の一部も抑制されてしまう。このため、非定常雑音の抑制効果よりも、生成される出力信号から再現される元の発声音の忠実度の低下が目立ってしまうことがある。
【0093】
これに対し、次に説明する第二及び第三の判定条件では、抑制の対象とするスペクトルを、その成分が非定常雑音であると高い確実性を持って推定できるものに限定する。このようにすることで、生成される出力信号から再現される元の発声音の忠実度が向上する。
【0094】
その第二の判定条件は、判定対象のスペクトルが以下の条件に合致することである。
まず、周波数軸上に並べられている収音信号のスペクトルの一部を極大スペクトルと極小スペクトルとに分類する。ここで、極大スペクトルとは、収音信号のスペクトルのうちで、非定常度の時間変化量が所定の上限閾値(具体的な数値は例えば「0.9」)よりも大きいスペクトルである。また、極小スペクトルとは、収音信号のスペクトルのうちで、非定常度の時間変化量が所定の下限閾値(具体的な数値は例えば「0.1」)よりも大きいスペクトルである。
【0095】
次に、上述した極大スペクトルをグループ化してスペクトルグループを構成する。スペクトルグループは、該周波数軸上において1つの極大スペクトルが連続せずに孤立している(当該極大スペクトルが極大スペクトルでない他のスペクトルに挟まれている)場合には、その1つの極大スペクトルのみを含んで構成される。また、極大スペクトルが周波数軸上において連続している(極大スペクトルでないスペクトルを間に挟んでいない)場合にはその連続している全ての極大スペクトルを含んで構成される。
【0096】
次に、上述したスペクトルグループと極小スペクトルとの周波数軸上での位置関係に注目する。そして、一対の隣接極小スペクトルの間に1グループのみ存在しているスペクトルグループを抽出する。一対の隣接極小スペクトルとは、前述したように、周波数軸上に周波数順に並んでいる極小スペクトルのうちの1つと、周波数軸上において当該1つの極小スペクトルの次の周波数順である極小スペクトルとからなる、一対の極小スペクトルのことをいう。この抽出においては、当該一対の隣接極小スペクトルとスペクトルグループとの間に他のスペクトルが1つ以上挟まれていても、そのスペクトルグループは抽出される。
【0097】
第二の判定条件は、判定対象のスペクトルが、このようにして抽出されたスペクトルグループに含まれている極大スペクトルであることである。このようなスペクトルは、周波数軸上において近傍である他の(極大スペクトルでない)スペクトルに比べて、非定常度の時間変化量が際立って大きい極大スペクトルに限定される。
【0098】
なお、前述したスペクトルグループの抽出では、一対の隣接極小スペクトルの間にスペクトルグループが1グループのみ存在してさえいれば、抽出される。これに対し、第三の判定条件では、このスペクトルグループの抽出を、以下に説明するようにして更に厳しくする。
【0099】
すなわち、まず、周波数軸上において、抽出されたスペクトルグループと当該一対の隣接極小スペクトルとに挟まれている他のスペクトルの存在個数を、当該スペクトルグループに対する周波数軸上での上側及び下側の各々において計数する。そして、前述のようにして抽出されたスペクトルグループから、上述のようにして各々計数されたスペクトルの存在個数のどちらもが0若しくは所定の個数閾値以内であったものを、更に抽出する。この個数閾値の具体的な数値は、例えばサンプリング周波数が11025Hzの場合において「3」である。
【0100】
第三の判定条件は、判定対象のスペクトルが、このようにして更に抽出されたスペクトルグループに含まれている極大スペクトルであることである。このようなスペクトルは、周波数軸上において近傍である他の(極大スペクトルでない)スペクトルに比べて非定常度の時間変化量が、第二の判定条件に合致するものよりも更に際立って大きい極大スペクトルに限定される。
【0101】
雑音検出部15は、上述した3種類の判定条件のいずれか1つを用いて、判定対象のスペクトルが当該雑音条件に合致するか否かを判定することによって、判定対象のスペクトルが非定常雑音成分であるか否かの判定を行う。
【0102】
次に、ゲイン設定部16により行われる抑圧ゲインの設定手法について説明する。
ゲイン設定部16は、まず、雑音検出部15による非定常雑音の検出結果として、抑圧ゲインの設定対象であるスペクトルが非定常雑音成分でないと判定されていた場合には、当該スペクトルについての抑圧ゲインを「1.0」とする。この値が抑圧ゲインとして設定されたスペクトルに対して、出力用スペクトル生成部17で当該抑圧ゲインを乗算しても、乗算後の当該スペクトルの大きさは乗算前のものから変わらず、維持される。
【0103】
一方、ゲイン設定部16は、まず、雑音検出部15による非定常雑音の検出結果として、抑圧ゲインの設定対象であるスペクトルが非定常雑音成分であると判定されていた場合には、以下の3種類のうちのいずれかの手法を用いて、抑圧ゲインの設定を行う。
【0104】
その第一の手法は、抑圧ゲインの設定対象であるスペクトル(以下、「抑圧対象スペクトル」と称することとする。)に対して乗算すると、乗算後の当該スペクトルの大きさが乗算前のものから小さくなる固定値を、抑圧ゲインに設定するというものである。この固定値の具体的な数値は、例えば「0.5」である。
【0105】
また、その第二の手法は、前述した雑音検出部15が行う、スペクトルが非定常雑音成分であるか否かの判定の手法において用いられる上限閾値を利用して抑圧ゲインの設定を行うものである。具体的には、まず、周波数軸上に並べられている収音信号のスペクトルのうち前述の上限閾値よりも小さいスペクトルから、その周波数が、抑圧対象スペクトルの周波数の上下それぞれで最も近いものを1つずつ選択する。そして、選択した2つのスペクトルの大きさの平均値を、当該抑圧対象スペクトルの大きさで除算した値を、抑圧ゲインに設定する。
【0106】
また、その第三の手法は、定常雑音モデル推定部12により推定された、抑圧対象スペクトルの周波数についての定常雑音成分の量を利用して抑圧ゲインの設定を行うものである。より具体的には、定常雑音モデル推定部12が抑圧対象スペクトルの周波数について推定した定常雑音成分の量を、抑圧対象スペクトルの大きさで除算した値を、抑圧ゲインに設定する。
ゲイン設定部16は、非定常雑音成分であると判定されたスペクトルについての抑圧ゲインの設定を、上述した3種類の設定手法のいずれか1つを用いて行う。
【0107】
図3の雑音抑制装置は、各機能ブロックが以上のように機能することによって、収音信号のスペクトルの大きさが瞬時変化する特異点を捉え、その時刻における非定常度の変化度から発声音と雑音との判別を行う。こうして、人の発声音をマイク10で収音して得られる収音信号から、瞬時的な非定常雑音が抑制された出力信号の生成を可能にしている。
【0108】
図11は、図3の雑音抑制装置による雑音抑制の効果を表した波形例であり、収音信号として、図11の上段に示されている波形の収音信号を雑音抑制装置に入力した場合に得られる出力信号の波形が、図11の下段に示されている。図3の雑音抑制装置によれば、このように、発声音に混入した瞬時的な非定常雑音の抑圧が可能である。
【0109】
また、この雑音抑制装置は、瞬時的な非定常雑音が定常雑音に混入している場合にも非定常雑音のみを抑圧することができるので、定常雑音の抑圧を行うと発生することがある、いわゆるミュージカル雑音を低減することも可能である。
【0110】
なお、以上までに説明した実施形態に関し、更に以下の付記を開示する。
(付記1)
発音体の発音を収音して得た収音信号であって時間領域で表現されている該収音信号を周波数領域のスペクトルに変換する変換部と、
前記スペクトルの周波数毎に、各スペクトルを抑圧する程度を表す抑圧ゲインを、該各スペクトルについての非定常度の時間変化量に基づき設定する抑圧ゲイン設定部と、
前記抑圧ゲイン設定部により前記スペクトルの周波数毎に設定された前記抑圧ゲインに基づいて、前記各スペクトルを抑圧する処理を行うスペクトル抑圧処理部と、
前記スペクトル抑圧処理部による抑圧処理後のスペクトルに対して、前記変換部による変換の逆変換を施す逆変換部と、
を備えることを特徴とする雑音抑制装置。
(付記2)
前記抑圧ゲイン設定部は、
前記スペクトルの周波数毎に、各スペクトルに含まれている定常雑音成分の量を推定する定常雑音成分推定部と、
前記スペクトルの周波数毎に、各スペクトルの大きさと前記定常雑音成分推定部により推定された該各スペクトルについての前記定常雑音成分の量とに基づき、該各スペクトルに含まれる非定常成分の比率を、該各スペクトルについての非定常度として算出する非定常度算出部と、
を備え、前記非定常度算出部が前記スペクトルの周波数毎に算出した各スペクトルについての非定常度についての時間変化量に基づき、前記スペクトルの周波数毎の前記抑圧ゲインを設定する、
ことを特徴とする付記1に記載の雑音抑制装置。
(付記3)
前記定常雑音成分推定部は、前記スペクトルの周波数毎に、前記収音信号において前記発音体の発音が含まれていない期間におけるスペクトルの大きさの平均値を算出し、該平均値を前記定常雑音成分の量の推定結果とすることを特徴とする付記2に記載の雑音抑制装置。
(付記4)
前記抑圧ゲイン設定部は、前記スペクトルの周波数毎に、各スペクトルの成分が非定常雑音であるか否かの判定を、該各スペクトルについての非定常度の時間変化量に基づき行い、成分が非定常雑音であると判定したスペクトルについての抑圧ゲインをスペクトルの大きさが小さくなる値に設定し、成分が非定常雑音ではないと判定したスペクトルについての抑圧ゲインをスペクトルの大きさが維持される値に設定することを特徴とする付記1から3のうちのいずれか一項に記載の雑音抑制装置。
(付記5)
前記抑圧ゲイン設定部は、前記判定において、前記非定常度の時間変化量が所定の上限閾値よりも大きいスペクトルについては、スペクトルの成分が非定常雑音であるとの判定を下し、該時間変化量が該上限閾値よりも小さいスペクトルについては、スペクトルの成分が非定常雑音ではないとの判定を下すことを特徴とする付記4に記載の雑音抑制装置。
(付記6)
前記抑圧ゲイン設定部は、前記判定において、周波数軸上に並べられている前記スペクトルのうちで、前記非定常度の時間変化量が所定の上限閾値よりも大きいものを極大スペクトルとすると共に該時間変化量が所定の下限閾値よりも小さいものを極小スペクトルとし、該極大スペクトルを1つのみ含む、若しくは、該周波数軸上において連続している複数の該極大スペクトルを含むスペクトルグループであって、該周波数軸上に周波数順に並んでいる極小スペクトルのうちの1つと周波数軸上において該1つの極小スペクトルの次の周波数順である極小スペクトルとからなる一対の隣接極小スペクトルの間に該スペクトルグループが1グループのみ存在している場合の該スペクトルグループに含まれている極大スペクトルについては、スペクトルの成分が非定常雑音であるとの判定を下し、該スペクトルのうちのその他のスペクトルについては、スペクトルの成分が非定常雑音ではないとの判定を下すことを特徴とする付記4に記載の雑音抑制装置。
(付記7)
前記抑圧ゲイン設定部は、前記判定において、周波数軸上に並べられている前記スペクトルのうちで、前記非定常度の時間変化量が所定の上限閾値よりも大きいものを極大スペクトルとすると共に該時間変化量が所定の下限閾値よりも小さいものを極小スペクトルとし、該極大スペクトルを1つのみ含む、若しくは、該周波数軸上において連続している複数の該極大スペクトルを含むスペクトルグループであって、該周波数軸上に周波数順に並んでいる極小スペクトルのうちの1つと周波数軸上において該1つの極小スペクトルの次の周波数順である極小スペクトルとからなる一対の隣接極小スペクトルの間に該スペクトルグループが1グループのみ存在し、且つ、該周波数軸上において該スペクトルグループと該一対の隣接極小スペクトルとに挟まれている他のスペクトルの存在個数が、該スペクトルグループに対する該周波数軸上での上側及び下側の各々においてどちらも0若しくは所定の個数閾値以内である場合の該スペクトルグループに含まれている極大スペクトルについては、スペクトルの成分が非定常雑音であるとの判定を下し、該スペクトルのうちのその他のスペクトルについては、スペクトルの成分が非定常雑音ではないとの判定を下すことを特徴とする付記4に記載の雑音抑制装置。
(付記8)
前記抑圧ゲイン設定部は、周波数軸上に並べられている前記スペクトルのうちで前記上限閾値よりも小さいスペクトルから、周波数が、前記判定において成分が非定常雑音であると判定したスペクトルである抑圧対象スペクトルの周波数の上下でそれぞれ最も近いものを1つずつ選択し、選択した2つのスペクトルの大きさの平均値を該抑圧対象スペクトルの大きさで除算した値を、該抑圧対象スペクトルについての抑圧ゲインとして設定することを特徴とする付記5から7のうちのいずれか一項に記載の雑音抑制装置。
(付記9)
前記抑圧ゲイン設定部は、
前記収音信号に含まれている定常雑音成分の量を、前記スペクトルの周波数毎に推定する定常雑音成分推定部を備え、
前記スペクトルの周波数毎に、各スペクトルの成分が非定常雑音であるか否かの判定を、該各スペクトルについての非定常度の時間変化量に基づき行い、成分が非定常雑音であると判定したスペクトルである抑圧対象スペクトルについての抑圧ゲインとしては、該定常雑音成分推定部が該抑圧対象スペクトルの周波数について推定した定常雑音成分の量を該抑圧対象スペクトルの大きさで除算した値を設定し、該成分が非定常雑音ではないと判定したスペクトルについての抑圧ゲインとしては、スペクトルの大きさが維持される値を設定する、
ことを特徴とする付記1に記載の雑音抑制装置。
(付記10)
前記非定常度算出部は、前記スペクトルの周波数毎に、各スペクトルの信号対雑音比の算出を、各スペクトルの大きさを前記定常雑音成分推定部により推定された該各スペクトルについての前記定常雑音成分の量で除算して行い、算出された信号対雑音比が所定の第一閾値よりも小さいスペクトルについては、該スペクトルについての非定常度を0とし、算出された信号対雑音比が、該第一閾値よりも大きい所定の第二閾値よりも更に大きいスペクトルについては、該スペクトルについての非定常度を1とし、算出された信号対雑音比が該第一閾値よりも大きく該第二閾値よりも小さいスペクトルについては、該信号対雑音比から該第一の閾値を減算した値を、該第二閾値から該第一閾値を減算した値で除算して得られる値を、該スペクトルについての非定常度とすることを特徴とする付記2に記載の雑音抑制装置。
(付記11)
前記非定常度算出部は、前記第一閾値と前記第二閾値との組み合わせを複数組有しており、前記非定常度の算出対象であるスペクトルの周波数に応じて1組選択される組み合わせに属している第一閾値及び第二閾値を用いて、該スペクトルについての非定常度の算出を行うことを特徴とする付記10に記載の雑音抑制装置。
(付記12)
前記非定常度算出部は、前記スペクトルの周波数毎に、前記収音信号において前記発音体の発音が含まれていない期間における、各スペクトルの大きさと前記定常雑音成分推定部が推定した該定常雑音成分の量との差分の絶対値の平均値を算出して、定常雑音成分の量に差分の絶対値の平均値を加算し定常雑音成分の量で除した値を該各スペクトルについての前記第一閾値とし、該第一閾値に所定の定数値を加算した値を該各スペクトルについての前記第二閾値とし、該第一閾値及び該第二閾値を用いて、該各スペクトルについての非定常度の算出を行うことを特徴とする付記10に記載の雑音抑制装置。
(付記13)
発音体の発音を収音して得た収音信号であって時間領域で表現されている該収音信号を周波数領域のスペクトルに変換し、
前記スペクトルの周波数毎に、各スペクトルを抑圧する程度を表す抑圧ゲインを、該各スペクトルについての非定常度の時間変化量に基づき設定し、
前記スペクトルの周波数毎に設定した前記抑圧ゲインに基づいて、前記各スペクトルを抑圧する処理を行い、
前記各スペクトルを抑圧する処理後のスペクトルに対して、前記変換の逆変換を施す、
ことを特徴とする雑音抑制方法。
(付記14)
発音体の発音を収音して得た収音信号であって時間領域で表現されている該収音信号を周波数領域のスペクトルに変換し、
前記スペクトルの周波数毎に、各スペクトルを抑圧する程度を表す抑圧ゲインを、該各スペクトルについての非定常度の時間変化量に基づき設定し、
前記スペクトルの周波数毎に設定した前記抑圧ゲインに基づいて、前記各スペクトルを抑圧し、
前記各スペクトルを抑圧する処理後のスペクトルに対して、前記変換の逆変換を施す、
処理をコンピュータに実行させるプログラム。
【符号の説明】
【0111】
1 変換部
2 抑圧ゲイン設定部
3 スペクトル抑圧処理部
4 逆変換部
5 定常雑音成分推定部
6 非定常度算出部
10 マイク
11 FFT部
12 定常雑音モデル推定部
13 非定常度算出部
14 非定常度時間変化量算出部
15 雑音検出部
16 ゲイン設定部
17 出力用スペクトル生成部
18 IFFT部
20 コンピュータ
21 MPU
22 ROM
23 RAM
24 ハードディスク装置
25 入力装置
26 表示装置
27 インタフェース装置
28 記録媒体駆動装置
29 バスライン
30 可搬型記録媒体

【特許請求の範囲】
【請求項1】
発音体の発音を収音して得た収音信号であって時間領域で表現されている該収音信号を周波数領域のスペクトルに変換する変換部と、
前記スペクトルの周波数毎に、各スペクトルを抑圧する程度を表す抑圧ゲインを、該各スペクトルについての非定常度の時間変化量に基づき設定する抑圧ゲイン設定部と、
前記抑圧ゲイン設定部により前記スペクトルの周波数毎に設定された前記抑圧ゲインに基づいて、前記各スペクトルを抑圧する処理を行うスペクトル抑圧処理部と、
前記スペクトル抑圧処理部による抑圧処理後のスペクトルに対して、前記変換部による変換の逆変換を施す逆変換部と、
を備えることを特徴とする雑音抑制装置。
【請求項2】
前記抑圧ゲイン設定部は、
前記スペクトルの周波数毎に、各スペクトルに含まれている定常雑音成分の量を推定する定常雑音成分推定部と、
前記スペクトルの周波数毎に、各スペクトルの大きさと前記定常雑音成分推定部により推定された該各スペクトルについての前記定常雑音成分の量とに基づき、該各スペクトルに含まれる非定常成分の比率を、該各スペクトルについての非定常度として算出する非定常度算出部と、
を備え、前記非定常度算出部が前記スペクトルの周波数毎に算出した各スペクトルについての非定常度についての時間変化量に基づき、前記スペクトルの周波数毎の前記抑圧ゲインを設定する、
ことを特徴とする請求項1に記載の雑音抑制装置。
【請求項3】
前記定常雑音成分推定部は、前記スペクトルの周波数毎に、前記収音信号において前記発音体の発音が含まれていない期間におけるスペクトルの大きさの平均値を算出し、該平均値を前記定常雑音成分の量の推定結果とすることを特徴とする請求項2に記載の雑音抑制装置。
【請求項4】
前記抑圧ゲイン設定部は、前記スペクトルの周波数毎に、各スペクトルの成分が非定常雑音であるか否かの判定を、該各スペクトルについての非定常度の時間変化量に基づき行い、成分が非定常雑音であると判定したスペクトルについての抑圧ゲインをスペクトルの大きさが小さくなる値に設定し、成分が非定常雑音ではないと判定したスペクトルについての抑圧ゲインをスペクトルの大きさが維持される値に設定することを特徴とする請求項1から3のうちのいずれか一項に記載の雑音抑制装置。
【請求項5】
前記抑圧ゲイン設定部は、前記判定において、前記非定常度の時間変化量が所定の上限閾値よりも大きいスペクトルについては、スペクトルの成分が非定常雑音であるとの判定を下し、該時間変化量が該上限閾値よりも小さいスペクトルについては、スペクトルの成分が非定常雑音ではないとの判定を下すことを特徴とする請求項4に記載の雑音抑制装置。
【請求項6】
前記抑圧ゲイン設定部は、周波数軸上に並べられている前記スペクトルのうちで前記上限閾値よりも小さいスペクトルから、周波数が、前記判定において成分が非定常雑音であると判定したスペクトルである抑圧対象スペクトルの周波数の上下でそれぞれ最も近いものを1つずつ選択し、選択した2つのスペクトルの大きさの平均値を該抑圧対象スペクトルの大きさで除算した値を、該抑圧対象スペクトルについての抑圧ゲインとして設定することを特徴とする請求項5に記載の雑音抑制装置。
【請求項7】
発音体の発音を収音して得た収音信号であって時間領域で表現されている該収音信号を周波数領域のスペクトルに変換し、
前記スペクトルの周波数毎に、各スペクトルを抑圧する程度を表す抑圧ゲインを、該各スペクトルについての非定常度の時間変化量に基づき設定し、
前記スペクトルの周波数毎に設定した前記抑圧ゲインに基づいて、前記各スペクトルを抑圧する処理を行い、
前記各スペクトルを抑圧する処理後のスペクトルに対して、前記変換の逆変換を施す、
ことを特徴とする雑音抑制方法。
【請求項8】
発音体の発音を収音して得た収音信号であって時間領域で表現されている該収音信号を周波数領域のスペクトルに変換し、
前記スペクトルの周波数毎に、各スペクトルを抑圧する程度を表す抑圧ゲインを、該各スペクトルについての非定常度の時間変化量に基づき設定し、
前記スペクトルの周波数毎に設定した前記抑圧ゲインに基づいて、前記各スペクトルを抑圧し、
前記各スペクトルを抑圧する処理後のスペクトルに対して、前記変換の逆変換を施す、
処理をコンピュータに実行させるプログラム。

【図1】
image rotate

【図4】
image rotate

【図5】
image rotate

【図7】
image rotate

【図8A】
image rotate

【図8B】
image rotate

【図2】
image rotate

【図3】
image rotate

【図6】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate


【公開番号】特開2012−113173(P2012−113173A)
【公開日】平成24年6月14日(2012.6.14)
【国際特許分類】
【出願番号】特願2010−262922(P2010−262922)
【出願日】平成22年11月25日(2010.11.25)
【出願人】(000005223)富士通株式会社 (25,993)