説明

バックグラウンドノイズ推定

【課題】バックグラウンドノイズのパワースペクトル密度を推定するシステムを提供すること。
【解決手段】音響的なバックグラウンドノイズのパワースペクトル密度を推定するシステムであって、バックグラウンドノイズを表すノイズ信号を生成するセンサユニットと、パワースペクトル密度計算ユニットと、時間領域信号平滑化ユニットと、周波数領域信号平滑化ユニットと、増分計算ユニットと、減分計算ユニットと、推定信号平滑化ユニットとを備える。

【発明の詳細な説明】
【技術分野】
【0001】
(技術分野)
本発明は、バックグラウンドノイズを推定するシステムおよび方法に関し、特に、同時のスピーチアクティビティの間にバックグラウンドノイズを推定するシステムおよび方法に関する。
【背景技術】
【0002】
(背景)
受信器の情報内容に寄与しない、そしてそのために擾乱とはみなされない音波は、一般的に、バックグラウンドノイズといわれる。バックグラウンドノイズの発展の過程は、典型的に3つのさまざまな段階に分類され得る。これらは、1つ以上の供給源によるノイズの放出、ノイズの移送、そしてノイズの受容である。第1にノイズ信号(例えば、バックグラウンドノイズ)をノイズ自体の供給源において抑制し、その後信号の移送を抑制することによる試行がなされることが明らかである。しかしながら、ノイズ信号の放出は、多くの場合において所望のレベルまで低減され得ない。なぜなら、例えば、時間および位置に対して自然発生的に発生する周囲ノイズは、不十分に制御され得るのみであるか、またはまったく制御されないからである。
【0003】
望ましくないバックグラウンドノイズの発生の典型的な例は、自動車の乗客エリアにおけるハンズフリー電話の使用である。一般的に、このような場合に使用される用語「バックグラウンドノイズ」は、外部の大きな影響の音(例えば、周囲ノイズまたは自動車の乗客エリアにおいて知覚されるノイズ)、および、機械的な振動によって引き起こされる音(例えば、自動車の乗客エリアまたはトランスミッションシステムにおける音)の両方を含む。これらの信号が望ましくない場合には、これらの信号はノイズといわれる。音楽または音声信号が、自動車の内部のような騒々しい環境において電気音響システムを介して伝送される場合にはいつでも、信号の質またはわかりやすさ(comprehensibility)は、通常、バックグラウンドノイズに起因して悪化する。バックグラウンドノイズは、外部ノイズ供給源(例えば、風、エンジン、タイヤ、ファンおよび車両内の他の電力ユニット)によって引き起こされ得る。それゆえ、速度、道路状況および自動車内の動作状態に直接的に関連する。
【0004】
バックグラウンドノイズを含むノイズ信号を低減するために、そして結果として移送される音声信号の主観的な質およびわかりやすさを向上させるために、ノイズ低減システムが実装される。公知のシステムは、好適には、ノイズ信号の推定パワースペクトルに基づいて、周波数領域で動作する。このアプローチの不利な点は、音声信号が同時に発生する場合、そのスペクトル情報が最初にパワースペクトル密度の推定に含まれることである。結果として、引き続くフィルタリング回路において、バックグラウンドノイズ信号が所望のように低減されるだけでなく、音声信号自体も低減され、このことは望ましくない。このことを防ぐために、公知の方法(例えば、音声検出)が、音声信号中の望ましくない低減を回避するために用いられる。しかしながら、このような方法に対する実装の支出は魅力的でないほどに高い。
【0005】
別の公知の方法において、パワースペクトル密度は、任意の音声検出をせずに平滑フィルタを用いて推定される。ここでは、音声信号のレベルのタイミング特性が、典型的には、バックグラウンドノイズのレベル特性と有意に異なっているという事実が利点となる。このことは、特に、音声信号のレベルの変化のダイナミクスが、バックグラウンドノイズのレベルの典型的な変化よりも、大きく、かなり短い間隔で発生することに起因している。バックグラウンドノイズのレベルが変化する場合にはいつでも、バックグラウンドノイズの推定パワースペクトル密度を、パワースペクトル密度の実際のレベルに近似するために、公知のアルゴリズムは、それゆえ、音声信号のレベルダイナミクスと比較すると、一定の恒久的に定義された所定の小さい増分または減分を用いる。それゆえ、非常に短い期間内に発生する音声信号のレベル変化は、上述の方法と比較すると、バックグラウンドノイズのパワースペクトル密度の推定に、望ましくない精度を落とす(corrupting)効果をまったく有しない。
【0006】
しかし、この方法の不利な点は、例えば、事前に、低レベルのバックグラウンドノイズスペクトルのパワースペクトル密度が検出された場合、すなわちバックグラウンドノイズのレベルが素早く、連続的に比較的短い期間で上昇する場合、推定パワースペクトル密度のレベルを実際の高い値に上昇させるためには、その遅い応答に起因して、上述のアルゴリズムが長すぎるということである。バックグラウンドノイズのパワースペクトル密度のレベルに対する大きな推定値が事前に決定され、アルゴリズムがバックグラウンドノイズのパワースペクトル密度の値における比較的素早い降下を再生する必要がある場合、すなわち、短い時間期間内でのバックグラウンドノイズのレベルの素早い連続的な低減がある場合にも同じことがいえる。
【0007】
アルゴリズムのゆるやかさ(sluggishness)は、アルゴリズムの制御時間定数における増分または減分が、バックグラウンドノイズのパワースペクトルの実際のレベルへの、バックグラウンドノイズの推定パワースペクトルの近似のためには、十分に小さくなる必要があるという事実に起因する。このことは、パワースペクトル密度の推定と、同時に発生する音声信号との間の望ましくない依存性を防ぐ。上記のアルゴリズムは、比較的短い時間期間内に発生するバックグラウンドノイズのレベルにおける大きな連続的変化に対して十分に早く応答しない。特に、このアルゴリズムは、短期間に対するレベルの大きな上昇(例えば、自動車の乗客区画におけるバックグラウンドノイズにおいて経験され得る)に対しても十分に早く応答しない。
【発明の概要】
【発明が解決しようとする課題】
【0008】
短い時間期間内で発生するバックグラウンドノイズのレベルの変化(特にバックグラウンドノイズ内の短寿命で大きな上昇)に対して満足のいく速度で応答する、バックグラウンドノイズのパワースペクトル密度の推定に対するニーズが存在する。
【課題を解決するための手段】
【0009】
(概要)
音響的なバックグラウンドノイズのパワースペクトル密度を推定するシステムが提供され、該システムは、バックグラウンドノイズを表すノイズ信号を生成するセンサユニットと、パワースペクトル密度計算ユニットであって、該パワースペクトル密度計算ユニットは、連続的な計算サイクルを配置することによってノイズ信号から現在のパワースペクトル密度を連続的に決定するように適合され、対応するパワースペクトル密度出力信号を提供するように適合された、計算ユニットと、時間領域信号平滑化ユニットであって、該時間領域信号平滑化ユニットは、パワースペクトル密度出力信号を時間領域内で平滑化するように適合され、結果として生じる時間的に平滑化された信号を提供するように適合された、時間領域信号平滑化ユニットと、周波数領域信号平滑化ユニットであって、該周波数領域信号平滑化ユニットは、時間領域信号平滑化ユニットから受信された時間的に平滑化された信号を周波数領域内で平滑化するように適合され、結果として生じる平滑化パワースペクトル密度信号を提供する用に適合された、周波数領域信号平滑化ユニットと、増分計算ユニットであって、バックグラウンドノイズのパワースペクトル密度の推定値に依存した増分の計算のために適合された、増分計算ユニットと、減分計算ユニットであって、バックグラウンドノイズのパワースペクトル密度の推定値に依存した減分の計算のために適合された、減分計算ユニットと、推定信号平滑化ユニットであって、増分および減分から、バックグラウンドノイズのパワースペクトル密度の推定値を計算するように適合されている、推定信号平滑化ユニットとを備える。平滑化パワースペクトル密度信号のレベルが増加する場合において、最大増分値が、同時に、新しい計算サイクルにおいて現在決定された該パワースペクトル密度の値が、事前の計算サイクルにおいて決定された該バックグラウンドノイズのパワースペクトル密度の該推定値該増分値よりも大きくなる場合に達成するまで、最小増分値から開始して、所定量だけ該増分が増加する。平滑化パワースペクトル密度信号のレベルが減少する場合において、最大減分値が、同時に、新しい計算サイクルにおいて現在決定された該パワースペクトル密度の値が、事前の計算サイクルにおいて決定された該バックグラウンドノイズのパワースペクトル密度の該推定値該増分値よりも小さくなる場合に達成するまで、最小減分値から開始して、所定量だけ該減分が増加する。
【0010】
例えば、本発明は以下の項目を提供する。
(項目1)
音響的なバックグラウンドノイズのパワースペクトル密度を推定するシステムであって、該システムは、
該バックグラウンドノイズを表すノイズ信号を生成するセンサユニットと、
連続計算サイクルを配置することによって、該ノイズ信号から現在のパワースペクトル密度を連続的に決定するように適合され、対応するパワースペクトル密度出力信号を提供するように適合されたパワースペクトル密度計算ユニットと、
該パワースペクトル密度出力信号を時間領域で平滑化するように適合され、結果として生じる時間的に平滑化された信号を提供するように適合された時間領域信号平滑化ユニットと、
該時間領域信号平滑化ユニットから受信された該時間的に平滑化された信号を周波数領域で平滑化するように適合され、結果として生じる平滑化パワースペクトル密度信号を提供するように適合された周波数領域信号平滑化ユニットと、
該バックグラウンドノイズの該パワースペクトル密度の推定値に依存した増分の計算のために適合された増分計算ユニットと、
該バックグラウンドノイズの該パワースペクトル密度の該推定値に依存した減分の計算のために適合された減分計算ユニットと、
該増分および減分から、該バックグラウンドノイズの該パワースペクトル密度の該推定値を計算するように適合された推定信号平滑化ユニットと
を備え、
該平滑化パワースペクトル密度信号のレベルが増加する場合において、最大増分値が、同時に、新しい計算サイクルにおいて現在決定された該パワースペクトル密度の値が、事前の計算サイクルにおいて決定された該バックグラウンドノイズのパワースペクトル密度の該推定値該増分値よりも大きくなる場合に達成するまで、最小増分値から開始して、所定量だけ該増分が増加し、
該平滑化パワースペクトル密度信号のレベルが減少する場合において、最大減分値が、同時に、新しい計算サイクルにおいて現在決定された該パワースペクトル密度の値が、事前の計算サイクルにおいて決定された該バックグラウンドノイズのパワースペクトル密度の該推定値該増分値よりも小さくなる場合に達成するまで、最小減分値から開始して、所定量だけ該減分が増加する、システム。
(項目2)
誤差信号を提供する適応フィルタをさらに備え、上記パワースペクトル密度計算ユニットは、連続計算サイクルを配置する該適応フィルタの該誤差信号から現在のパワースペクトル密度を決定するように適合され、上記システムは、対応するパワースペクトル密度出力信号および対応する平滑化パワースペクトル密度信号を提供するように適合される、上記項目に記載のシステム。
(項目3)
上記システムは、
新しい計算サイクルにおいて決定された上記パワースペクトル密度の現在の値が、事前の計算サイクルにおいて計算された上記バックグラウンドノイズの該パワースペクトル密度の推定値よりも小さい場合に、上記増分値の計算のモードから、上記減分値の計算のモードまで該バックグラウンドノイズの該パワースペクトル密度を推定する計算を変化することであって、該システムは該増分値の現在の値を最小増分値に再設定するように適合されている、ことと、
新しい計算サイクルにおいて決定された該パワースペクトル密度の現在の値が、事前の計算サイクルにおいて計算された該バックグラウンドノイズの該パワースペクトル密度の推定値よりも大きい場合に、該減分値の計算のモードから、該増分値の計算のモードまで該バックグラウンドノイズの該パワースペクトル密度を推定する計算を変化することであって、該システムは該減分値の現在の値を最小減分値に再設定するように適合されている、ことと
を行うように適合されている、上記項目のいずれかに記載のシステム。
(項目4)
上記システムは、上記バックグラウンドノイズの上記パワースペクトル密度の上記推定値を減分する場合には、該推定値の低減を一定の規定値まで制限するように適合され、その結果、該バックグラウンドノイズの該パワースペクトル密度の該推定値は、上記現在計算された値にかかわらず最小値未満に減少する、上記項目のいずれかに記載のシステム。
(項目5)
上記時間領域信号平滑化ユニットは、2つの異なる時間定数を利用して時間に対する現在測定されたパワースペクトル密度の平滑化のために適合され、該2つの異なる時間定数のうちの1つは上昇信号の場合のためのものであり、該2つの異なる時間定数のうちの1つは減少信号の場合のためのものである、上記項目のいずれかに記載のシステム。
(項目6)
上記周波数領域信号平滑化ユニットは、周波数平滑化第3係数を用いて最小周波数から上方に開始する、そして/または周波数平滑化第4係数を用いて最大周波数から下方に開始する、上記時間領域信号ユニットからの上記時間的に平滑化された信号の平滑化のために適合されている、上記項目のいずれかに記載のシステム。
(項目7)
現在測定されたパワースペクトル密度の時間に対する平滑化のための第1および第2の係数は、ヒトの耳の心理音響学的感覚特性を表し、そして/または、
該現在測定されたパワースペクトル密度の周波数に対する平滑化のための第3および第4の係数は、該ヒトの耳の心理音響学的感覚特性を表す、上記項目のいずれかに記載のシステム。
(項目8)
上記増分値の増加の値は、現在測定されたパワースペクトル密度の上記平滑化パワースペクトル密度信号内の各スペクトル位置に対して異なる値を用いて個別に選択され、上記減分値の増加の値は、現在測定されたパワースペクトル密度の該平滑化パワースペクトル密度信号内の各スペクトル位置に対して異なる値を用いて選択される、上記項目のいずれかに記載のシステム。
(項目9)
上記システムは、心理音響学的感覚知覚に対応する周波数群内の平滑化パワースペクトル密度または非平滑化パワースペクトル密度のスペクトル成分を、さらなる処理の前に、各周波数群に対する単一の結合信号に統合するように適合されている、上記項目のいずれかに記載のシステム。
(項目10)
音響的なバックグラウンドノイズのパワースペクトル密度の推定方法であって、該方法は、
パワースペクトル密度計算ユニットによって、マイクロフォン信号からの現在のパワースペクトル密度を決定し、対応するパワースペクトル密度出力信号を提供するステップと、
該提供されたパワースペクトル密度出力信号を時間領域内で平滑化して、結果として生じる時間的に平滑化された信号を提供するステップと、
該時間的に平滑化された信号を周波数領域で平滑化して、結果として生じる平滑化パワースペクトル密度信号を提供するステップと、
該バックグラウンドノイズのパワースペクトル密度の推定値に依存して増分を計算するステップと、
該バックグラウンドノイズの該パワースペクトル密度の推定値に依存して減分を計算するステップと、
該増分および減分から、該バックグラウンドノイズの該パワースペクトル密度の該推定値を計算するステップと
を包含し、
該平滑化パワースペクトル密度信号のレベルが増加する場合において、最大増分値が、同時に、新しい計算サイクルにおいて現在決定された該パワースペクトル密度の値が、事前の計算サイクルにおいて決定された該バックグラウンドノイズの該パワースペクトル密度の該推定値よりも大きくなる場合に達成するまで、最小増分値から開始して、所定量だけ該増分が増加し、
該平滑化パワースペクトル密度信号のレベルが減少する場合において、最大減分値が、同時に、新しい計算サイクルにおいて現在決定された該パワースペクトル密度の値が、事前の計算サイクルにおいて決定された該バックグラウンドノイズのパワースペクトル密度の該推定値よりも小さくなる場合に達成するまで、最小減分値から開始して、所定量だけ該減分が増加する、方法。
(項目11)
連続的な計算サイクルを配置することによって、適応フィルタから導出された誤差信号から現在のパワースペクトル密度を決定するステップと、
対応するパワースペクトル密度出力信号および対応する平滑化パワースペクトル密度信号を提供するステップと、
をさらに包含する、上記項目に記載の方法。
(項目12)
新しい計算サイクルにおいて決定された上記パワースペクトル密度の現在の値が、事前の計算サイクルにおいて計算された上記バックグラウンドノイズの該パワースペクトル密度の推定値よりも小さい場合に、上記増分値の計算のモードから、上記減分値の計算のモードに、該バックグラウンドノイズの該パワースペクトル密度を推定する計算を変化するステップであって、該増分値の現在の値は最小増分値に再設定される、ステップと、
新しい計算サイクルにおいて決定された該パワースペクトル密度の現在の値が、事前の計算サイクルにおいて計算された該バックグラウンドノイズの該パワースペクトル密度の推定値よりも大きい場合に、該減分値の計算のモードから、該増分値の計算のモードに、該バックグラウンドノイズの該パワースペクトル密度を推定する計算を変化するステップであって、該減分値の現在の値は最小減分値に再設定される、ステップと
をさらに包含する、上記項目のいずれかに記載の方法。
(項目13)
上記バックグラウンドノイズの上記パワースペクトル密度の上記推定値を減分する場合には、該推定値の低減を一定の規定値まで制限するステップをさらに包含し、その結果、該バックグラウンドノイズの該パワースペクトル密度の該推定値は、上記現在計算された値にかかわらず最小値未満に減少する、上記項目のいずれかに記載の方法。
(項目14)
2つの異なる時間定数を利用して時間に対する現在測定されたパワースペクトル密度を上記時間領域内で平滑化するステップをさらに包含し、該2つの異なる時間定数のうちの1つは上昇信号の場合のためのものであり、該2つの異なる時間定数のうちの1つは減少信号の場合のためのものである、上記項目のいずれかに記載の方法。
(項目15)
周波数平滑化第3係数を用いて最小周波数から上方に開始する、そして/または周波数平滑化第4係数を用いて最大周波数から下方に開始する、上記時間領域信号平滑化ユニットからの時間的に平滑化された信号を周波数領域内で平滑化するステップを包含する、上記項目のいずれかに記載の方法。
(項目16)
現在測定されたパワースペクトル密度の時間に対する平滑化のための第1および第2の係数は、ヒトの耳の心理音響学的感覚特性を表し、そして/または、
該現在測定されたパワースペクトル密度の周波数に対する平滑化のための第3および第4の係数は、該ヒトの耳の心理音響学的感覚特性を表す、上記項目のいずれかに記載の方法。
(項目17)
上記増分値の増加の値は、現在測定されたパワースペクトル密度の上記(平滑化)パワースペクトル密度信号内の各スペクトル位置に対して異なる値を用いて個別に選択され、上記減分値の増加の値は、現在測定されたパワースペクトル密度の該(平滑化)パワースペクトル密度信号内の各スペクトル位置に対して異なる値を用いて個別に選択される、上記項目のいずれかに記載の方法。
(項目18)
心理音響学的感覚知覚に対応する周波数群内の(平滑化)パワースペクトル密度のスペクトル成分を、さらなる処理の前に、各周波数群に対する単一の結合信号に統合する、上記項目のいずれかに記載の方法。
【0011】
(摘要)
音響的なバックグラウンドノイズのパワースペクトル密度を推定するシステムおよび方法が提示され、ここでは、平滑化パワースペクトル密度信号のレベルが増加する場合において、最大増分値が、同時に、新しい計算サイクルにおいて現在決定された該パワースペクトル密度の値が、事前の計算サイクルにおいて決定された該バックグラウンドノイズのパワースペクトル密度の該推定値該増分値よりも大きくなる場合に達成するまで、最小増分値から開始して、所定量だけ該増分が増加する。平滑化パワースペクトル密度信号のレベルが減少する場合において、最大減分値が、同時に、新しい計算サイクルにおいて現在決定された該パワースペクトル密度の値が、事前の計算サイクルにおいて決定された該バックグラウンドノイズのパワースペクトル密度の該推定値該増分値よりも小さくなる場合に達成するまで、最小減分値から開始して、所定量だけ該減分が増加する。
【0012】
本発明は、以下の図面および説明を参照してより良く理解され得る。図面内の構成要素は、必ずしも縮尺が合わされておらず、代わりに、本発明の原理を説明する際に強調がなされている。さらに、図面においては、類似の参照番号が、対応する部分を指定する。
【図面の簡単な説明】
【0013】
【図1】図1は、最小二乗平均(LMS)アルゴリズムを用いた適応フィルタの信号の流れを示すフローチャートである。
【図2】図2は、メモリレス平滑化フィルタの信号フローチャートである。
【図3】図3は、バックグラウンドノイズを推定する新規のシステムの信号フローチャートである。
【図4】図4は、正弦信号および広帯域ノイズ信号のレベルの関数としてラウドネスを示すグラフである。
【図5】図5は、ホワイトノイズを介したマスキングを示すグラフである。
【図6】図6は、周波数領域におけるマスキングを示すグラフである。
【図7】図7は、周波数群、中間周波数250Hz、1kHzおよび4kHzにおける広い狭帯域ノイズに対するマスキングされた閾値を示すグラフである。
【図8】図8は、正弦音響信号によるマスキングを示すグラフである。
【図9】図9は、同時マスキング、プレマスキング、およびポストマスキングの表現である。
【図10】図10は、テストトーンインパルスのラウドネスインプレッションと持続期間との関係を示すグラフである。
【図11】図11は、テストトーンインパルスのマスキングされた閾値と繰り返し数との関係を示すグラフである。
【図12】図12は、ポストマスキングを示すグラフである。
【図13】図13は、マスカーの持続期間に対するポストマスキングを示すグラフである。
【図14】図14は、複素音響信号による同時マスキングを示すグラフである。
【発明を実施するための形態】
【0014】
(詳細な説明)
以下に開示される例において、バックグラウンドノイズのパワースペクトル密度は、マイクロフォン信号から直接的に、または適応フィルタの誤差信号から推定される。適応方法およびシステムは、アルゴリズムが、周囲状況の変化(例えば、時間に対するレベルおよびスペクトル成分の変化を受けるノイズ信号に対する変化)への、それらのフィルタ係数の一定の修正に対して自動的に適合されることである。この能力は、パラメータを連続的に最適化するシステム構造によって提供される。このようなシステムにおいて、入力センサ(例えば、マイクロフォン)は、1つ以上のノイズ供給源によって生成された望ましくないノイズ(例えば、バックグラウンドノイズ)を表す信号を得るために用いられる。次いで、信号は、適応フィルタの入力にルーティングされ、フィルタによって処理されて出力信号を生成し、この出力信号は、望ましくないノイズ信号が与えられると有用な信号(例えば、音声信号)から差し引かれ、適応フィルタの入力信号と、望ましくないノイズ信号との相関が、有用な信号と共に発生する。この差し引きから得られる出力信号は、また、適応フィルタに対する誤差信号ともいわれる。望ましくないノイズを表す入力センサの信号と共に、誤差信号は、観測されるエコーのレベル全体を適応して最小化させるために、パラメータの修正および適応フィルタの特性の基本を形成する。
【0015】
使用される適応アルゴリズムは、いわゆる最小二乗平均(LMS)アルゴリズムの変形(例えば、帰納的最小二乗、QR分解最小二乗、最小二乗格子、QR分解格子または勾配適応格子、Zero Forcing確率的勾配法など)であり得る。適応フィルタとともに非常に一般的に使用されるLMSアルゴリズムは、適応フィルタの実装の間にしばしば遭遇する親しみやすい最小二乗平均問題の解の近似のためのアルゴリズムを表す。アルゴリズムは、いわゆる最急降下法(減少勾配方法)に基づいており、単純な態様で勾配を推定する。アルゴリズムは、時間的に帰納的に機能する。換言すると、アルゴリズムは各データセットに対して実行され、解が更新される。LMSアルゴリズムは、低レベルの複雑性および引き続く低い計算機能力要件を提供し、加えて、その数学的安定性および低メモリ要件を提供する。
【0016】
無限インパルス応答(IIR)フィルタまたは有限インパルス応答(FIR)フィルタは、適応フィルタ構造として一般的に用いられる。FIRフィルタは、有限インパルス応答を有する特性として有し、この特性は絶対的な安定状態にする。n次FIRフィルタは、以下の微分方程式により定義される。
【0017】
【数1】

ここでy(n)は、時間nにおける初期値であり、フィルタ係数bで重み付けされたN個のサンプリングされた入力値x(n−N)〜x(n)の合計値から計算される。所望の伝達関数は、フィルタ係数bの定義により実現される。
【0018】
FIRフィルタとは異なり、既に計算された初期値は、また、IIRフィルタ(帰納フィルタ)を用いた計算に含まれる。このようなフィルタは、無限インパルス応答を有する。有限時間経過後に、計算値が非常に小さくなるので、この計算は、実際には、有限数のサンプル値nの後で終端される。IIRフィルタを支配する式は、以下のようになる。
【0019】
【数2】

ここでy(n)は、時間nにおける初期値であり、フィルタ係数bで重み付けされたN個のサンプリングされた入力値x(n−N)〜x(n)の合計値から計算され、フィルタ係数aで重み付けされた出力値y(n)の合計が加算される。所望の伝達関数は、フィルタ係数aおよびbの定義により実現される。IIRフィルタは、FIRフィルタに比べると安定し得ないが、同一の仕事量での実現性により大きな選択性を有し得る。実際には、それぞれの条件および関連する出費への考慮のもとに関連する要件を最良に満たすフィルタが選ばれる。
【0020】
図1は、例示的なFIRフィルタの繰り返しの適応のための典型的なLMSアルゴリズムの信号フローを示す。入力信号x[n]は、適応LMSアルゴリズムに対する基準信号として選ばれ、信号d[n]は、第2の入力信号として得られる。信号d[n]は、未知のシステムの伝達関数を用いてフィルタリングすることにより入力信号x[n]から導かれ、この伝達関数は、バックグラウンドノイズを重ね合わされ、適応フィルタによって近似されやすい。これらの入力信号は、音響信号であり得、例えば、マイクロフォンによって電気信号に変換される。しかし、同様に、これらの入力信号は、機械的振動を適応させるセンサまたは積算回転計によっても生成される電気信号であり得るか、この電気信号を含み得る。
【0021】
図1は、また、N次のFIRフィルタを示し、このN次のFIRフィルタによって、入力信号x[n]は、離散時間nに対して信号y[n]に変換される。フィルタのN個の係数は、b[n],b[n]...b[n]で識別される。適応アルゴリズムは、信号d[n]とフィルタリングされた入力信号y[n](出力信号)との差分信号である誤差信号e[n]が最小になるまで、フィルタ係数b[n],b[n]...b[n]を繰り返し変化させる。信号d[n]は、未知のシステムによって歪まされた入力信号x[n]であり、この入力信号は、また、さらに存在する場合にはバックグラウンドノイズを含む。
【0022】
一般的に、適応フィルタに入力される信号x[n]およびd[n]の両方が、確率信号である。音響エコー相殺システムの場合では、上記信号は、例えば、ノイジーな測定信号または通信信号である。誤差信号e[n]および平均誤差二乗の出力、いわゆる平均二乗誤差(MSE)は、こうして、適応に対する品質基準として用いられ、ここで、
MSE=E{e[n]}
である。
【0023】
MSEによって表される品質基準は、単純な帰納アルゴリズム(例えば、公知の最小二乗平均(LMS)アルゴリズム)によって最小化され得る。最小二乗平均方法を用いて、最小化される関数は、誤差の二乗である。すなわち、誤差二乗の最小値に対する向上した近似を決定するために、定数を乗算された誤差自体のみが、最後の事前決定された近似値にかさされなければならない。適応FIRフィルタは、これにより、少なくともアプローチされる未知のシステムの未知のインパルス応答の関連部分と同程度の長さであるように選ばれなければならず、その結果、適応フィルタは、誤差信号e[n]を実際に最小化するために十分な自由度を有する。
【0024】
フィルタ係数は、それぞれ、誤差マージンMSEの最大の減少の方向に、そして、それぞれ誤差マージンMSEの負の勾配の方向に徐々に変化され、パラメータμはステップサイズを制御する。例示的な態様におけるさらなる過程において使用される適応フィルタのフィルタ係数b[n]を計算するための公知のLMSアルゴリズムは以下
k=0,...N−1に対して、b[n+1]=b[n]=2・μ・e[n]・x[n−k]
のように説明される。
【0025】
新しいフィルタ係数b[n+1]は、前のフィルタ係数b[n]に補正項を加えたものであり、これは誤差信号e[n]の関数であり、入力信号ベクトルx[n−k]の関数であり、これはそれぞれのフィルタ係数ベクトルbに割り当てられる。LMS収束パラメータμは、これにより、速度およびフィルタの適応の安定性の測定値を表す。
【0026】
適応フィルタ(この例においてはFIRフィルタ)は、以下の条件が増幅係数μに適用されるとき、LMSアルゴリズムの使用に応答して、公知のいわゆるWienerフィルタに収束することがさらに公知である。
0<μ<μmax=1/[(N+1)・E{x[n]}]
ここで、Nは、FIRフィルタの次数を表し、E{x[n]}は、基準信号x[n]の信号出力を表す。実際には、使用されるステップサイズおよび収束パラメータμは、それぞれ、しばしばμ=μmax/10であるように選ばれる。LMSフィルタの最小二乗平均アルゴリズムは、こうして、以下で概略されるように実現され得る。
1 制御変数をn=0に設定することと、アルゴリズムの実行の始まりにおいてk=0,…,N−1に対する開始係数b[n=0]を選択することと(例えば、k=0...N−1においてb[0]=0およびe[0]=d[0])、増幅因子μ<μmax(例えば、μ=μmax/10)を選択することとによるアルゴリズムの初期化。
2 基準信号x[n]および信号d[n]の格納。

【0027】
【数3】

に従う、基準信号のFIRフィルタリング。
4 誤差の決定e[n]=d[n]−y[n]。
5 k=0,...,Nに対して、b[n+1]=b[n]+2・μ・e[n]・x[n−k]
に従う係数の更新。
6 次の繰り返しステップn=n+1の実行およびステップ2〜6を繰り返す。
【0028】
図2は、平滑化フィルタリングを使用するが音声検出を使用しないことによるバックグラウンドノイズのパワースペクトル密度を推定する方法の信号図を示している。図2は、比較器第1のステップ1、第2の比較器ステップ4、パワースペクトル密度の推定において増加を計算するための第1の計算ステップ2、パワースペクトル密度の推定においてドロップを計算するための第2の計算ステップ3を示している。
【0029】
バックグラウンドノイズまたは適応フィルタ(図1)の誤差信号を測定するマイクロフォンの信号であり得る信号Noise[n]は、比較器ステップ1において、アルゴリズムの先行するステップにおいて計算された推定パワースペクトル密度の推定NoiseLevel[n]と比較される。現在の推定値Noise[n]が、アルゴリズムの先行するステップにおいて計算された推定パワースペクトル密度の推定NoiseLevel[n]よりも大きい場合(ステップ1の「はい」のパス)、一定の所定の増分値C_Incがアルゴリズムの先行するステップにおいて計算された推定NoiseLevel[n]に追加され、パワースペクトル密度の推定のために新たなより高い値のNoiseLevel[n+1]を生成する。
【0030】
増分値C_Incは一定であり、その値は、現在の値Noise[n]の大きさに依存しない。このアプローチは、現在の値Noise[n]に存在し得る、典型的には自動車の室内における広域バックグラウンドノイズよりも速い上昇レベルを有し得る任意の音声信号が、アルゴリズムに有意な影響を与えたり、その結果として、推定値の計算に有意な影響を与えたりすることを防ぐ。
【0031】
しかしながら、ステップ1における現在の値Noise[n]が、アルゴリズムの先行するステップ(ステップ1の「いいえ」のパス)において計算された推定パワースペクトル密度の推定NoiseLevel[n]よりも小さい場合、アルゴリズムの先行するステップにおいて計算された推定NoiseLevel[n]から一定の所定の減分値C_Decが減算され、パワースペクトル密度の推定のために新たなより低い値のNoiseLevel[n+1]を生成する。
【0032】
減分値C_Decは定数であり、その値は、現在の値Noise[n]の大きさに依存しない。このことは、両方の場合(すなわち、増分の場合および減分の場合)に対して、Noise[n]信号のレベルの変更のレートが無視されるという結論を有する。新たに計算された推定NoiseLevel[n+1]は、ステップ4において、一定の所定の最小値MinNoiseLevelと比較される。
【0033】
新たに計算された推定NoiseLevel[n+1]が一定の所定の最小値MiniNoiseLevelよりも小さい場合(ステップ4の「はい」のパス)、新たに計算された推定値NoiseLevel[n+1]の値は、一定の所定の最小値MinNoiseLevelに置換される。言い換えると、推定値は、最小値MinNoiseLevelまでに制限される。この一定の所定の最小値MinNoiseLevelの目的は、Noise[n]の信号が実際にこの特定の閾値よりも低い場合でさえも、NoiseLevel[n+1]の信号が、この特定の閾値を下回ることを防ぐことである。このようにして、このアルゴリズムは、Noise[n]における後続の速く強い上昇の信号に対してさえも、過度に遅く応答することがない。
【0034】
パワースペクトル密度に対する推定値について考えられ得る最大上昇レートは、一定の所定の定数値である増分C_Incによって特定されるので、アルゴリズム計算サイクルの各時間単位の間に増分C_Incの値を顕著に上回る値Noise[n]における上昇が速く強い場合に、新たに計算された推定値NoiseLevel[n+1]と実際の値Noise[n]との間で値において過度の大きな差が生じ得る。結論として、パワースペクトル密度の実際の値Noise[n]に対する推定値NoiseLevel[n+1]の調整は、なんらかの有意義な推定と計算された推定値の再使用とを不可能にする遅延を経験し得る。一方、新たに計算された推定値NoiseLevel[n+1]が一定の最小値MinNoiseLevelよりも大きい場合(ステップ4の「いいえ」のパス)、新たに計算された推定値NoiseLevel[n+1]は維持され、アルゴリズムは、パワースペクトル密度の推定における次の値の計算を開始する。
【0035】
パワースペクトル密度の推定値を増分することおよび減分することの両方に対し、上記方法の不利な点は、バックグラウンドノイズのレベルにおける変化が、例えば、長い期間にわたって(すなわち、同じ方向におけるアルゴリズムのいくつかの計算サイクルにわたって)上昇する場合に、および、各計算サイクルに対するNoise[n]信号のレベルにおける上昇が、任意の所与の計算ステップにおけるパワースペクトル密度の推定値のレベルにおける最大上昇を定義する一定の増分C_Incよりも遥かに大きい場合に、Noise[n]信号のレベルにおける変化のレートが、推定値によって十分に近似されないことがあり得るということである。バックグラウンドノイズのレベルにおける変化が長い期間にわたって(すなわち、同じ方向におけるアルゴリズムのいくつかの計算サイクルにわたって)降下する場合に、および、任意の所与の計算ステップにおけるパワースペクトル密度の推定値のレベルにおける最大上昇を定義する各計算サイクルに対するNoise[n]信号のレベルにおける上昇が一定の減分C_Decよりも遥かに大きい場合に、同様の問題が生じる。これに関し、新規なシステムおよび方法は、この時点において、同時に発生する音声信号に応答して、アルゴリズムの感度を向上させることなしに、パワースペクトル密度の推定の品質を向上させる。
【0036】
図2に示されている設計において、アルゴリズムはさらに、観察される全周波数範囲にわたってバックグラウンドノイズの全体レベルを推定するためにのみ適している。しかしながら、信号をフィルタリングすることによるノイズ抑制のためにパワースペクトル密度の推定値を適切に適用するために、推定パワースペクトル密度の適切な周波数解像度が要求される。このことは、図2に記載されている方法についていうと、示されているアルゴリズムが、関心のある周波数範囲(例えば、音声信号の周波数範囲)における個々のスペクトルラインのそれぞれに対して実行されなければならないということを意味し、このことは、デジタル信号プロセッサの高レベルの計算機能力を要求する。
【0037】
図3は、音声検出を用いずに、バックグラウンドノイズのパワースペクトル密度を推定するための新規なシステムの信号フローチャートである。図3に示されているシステムおよび方法は、例えば、デジタル信号プロセッサを用いてインプリメントされる。図3のシステムは、パワースペクトル密度計算ユニット6、時間領域信号平滑化ユニット7、周波数領域信号平滑化ユニット8、増分計算ユニット9、減分計算ユニット10、および推定信号平滑化ユニット11を示している。図3にしたがうと、パワースペクトル密度計算ユニット6は、入力信号MIC(ω)からパワースペクトル密度(PSD)を計算し、これにより、入力信号MIC(ω)のパワースペクトル密度を表す出力信号PsdMic(ω)が生じる。入力信号は、例えば、本明細書中に示されているようなマイクロフォン信号であったり、または、適応フィルタ(図1)の誤差信号であったりし得る。したがって、図3に示されているように、信号PsdMic(ω)は、時間領域信号平滑化ユニット7を用いることにより、時間領域において、平滑化される(時間にわたる平滑化)。
【0038】
時間領域における平滑化は、2つの異なる平滑化時間定数(すなわち、τupおよびτDown)を有する。第1の時間定数τupは、信号が上昇するときに、すなわち信号が正の勾配を有する場合に適用され、対照的に、第2の時間定数τDownは、信号が減少するときに、すなわち、信号が負の勾配を有する場合に適用される。したがって、時間領域における平滑化の適用は、周波数領域における平滑化の適用とは完全に異なるものであり、したがって、時間領域における平滑化と周波数領域における平滑化との両方は、混合される必要がない。加えて、異なるupおよびdownの平滑化の時間定数の主目的は、ノイズの上昇または降下に対する、ヒトの耳の感度に対処することである。なぜならば、ヒトの耳は、ノイズの上昇および降下の両方が同じ時間定数を有すると仮定した場合に、ノイズレベルの降下に対してノイズレベルの上昇により感度を有する傾向があるからである。したがって、異なる時間定数(一方は上昇の場合、他方は降下の場合)を適用することにより、この事実を補償することが必要とされる。
【0039】
図3のシステムのさらなる処理ステップにおいて、時間領域信号平滑化ユニット7の出力は、周波数領域信号平滑化ユニット8を用いることにより、周波数領域において平滑化される(周波数にわたる平滑化)。ここでもまた、この平滑化は、2回実行され、1回は周波数f=fminから開始して周波数f=fmaxまで係数τupを用いて実行され、もう1回は周波数f=fmaxから開始して周波数f=fminまで係数τdownを用いて実行される。上方および下方の平滑化ステップは、任意の順序であり得、周波数f=fminは、処理のために選択された最小周波数を意味し、f=fmaxは、処理のために選択された最大周波数を意味する。周波数fminおよびfmaxは、周波数範囲がヒトの耳における音響知覚の関連する周波数範囲をカバーするように、選択され得る。周波数にわたるPsdMic(ω)信号の平滑化のためのτupおよびτdownは、PsdMic(ω)信号のスペクトルの揺らぎにおける考えられ得る最大の低減が、本方法における後続のステップに対して要求される計算機能力の低減を達成させるように、選択される。同時に、この選択は、ヒトの耳による知覚に対して関連のあるPsdMic(ω)の周波数に依存する特性を導出することができるように、必要なスペクトル情報が維持されるように行われる。本明細書中で考察される心理音響学的推定ステップ(および心理音響学的方法)が、さらに以下に示される。
【0040】
通常、τupおよびτdownは、upおよびdownの平滑化が、1つの平滑化方向のみにおいて平滑化する場合に生じ得る周波数バイアスを回避するためのものであるということを主な理由として、等しい値として選択される。したがって、下方向における平滑化に対するのと同様に、異なる平滑化時間定数を用いて上方の周波数方向に平滑化する場合に、この場合もまた、特定の種類の周波数シフト(バイアス)が形成される。この特定の種類の周波数シフト(バイアス)は、元来は、上方および下方の平滑化を適用することによって回避されることが意図されたものである。
【0041】
信号SmoothedPsdMic(ω)は、時間領域における平滑化(時間にわたる平滑化、時間領域信号平滑化ユニット7)、周波数領域における平滑化(周波数にわたる平滑化、周波数領域信号平滑化ユニット8)を介して、PsdMic(ω)信号から得られる。SmoothedPsdMic(ω)信号は、音声検出機構を用いることなしに、バックグラウンドノイズのパワースペクトル密度を推定するために、増分計算ユニット9、減分計算ユニット10、および推定信号平滑化ユニット11において実行される後続の処理ステップに対する入力信号として用いられる。
【0042】
図3に示されている例示的なシステムにおいて、増分計算ユニット9は、平滑化された信号SmoothedPsdMic(ω)の全スペクトル成分に対してSmoothedPsdMic(ω)信号におけるレベル上昇が考慮される場合に、パワースペクトル密度の推定に対し、関連のある増分Inc(ω)を計算するための計算ステップを指定する。減分計算ユニット10は、平滑化された信号SmoothedPsdMic(ω)の全スペクトル成分に対してSmoothedPsdMic(ω)信号において低減するレベルが考慮される場合に、パワースペクトル密度の推定に対し、関連のある減分Dec(ω)を計算する。推定信号平滑化ユニット11は、図2に示されているようなメモリレスの平滑化フィルタリングステップを意味し、このステップに対し、パワースペクトル密度のレベルにおける上昇または降下の推定に対する増分および減分は、定数として指定されないが、レベルにおける上昇または降下のレートに適応可能に依存する。
【0043】
増分計算ユニット9において計算された増分Inc(ω)を用いることにより、パワースペクトル密度の現在の推定値PsdMic(ω)は、平滑化された信号SmoothedMic(ω)の関連のあるスペクトル成分の各々に対して一定の最小閾値PsdNoiseMinを考慮して、計算される。一定の最小閾値PsdNoiseMinは、MinNoiseLevelとして図2に示されているパワースペクトル密度の推定値の最小値に対応する。
【0044】
上述のように、パワースペクトル密度の推定値の増分および減分の両方に対し、当該技術分野における公知の方法の不利な点は、バックグラウンドノイズのレベルにおける変化が、全ての場合において推定値によって適切に近似されないことがあり得るということである。例えば、これは、長い期間にわたって(すなわち、アルゴリズムのいくつかの計算サイクルにわたって)バックグラウンドノイズの変化が上昇し、アルゴリズムの各計算サイクルに対するバックグラウンドノイズのレベルにおける上昇が、パワースペクトル密度の推定値のレベルにおける最大上昇を定義する一定の増分よりも大きい場合に当てはまる。バックグラウンドノイズのレベルが長い期間にわたって(すなわち、アルゴリズムのいくつかの計算サイクルにわたって)低減し、アルゴリズムの各計算サイクルに対するバックグラウンドノイズのレベルにおける低減が、パワースペクトル密度の推定値のレベルにおける最大減分を定義する一定の減分よりも大きい場合にも、同様の問題が存在する。
【0045】
バックグラウンドノイズのレベルにおける上昇の場合、パワースペクトル密度のレベルにおける上昇を推定する図3のシステムは、同時に存在する音声信号に対する大きく望ましくない依存を伴わずに、図3に示されているような増分計算ユニット9を用いることにより、この不利な点を解消する。特に音声信号とバックグラウンドノイズとの間でタイミング挙動が非常に異なるという事実が用いられる。典型的に、音声信号は、時間にわたってレベルにおいて速い上昇および降下を示すが(スピーチダイナミクス)、このことは、一般的には、例えば自動車の室内において経験されるような、典型的なバックグラウンドノイズ信号の場合には当てはまらない。それにも関らず、公知の方法は、特定の場合においては、典型的には包囲された条件(例えば、自動車内)に対するバックグラウンドノイズのレベルにおける変化に対して、十分に速く応答しない。
【0046】
このことは、長い期間にわたって(例えば、2〜3秒間にわたって)連続的に生じるバックグラウンドノイズのレベルにおける強い上昇に対して特に記載されている。そのような期間にわたるレベルにおける連続的な上昇は、音声信号において期待されるレベルにおける上昇とは顕著に異なり、この場合、レベルにおける連続的な上昇は、スピーチダイナミクスに対する長い期間である2〜3秒間も生じることはない。観察される信号のダイナミクスにおけるこの明確な特徴は、本願のシステムおよび方法の応答のスピードを向上させるために、以下に記載されるように用いられる。バックグラウンドノイズのレベルにおける速く強い上昇および降下は、従来の方法よりも優れて、同時発生するスピーチ信号に対するアルゴリズムの感度を向上させることなしに、補償される。
【0047】
以下では、図3に示されている増分計算ユニット9が、詳細に記載されており、該増分計算ユニットは、バックグラウンドノイズのレベルにおける上昇に応答して、パワースペクトル密度の推定値の増分を計算する。時間領域信号平滑化ユニット7と周波数領域信号平滑化ユニット8とによって、時間領域および周波数領域において平滑化された信号の新たに計算された信号SmoothedPsdMic(ω)が、先行する計算サイクルにおけるパワースペクトル密度の推定値PsdNoise(ω)よりも大きい場合に、増分IncMinの特定の最小値(例えば毎秒0.5dB)から開始し、推定値の計算に用いられる増分Inc(ω)の新しい値が、一定値ΔInc(例えば44100Hzのサンプリング周波数で512サンプルの、例えば同じフレーム長で、例えば毎フレーム0.01dB)によって増加させられる。計算サイクルは、例えば、10msの持続時間を有し得る。このようにして、増分Inc(ω)の値は、平滑化された信号SmoothedPsdMic(ω)の値が先行する計算サイクルにおいて計算されたパワースペクトル密度の推定値PsdNoise(ω)よりも連続的に大きい場合に、アルゴリズムの各計算サイクルに対して各時間に0.01dBだけ連続的に増加させられる。
【0048】
したがって、1秒間持続して0.5dBの最小値IncMinから開始する平滑化された信号SmoothedPsdMic(ω)のレベルにおける上昇に対する増分Inc(ω)は、最終的には1.5dBまで増加させられることがわかる。なぜならば、1秒後(すなわち、100計算サイクル、各計算サイクルは10msの長さ)には、
Inc(ω)=IncMin+100*ΔInc
として計算されるからである。
【0049】
新たな計算サイクルの結果として得られた平滑化された信号SmoothedPsdMic(ω)の値が、先行する計算サイクルにおいて計算されたパワースペクトル密度の推定値PsdMic(ω)よりも小さい場合、増分値Inc(ω)の値は、特定の最小値IncMinに再設定され、アルゴリズムは、降下レベルに対してパワースペクトル密度を推定するために減分を決定するための計算モードに変更する。増分Inc(ω)に対して考えられ得る最大値は、一定の所定の値IncMax(例えば、2.5dB)によって定義される。このことは、増分Inc(ω)の最大値IncMaxが、平滑化された信号SmoothedPsdMic(ω)のレベルにおける連続的な上昇の少なくとも2.5秒の期間が経過する前に、増分Inc(ω)の最大値IncMaxが達成されないことがあり得ることを意味する。ここで、この時間フレームの間に、平滑化された信号SmoothedPsdMic(ω)の値は、先行する計算サイクルにおいて計算されたバックグラウンドノイズのパワースペクトル密度の推定値PsdNoise(ω)よりも大きくなければならない。
【0050】
等価なアルゴリズムを用いると、バックグラウンドノイズのパワースペクトル密度の値PsdNoise(ω)の推定に対する減分Dec(ω)の値もまた、平滑化された信号SmoothedPsdMic(ω)のレベルにおける降下に対して計算され得る。バックグラウンドノイズのパワースペクトル密度の推定値PsdNoise(ω)は常に、平滑化された信号SmoothedPsdMic(ω)の値が、先行する計算サイクルにおいて計算されるバックグラウンドノイズのパワースペクトル密度の推定値PsdNoise(ω)よりも小さい場合に、減分Dec(ω)によって低減させられる。実際の増分のために、増分計算ユニット9の図示に対応して、減分計算ユニット10もまた、この場合に利用される。ここでは、計算された減分Dec(ω)の最小値に対する特定の値DecMin、計算された減分Dec(ω)の最大値に対する特定の値DecMax、および減分Dec(ω)の適応可能な調整に対する特定の値ΔDecが用いられる。
【0051】
ここでもまた、時間領域信号平滑化ユニット7と周波数領域信号平滑化ユニット8とによって、時間領域および周波数領域において平滑化された信号の新たに計算された信号SmoothedPsdMic(ω)が、先行する計算サイクルにおいて計算されたパワースペクトル密度の推定値PsdNoise(ω)よりも小さい場合に、減分DecMinの特定の最小値(例えば毎秒1dB)から開始し、推定値の計算に用いられる減分Dec(ω)の新しい値が、一定値ΔDec(例えば44100Hzのサンプリング周波数で512サンプルの、例えば同じフレーム長で、例えば毎フレーム0.01dB)によって増加させられる。このようにして、減分Dec(ω)の値は、平滑化された信号SmoothedPsdMic(ω)の値が先行する計算サイクルにおいて計算されたパワースペクトル密度の推定値PsdNoise(ω)よりも連続的に小さい場合に、アルゴリズムの各計算サイクルに対して各時間に0.05dBだけ連続的に低減させられる。したがって、これらの例示的な値から、1秒間持続して1dBの最小値DecMinから開始する平滑化された信号SmoothedPsdMic(ω)のレベルにおける降下に対する減分Dec(ω)は、6dBまで増加させられることがわかる。なぜならば、Dec(ω)は1秒後(すなわち、100計算サイクル、各計算サイクルは10msの長さ)には、
Dec(ω)=DecMin+100*ΔDec
として計算されるからである。
【0052】
新たな計算サイクルの結果として得られた平滑化された信号SmoothedPsdMic(ω)の値が、先行する計算サイクルにおいて計算されたパワースペクトル密度の推定値PsdNoise(ω)よりも大きい場合、減分値Dec(ω)の値は、特定の最小値DecMinに再設定され、アルゴリズムは、上昇レベルに対してパワースペクトル密度を推定するために増分を決定するための計算モードに変更する。減分Dec(ω)に対して考えられ得る最大値は、一定の所定の値DecMax(例えば、11dB)によって同様に定義される。このことは、減分Dec(ω)の最大値DecMaxが、平滑化された信号SmoothedPsdMic(ω)のレベルにおける連続的な降下の少なくとも2秒の期間が経過する前に、減分Dec(ω)の最大値DecMaxが達成されないことがあり得ることを意味する。ここで、平滑化された信号SmoothedPsdMic(ω)の値は、先行する計算サイクルにおいて計算されたバックグラウンドノイズのパワースペクトル密度の推定値PsdNoise(ω)よりも小さくなければならない。
【0053】
上述のように、この秒数の期間にわたるレベルにおける連続的な上昇または降下は、推定されるべきバックグラウンドノイズと同時に生じる音声信号の望ましくない効果に対して本明細書中に記載されているアルゴリズムの感度が低い非常に短い間隔において生じる音声信号のレベルにおける上昇または降下とは、非常に異なる。したがって、推定の計算結果は、改悪(corrupt)されない。ここでもまた、上述のアルゴリズムは、各スペクトル成分に対するΔInc、ΔDec、IncMin、DecMin、IncMaxおよびDecMaxの量に対する個々の値を用いることにより、信号SmoothedPsdMic(ω)の全てのスペクトル成分に対して実行され得る。ΔInc、ΔDec、IncMin、DecMin、IncMaxおよびDecMaxに対する値、ならびに、個々の計算サイクルの持続時間は、例示的なシステムおよび方法を示す例を表しており、用途および周囲条件に依存してその他の値を有し得るが、基礎をなすアルゴリズムの基本機能は維持される。
【0054】
時間にわたる平滑化のための上述の係数τupおよびτdown、ならびに、信号PsdMic(ω)の周波数にわたる平滑化のためのτupおよびτdownが、例えば異なる周囲条件のもとでのシミュレーションおよびサンプルテスト回路から経験的に決定されえる。周波数領域におけるPsdMic(ω)信号の平滑化(周波数にわたる平滑化)は、計算された係数τupおよびτdownを用いて2回実行され得、1回は低周波数から高周波数への方向で実行され得、1回は高周波数から低周波数への方向で実行され得、これにより、信号の周波数表現において周波数シフト(バイアス)が回避される。
【0055】
代わりに、時間にわたる平滑化のための係数τupおよびτdownと、周波数にわたる平滑化のための係数τupおよびτdownとは、平滑化された信号SmoothedPsdMic(ω)の情報コンテンツ(すなわち、サンプリングレート)を低減するために、ヒトの耳の公知の心理音響学的特性から導出され得る。これは、利用されるデジタル信号プロセッサに対して必要とされる小さな大きさの計算機能力に対して得られる利益が大きい限りは好ましい。時間領域における平滑化された信号SmoothedPsdMic(ω)のより小さなダイナミックレベルの揺らぎと、SmoothedMic(ω)信号の周波数領域におけるスペクトル成分の低減された個数とが、個別に考慮されるということからの利点がある。
【0056】
最適なプラスの効果を達成するために、物理量のみが用いられることはなく、むしろヒトの耳の心理音響学的特性が考慮されなければならない。心理音響学的特性は、ヒトの耳に音波が到達するときに常に生じる聴覚印象(aural impression)に関する心理音響学的特性のサブセットである。ヒトの聴覚印象に基づいて、内耳における周波数グループの形成、ヒトの内耳における信号処理、ならびに、時間領域および周波数領域における同時かつ一時的なマスキング効果に基づいて、例えばバックグラウンドノイズのようなノイズ信号が存在するときに、正常な聴覚を有するヒトによって、どのような音響信号または複数の音響信号の組み合わせが知覚されるか否かを示すモデルが形成され得る。
【0057】
ノイズ信号(マスカーとしても公知)が存在するときにテストトーンのみが知覚され得る閾値は、マスク閾値と称される。対照的に、最小可聴閾値は、完全に静かな環境においてテストトーンのみが知覚され得る値のことをいい、マスカー(例えば、バックグラウンドノイズ)によって最小可聴閾値とマスク閾値との間に引き起こされ得るエリアは、マスキングエリアとして公知である。
【0058】
ノイズ信号は、例えば、自動車内のバックグラウンドノイズであり、それらのスペクトル成分と、それらの時間的挙動との両方に関して、ダイナミックな変化を受け、心理音響学的モデルは、オーディオ信号レベル、スペクトル成分、および時間的特定に対するマスキングの依存性を考慮する。心理音響学的マスキングのモデリングのベースは、ヒトの耳の基本特性、特に内耳の基本特性によって与えられる。内耳は、いわゆる側頭骨錐体部(petruous bone)に位置し、非圧縮性のリンパ液によって充満されている。
【0059】
内耳は、約2 1/2回転の螺旋形状(蝸牛)である。そして蝸牛は、平行なカナルを含み、上部カナルと下部カナルとは、基底膜によって分離されている。コルチ器官が膜上に存在し、ヒトの耳の感覚細胞を含む。音波によって振動するように基底膜が作られている場合、神経刺激が生成される。すなわち、ノードまたはアンチノードは生じない。これは、結果として、聴覚にとって決定的な効果、すなわち、基底膜上での周波数/位置の転移をもたらす。これを用いて、心理音響学的マスキングの効果と、ヒトの耳の精密化された周波数の選択性とが説明され得る。
【0060】
ヒトの耳は、限られた周波数帯域において生じる異なる音波を分類することにより、それらが単一の音響イベントにおいて処理されるようにする。これらの周波数帯域は、臨界周波数グループまたは臨界帯域幅(CB)として公知である。CBのベースは、ヒトの耳は、音波から生じる心理音響学的な聴覚印象に関して共通の可聴印象として、特定の周波数帯域における音をコンパイルするということである。周波数グループ内で生じる音のアクティビティは、異なる周波数グループにおいて生じる音波よりも、互いに対して異なるように影響する。1つの周波数グループ内の同じレベルを有する2つのトーンは、例えば、それらが異なる周波数グループにおけるものである場合よりも、より静かなものとして知覚される。
【0061】
そして、エネルギーが同じで、マスカーが周波数帯域内にある場合に(この周波数帯域の中心周波数は、テストトーンの周波数である)、テストトーンは、マスカー内で可能なので、周波数帯域の帯域幅が決定され得る。低周波数の場合、周波数グループは、100Hzの帯域幅を有する。500Hzよりも高い周波数に対して、周波数グループは、対応する周波数グループの中心周波数の約20%の帯域幅を有する。
【0062】
全ての臨界的な周波数グループが全可聴範囲にわたってサイドバイサイドに配置されている場合、聴覚指向の非線形周波数スケールが得られ、これは、トナリティとして公知であり、単位「bark」を有する。これは、周波数軸のゆがめられたスケーリングを表し、それにより、周波数グループは、全ての位置において、ちょうど1 barkの同じ幅を有する。周波数とトナリティとの間の非線形関係は、基底膜上の周波数/位置の転移に根源をもつ。トナリティの機能は、マスキングされた閾値とラウドネス(loudness)の試験とをベースとして、Zwickerによって形成された表および式に定義されている(Zwicker,E.;Fastl,H.; Psycho−acoustics−Facts and Models, 2nd Edition, Springer−Verlag, Berlin/Heidelberg/New York, 1999)。0〜16kHzの可聴周波数範囲において見ることができるように、ちょうど24個の周波数グループが連続的に位置しており、関連するトナリティの範囲が0〜24barkとなっている。barkでのトナリティzは、以下のように計算される。
【0063】
【数4】

そして、対応する周波数グループの幅Δfは、
【0064】
【数5】

となる。
【0065】
さらに、ラウドネス(loudness)および音強度(sound intensity)という用語は、同じ品質の印象を意味し、それらの単位においてのみ異なる。これらは、ヒトの耳の周波数に依存する知覚を考慮する。心理音響学的な次元「ラウドネス」は、特定のレベル、特定のスペクトル成分、特定の持続時間を有する音が、どの程度大きな音として主観的に知覚されるかを示す。ラウドネスは、音が2倍大きく知覚されると、2倍大きくなり、これは、知覚されたラウドネスに関して、異なる音波が互いに対して比較されることを可能にする。ラウドネスを推定および測定するための単位は、soneである。1 soneは、40 phoneのラウドネスレベルを有するトーンの知覚されるラウドネス(すなわち、40dBの音圧レベルで1kHzの周波数における正弦波(sinus)トーンと同じラウドネスを有するとして知覚されるトーンのラウドネス)として定義される。
【0066】
中程度で高い強度値の場合、10phoneによる増加は、ラウドネスにおいて2倍の増加を生じる。低い音強度に対して、強度における僅かな上昇が、知覚されるラウドネスを2倍の大きさにする。ヒトによって知覚されるラウドネスは、音圧レベル、周波数スペクトル、音のタイミング特性に依存し、マスキング効果をモデル化するために用いられる。例えば、DIN 45631およびISO 532Bにしたがってラウドネスを測定するための標準的な測定実務が存在する。
【0067】
図4は、サウンドレベルに関係して、1kHzの周波数の静的な正弦波トーンのラウドネスN1kHzと、静的な一様な励起ノイズのラウドネスNGARとの例を示しており、すなわち、時間効果が知覚されるラウドネスに対して影響を有さない信号に対する例を示している。一様な励起ノイズ(GAR)は、各周波数グループにおいて同じ音強度を有するノイズとして、したがって同じ励起を有するノイズとして定義される。図4は、音圧レベルに対する、対数スケールでの、ラウドネスをsoneで示している。低い音圧レベルに対して、すなわち、最小の可聴閾値に接近するときに、トーンの知覚されるラウドネスNは、劇的に降下する。
【0068】
高い音圧レベルに対して、ラウドネスNと音圧レベルとの間に関係が存在する。この関係は、図に示される式によって定義される。「I」は、ワット/mでの推定されるトーンの音強度を意味し、ここでIは、10−12ワット/mでの基準の音強度を意味し、これは、中程度の周波数で、ほぼ最小可聴閾値に対応する(以下を参照されたい)。ラウドネスNが複雑なノイズ信号によるマスキングを決定するための有用な手段であり、そして、スペクトルに関して複雑であり時間に依存する音を介する心理音響学的なモデリングのモデルに対して必要な要件であることは明らかである。
【0069】
周波数の関数としてトーンをほぼ知覚できるようにするために必要な音圧レベルが測定される場合に、いわゆる最小可聴閾値が得られる。音圧レベルが最小可聴閾値未満である音響信号は、ノイズ信号が同時に存在することがなくても、ヒトの耳によって知覚されることはできない。
【0070】
対照的に、いわゆるマスキングされた閾値は、ノイズ信号の存在下で、テスト音に対する知覚の閾値として定義される。テスト音がこの心理音響学的な閾値未満となる場合、テスト音は、完全にマスキングされる。このことは、マスキングの心理音響学的範囲内にある全ての情報が知覚されることを意味する。オーディオ信号に対する公知の圧縮およびデータ低減アルゴリズムもまた、このオーディオ信号マスキング特性を用いることにより、例えば、実際の信号の品質における知覚可能な悪化を引き起こすことなしに、テストされている信号における情報成分を低減する。公知の方法は、Fraunhofer Institute for Integrated Circuitsによって考案された、レイヤ1、2および3に対するISO−MPEGオーディオ圧縮処理である。
【0071】
マスキング効果が全ての種類のヒトの聴覚に対して測定され得ることを多くの試行が実証してきた。多くのその他の心理音響学的な印象とは異なり、個人の間での差異は稀であって無視可能であり得、これは音によるマスキングの一般的な心理音響学的なモデルが生成され得ることを意味する。マスキングの心理音響学的な局面は、本明細書中に示されている場合においては、オーディオ特性にしたがって、測定されたパワースペクトル密度をリアルタイムで平滑化するために利用され、時間領域および周波数領域において心理音響学的にマスキングされた測定されたパワースペクトル密度の成分が、パワースペクトル密度の後続の推定のための処理に含まれないようにされる。結論として、本アルゴリズムによる後続の処理における最初の顕著な低減は、扱われるスペクトル成分の個数に関して得られる。なぜならば、パワースペクトル密度の個々の成分は、それらがその他の成分によってマスキングされると仮定したときに、知覚可能ではなく、したがって、考慮される必要がないからである。
【0072】
主な2つのタイプのマスキングの間に区別がなされ、このことは、マスキングされた閾値の異なる特性をもたらす。これらのタイプは、同時の周波数領域におけるマスキングと、時間軸に沿ったマスカーの効果による時間領域におけるマスキングである。また、これらの2つのマスキングタイプの混合は、例えば周囲ノイズまたは音楽のような信号において生じる。
【0073】
同時マスキングは、音をマスキングすることと、それと同時に有用な信号が生じることとを意味する。マスカーの形状、帯域幅、振幅および/または周波数が変化し、周波数の正弦波形状テスト信号のみが可聴になる場合に、可聴範囲(すなわち、主に20Hz〜20kHzの周波数に対して)の全帯域幅にわたる同時のマスキングに対し、マスキングされた閾値が決定され得る。
【0074】
図5は、ホワイトノイズによる正弦波テストトーンのマスキングを示している。テストトーンの音強度は、ホワイトノイズによってマスキングされるのみであり、音強度IWNがその周波数に関連して表示されている。図5において、最小可聴閾値は、破線として表示されている。ホワイトノイズによるマスキングのための正弦波トーンの最小可聴閾値は、以下のように得られる:500Hz未満で、正弦波トーンの最小可聴閾値は、ホワイトノイズの第2の強度よりも約17dB高い。500Hzを超えるで周波数で、最小可聴閾値は、約10dB/decadeまたは約3dB/octaveで増加し、周波数を2倍化することに対応する。
【0075】
最小可聴閾値の周波数依存性は、異なる中心周波数における、ヒトの耳の異なる臨界帯域幅(CB)から導出される。周波数グループにおいて生じる音強度は知覚されるオーディオの印象においてコンパイルされるので、そのレベルが周波数に依存しないホワイトノイズに対して、より大きな全体強度がより広い周波数グループにおいて得られる。サウンドのラウドネスもまた対応するように上昇し(すなわち、知覚されるラウドネス)、増加したマスキングされた閾値を生じる。このことは、純粋に物理学的な次元(すなわち、例えばマスカーの音圧レベルなど)が、マスキングの心理音響学的な効果のモデリングに対して、すなわち、例えば音圧レベルおよび強度等のテスト次元からマスキングされた閾値を導出することに対して、不適切であることを意味する。代わりに、この場合には、心理音響学的な次元(例えば、ラウドネスN)が用いられる。以下の図面から明らかなように、音のマスキングのスペクトル分布と時間特性とが主要な役割を演じる。
【0076】
マスキングされた閾値が、狭帯域のマスカー、例えば正弦波トーン、狭帯域ノイズまたは臨界広帯域ノイズに対して決定される場合に、マスカーがスペクトル成分を有さないエリアにおいてさえも、結果として生じるスペクトルのマスキングされた閾値が最小可聴閾値よりも高いことが示される。この場合に、狭帯域ノイズと同様に臨界帯域幅ノイズが用いられ、そのレベルはLCBと記される。図5は、1kHzの中心周波数fでの臨界帯域幅ノイズに起因するマーカーとして測定される正弦波トーンのマスキングされた閾値と、レベルLTのテストトーンの周波数fに対する異なる音圧レベルとを示している。図5において、最小可聴閾値は、破線によって示されている。
【0077】
図6の例において、マスキングされた閾値のピークは、マスカーのレベルが20dBだけ上昇する場合に、20dBだけ上昇する。したがって、この関係は、マスキングの臨界帯域幅ノイズのレベルLCBに線形的に依存する。測定されたマスキングされた閾値の下縁(すなわち、中心周波数fよりも低い低周波数の方向におけるマスキング)は、約−100dB/octaveの勾配を有し、これは、マスキングされた閾値のレベルLCBに依存しない。この大きな勾配は、マスカーのレベルLCBに対するマスキングされた閾値の上縁のみに到達し、上記レベルは40dBよりも低い。マスカーのレベルLCBにおける増加に伴い、マスキングされた閾値の上縁が平坦になり、勾配は100dBのLCBに対して約−25dB/octaveとなる。これは、マスカーの中心周波数fに比べて高い周波数の方向におけるマスキングが、マスキング音が存在する周波数範囲を超えて延長することを意味する。聴覚は、狭帯域、臨界帯域幅ノイズに対して1kHz以外の中心周波数に対して、同様に応答する。マスキングされた閾値の上縁および下縁の勾配は、図7に見ることができるように、実際にはマスカーの中心周波数に依存しない。
【0078】
図7は、60dBのレベルLCB、3つの異なる中心周波数250Hz、1kHzおよび4kHzでの、狭帯域における臨界帯域幅ノイズからのマスカーに対するマスキングされた閾値を示している。250kHzの中心周波数でのマスカーの下縁に対する明らかに平坦な勾配の流れは、最小可聴閾値によるものであり、これは、より高いレベルにおいてさえも、この低周波数に適用する。示されているような効果は、マスキングのための心理音響学的なモデルのインプリメンテーションに含まれる。ここでもまた、最小可聴閾値は、図7において、破線で表示されている。
【0079】
正弦波形状のテストトーンは、1kHzの周波数で別の正弦波トーンによってマスキングされ、図8に示されているように、テストトーンの周波数とマスカーのレベルLとの関係で、マスキングされた閾値が得られる。既に上述されているように、マスカーのレベルに関係して上縁の広がりが明らかに見られるが、マスキングされた閾値の下縁は、実際には周波数およびレベルに依存しない。上方の勾配は、マスカーのレベルに関係して約−100〜−25dB/octaveとして測定され、そしてより低い勾配に対して約−100dB/octaveとして測定される。マスキングトーンのレベルLとマスキングされた閾値Lの最大値との間に、約12dBの差異が存在する。
【0080】
この差異は、マスカーとして臨界帯域幅ノイズを用いて得られた値よりも顕著に大きい。これは、テストトーンとしてノイズおよび正弦波トーンを用いる場合とは異なり、マスカーの2つの正弦波トーンの強度とテストトーンの強度とが同じ周波数において互いに追加されるからである。結論として、トーンは遥かに速く(すなわち、テストトーンに対してより低いレベルに対して)知覚される。さらに、2つの正弦波トーンを同時に推定するときに、その他の効果(例えば、振動)が生じ、これが増加された知覚または低減されたマスキングにつながり得る。
【0081】
周波数領域における記載された同時マスキングは、周波数領域信号平滑化ユニット8において平滑化するときに(周波数にわたって平滑化する)、臨界帯域幅ノイズによってマスキングされないPsdMic(ω)信号のスペクトル成分のみが考慮される必要があるという効果を有する。また、アルゴリズムは、推定値PsdNoise(ω)を関連するスペクトル成分、成分によって引き起こされる知られるマスキング特性にまで増分または減分するために低減される:したがって、ΔInc、ΔDec、IncMin、DecMin、IncMaxおよびDecMaxに対して個々の値が用いられる場合に、処理されるべき個々のスペクトル成分の個数における非常に顕著な低減が得られる。
【0082】
記載された同時マスキングの他に、時間マスキングといわれる、マスキングの別の心理音響学的効果が公知である。2つの異なる種類の時間マスキングが区別される:プレマスキングは、マスカーのレベルにおける急激な上昇の前にマスキング効果が既に生じている状況を意味する。ポストマスキングは、マスキングされた閾値が、マスカーのレベルにおける速い降下の後の期間において、最小可聴閾値まですぐに降下しないときに生じる効果を意味する。図9は、プレマスキングおよびポストマスキングの両方をシステマチックに示しており、これらは、トーンインパルスのマスキング効果に関連して、以下でさらに詳細に説明される。
【0083】
時間のプレマスキングおよびポストマスキングの効果を決定するために、短い持続時間のテストトーンインパルスが用いられ、マスキング効果の対応する時間解像度を得なければならない。ここでは、最小可聴閾値とマスキングされた閾値との両方は、テストトーンの持続時間に依存する。これに関して2つの異なる効果が公知である。これらは、テストインパルスの持続時間に対するラウドネスの印象の依存性(図10を参照のこと)、そして、短いトーンインパルスの反復レートとラウドネスの印象との間の関係(図11を参照のこと)を意味する。
【0084】
同じラウドネスの印象を得るためには、200−msのインパルスの音圧レベルと比較して、20−msのインパルスの音圧レベルは10dBだけ増加させられなければならないことは公知である。200msのインパルスの持続時間の上方で、トーンインパルスのラウドネスはその持続時間に依存しない。ヒトの耳に対して、約200ms以上の持続時間での処理は静的な処理を表すことがわかる。音が約200msよりも短い場合に、音のタイミング特性の心理音響学的に証明可能な効果が存在する。
【0085】
図10は、持続時間に対するテストトーンインパルスの知覚の依存性を示している。破線は、持続時間に対する周波数f=200Hz、1kHzおよび4kHzの周波数についてのテストトーンインパルスの最小可聴閾値TQを示しており、最小可聴閾値は、200ms未満のテストトーンの持続時間に対して約10dB/decadeで上昇する。この挙動は、テストトーンの周波数に依存せず、テストトーンの異なる周波数fに対する線の絶対的な位置は、これらの異なる周波数における異なる最小可聴閾値を反映する。
【0086】
連続的な線は、40dBおよび60dBのレベルLUMNでの一様なマスキングノイズ(UMN)によるテストトーンのマスキングのためのマスキングされた閾値を表す。一様なマスキングノイズは、全可聴範囲にわたって(すなわち、0〜24barkの全周波数グループに対して)一定のマスキングされた閾値を有するように、定義される。言い換えると、マスキングされた閾値の表示された特性は、テストトーンの周波数fに依存しない。最小可聴閾値TQと同様に、マスキングされた閾値もまた、200ms未満のテストトーンの持続時間に対して、約10dB/decadeで上昇する。
【0087】
図11は、3kHzの周波数および3msの持続時間でのテストトーンインパルスの反復レートに対するマスキングされた閾値の依存性を示している。ここでもまた、一様なマスキングノイズがマスカーであり、これは、長方形の形状で変調される(すなわち、これは、定期的にオンおよびオフにされる)。一様なマスキングノイズの検討される変調周波数は、5Hz、20Hzおよび100Hzである。テストトーンが、一様なマスキングノイズの変調周波数と同一な後続の周波数で放出される。試行の間に、テストトーンインパルスのタイミングは、変調されるノイズの時間に関係するマスキングされた閾値を得るために、対応するように変動する。
【0088】
図11は、マスカーの期間の持続時間Tに標準化される横座標に沿ったテストトーンインパルスの時間におけるシフトを示している。縦座標は、計算されたマスキングされた閾値におけるテストトーンインパルスのレベルを示している。破線は、基準点として、変調されていないマスカーに対するテストトーンインパルスのマスキングされた閾値を表す(すなわち、同一であり得る特定でマスカーを連続的に表す)。
【0089】
図11において、プレマスキングの勾配と比較してポストマスキングのより平坦な勾配が明確に見られる。長方形の形状のマスカーを機能させた後に、マスキングされた閾値は、短い期間延長される。この効果は、オーバーシュートとして公知である。マスカーのポーズにおける変調された一様なマスキングのいずに対するマスキングされた閾値のレベルにおける最大の降下ΔLは、一様なマスキングノイズの変調周波数における増加に応答して、静的な一様なマスキングノイズに対するマスキングされた閾値と比較して、低減されることが期待される。言い換えると、テストトーンインパルスのマスキングされた閾値は、そのライフタイムの間に、最小可聴閾値によって特定される最小値まで、わずかに降下し得る。
【0090】
図11はまた、マスカーが完全にオンにされる前に、マスカーがテストトーンインパルスを既にマスキングしていることを示している。この効果は、既に言及されたように、プレマスキングとして公知であり、ラウドネスのトーンおよびノイズが(すなわち、高い音圧レベルを有する)、静かなトーンよりも聴覚によってより迅速に処理され得ることに基づいている。プレマスキングの効果は、ポストマスキングの効果よりも遥かに優位性が低い。マスカーの接続を外した後に、可聴閾値は、最小可聴閾値まで迅速に降下することはないが、約200msの期間の後にそれに到達する。この効果は、内耳の基底膜上での過渡波の遅い定着によって説明され得る。
【0091】
マスカーの帯域幅はまた、この最初に、ポストマスキングの持続時間に対して直接的な影響を有する。個々の周波数グループに関連付けられたマスカーの特定のコンポーネントが図11および12に示されているようにポストマスキングを引き起こすことがわかる。
【0092】
図12は、ガウシアンインパルスのマスキングされた閾値のレベル特性LTを示し、テストトーンとして20μsの持続時間を有し、これは、500msの持続時間のホワイトノイズから構成される長方形の形状のマスカーであって、ホワイトノイズの音圧レベルLWRが3つのレベル40dB、60dBおよび80dBをとる長方形の形状のマスカーの終了後の時間tにおいて存在する。ヒトの耳の近く可能な周波数範囲に関して20μsの短い持続時間を有するガウシアン形状のテストトーンはまた、ホワイトノイズと同様の広帯域スペクトル分布を示すので、ホワイトノイズを含むマスカーのポストマスキングは、スペクトル効果なしで測定され得る。図12における連続曲線は、測定によって決定されたポストマスキングの特性を示している。
【0093】
そして、これらは、マスカーのレベルLWRに依存せずに、約200ms後にテストトーン(この場合に用いられる短いテストトーンに対して約40dB)の最小可聴閾値に対する値に到達する。図12は、曲線を示しており、破線は10msの時間定数でのポストマスキングからの指数的な降下に対応する。この種類の単純な近似は、大きなレベルのマスカーに対してのみ当てはまり、最小可聴閾値付近におけるポストマスキングの特性を反映していないことが分かる。
【0094】
ポストマスキングとマスカーの持続時間との間の関係もまたわかる。図13における破線は、5msの持続時間およびf=2の周波数でのガウシアン形状のテストトーンインパルスのマスキングされた閾値を示しており、レベルLUMN=60dBおよび持続時間T=5msでの一様なマスキングノイズを含む長方形の形状の変調されたマスカーの不活性化の後の遅延時間tの関数として示している。連続線は、テストトーンインパルスに対して同一であり得るパラメータおよび一様なマスキングノイズでの持続時間T=200msでのマスカーに対するマスキングされた閾値を示している。
【0095】
持続時間T=200msでのマスカーに対する測定されるポストマスキングは、200msよりも長い持続時間Tで全てのマスカーに対しても見出されるが同一であり得るパラメータでのポストマスキングに一致する。短い持続時間のマスカーで、パラメータが同一であり得る場合(例えば、スペクトル成分およびレベル)、マスカーの持続時間T=5msに対してマスキングされた閾値の特性から明らかなように、ポストマスキングの効果は低減される。アルゴリズムおよび方法における心理音響学的な効果、例えば心理音響学的なマスキングモデルを使用するために、分類された、複雑なまたは重ね合わされた個々のマスカーに対して、どのようなマスキングが結果として得られるのかを知る必要がある。
【0096】
異なるマスカーが同時に起こる場合に同時マスキングが存在する。いくつかの現実の音のみが純粋音(例えば、正弦波トーン)に対して比較可能である。一般的に、音楽の楽器から放出されたトーン、ならびに、回転体(例えば、自動車内のエンジン)から生じる音は、多数のハーモニクスを有する。特定のトーンのレベルの組成に依存して、結果としてのマスキングされた閾値は、非常に大きくなり得る。
【0097】
図13は、特定のトーンの全てのレベルが40dBまたは60dBである2つの場合に対する結果としてのマスキングされた閾値を示している。基本トーンおよび第1の4ハーモニクスがそれぞれ別個の周波数グループに配置され、これは、マスキングされた閾値の最大値に対してこれらの複雑な音の成分のマスキング部分のさらなる重ねあわせ部分が存在しないことを意味する。図14は、複雑な音に対する同時マスキングを示している。正弦波形状のテストトーンの同時マスキングに対するマスキングされた閾値は、励起の周波数およびレベルに関して、200−Hzの正弦波トーンの10ハーモニクスによって表される。全てのハーモニクスは、同じ音圧レベルを有するが、それらの位相の位置は、統計的に分布している。
【0098】
しかしながら、上縁および下縁のオーバーラップならびにマスキング効果の追加から生じる降下(これは、その最も深い点においては、最小可聴閾値よりも遥かに高い)が明確に見られる。このコンパイルされマスキングされた閾値よりも下に位置する音のその他全てのスペクトル成分は、ヒトの耳によって知覚されることができず、例えば、これらの成分のノイズの多い印象に対して何も貢献しない。対照的に、図14に示されているように、上方のハーモニクスの大部分は、ヒトの聴覚の臨界的な帯域幅内にある。この臨界的な帯域幅において、個々のマスキングされた閾値のさらなる強い重ね合わせがなされる。
【0099】
この結果として、同時マスカーの加算は、これらのマスカーの強度を一緒に加算することによって計算され得ないが、代わりに、個別の比ラウドネス値が一緒に加算され、マスキングの心理音響学モデルを定義する。
【0100】
時間変化する信号のオーディオ信号スペクトルから励起分布を得るために、狭帯域ノイズによるマスキングのための正弦トーンの閾値の公知の特徴が分析の基礎として用いられる。(臨界帯域幅内での)コア励起と(臨界帯域幅外での)エッジ励起との間の区別がここでなされる。この例は、正弦トーンまたは狭帯域ノイズの心理音響学的コア励起であり、これらは物理的なサウンド強度に適合する臨界帯域幅よりも小さい帯域幅を有する。そうでなければ、信号は、オーディオスペクトルによってマスキングされた臨界帯域幅間に対応して分布される。
【0101】
このようにして、心理音響学的励起の分布は、受信される時間変化するサウンドの物理的な強度スペクトルから得られる。心理音響学的励起の分布は、比ラウドネスといわれる。複素オーディオ信号の場合における結果生じる全ラウドネスは、色調スケール(すなわち0〜24bark)に沿った可聴範囲における全心理音響学的励起の比ラウドネスに対する積分であると見出される。この全ラウドネスに基づいて、マスキングされた閾値は、ラウドネスとマスキングとの間の公知の関係に基づいて生成され、関連する臨界帯域幅内でのサウンドの終端後の時間効果を考慮すると、マスキングされた閾値は約200msにおける最小可聴閾値まで降下する。(図12のポストマスキングも参照)。
【0102】
このようにして、心理音響学的マスキングモデルが上記の全てのマスキング効果を考慮して実装される。先の図面および説明から、ノイズ(例えば、バックグラウンドノイズ)の音圧レベル、スペクトル成分およびタイミング特徴によって引き起こされるマスキング効果が何であるか、そしてこれらの効果が、どのように結果として知覚される印象を損なうことなしに時間領域および周波数領域における平滑化を用いて信号の情報内容を低減するために利用され得るかが理解され得る。時間領域および周波数領域において少ない情報内容を有する信号が、パワースペクトル密度の推定値を得るために、デジタル信号プロセッサにおいて非常に低減された計算要件で分析され得ることが明らかである。
【0103】
アルゴリズムの計算要件をさらに低減するために、信号の個別のスペクトル成分を処理するのではなく、個別の臨界帯域幅または周波数群において発生する励起パターンをコンパイルすることもまた有用である。上記にさらに説明したように、臨界帯域幅の基礎は、ヒトの耳が、音の心理音響学的印象に関して一般的な聴覚印象として特定の周波数範囲において生じる音を一緒にグループ化することであり、聴覚印象の範囲は、24個の連続的に配列される周波数群によってカバーされ得る。
【0104】
音声信号が、それらのスペクトル分布に関する音響知覚の全周波数範囲をカバーしないという事実からさらなる利点が得られる場合には、周波数群が、その周波数群において音声信号の同時の存在に起因して起こる損害が予測されないように定義され得る。他のアルゴリズム(例えば、わずかな処理要件を有するより単純なアルゴリズム)がこれらの周波数群に使用されて、パワースペクトル密度を推定するか、または後のフィルタリングは、一般的に、パワースペクトル密度のいかなる事前の推定もせずにこれらのサブバンドに対して実装され得る。ヒトのスピーチの周波数範囲は、典型的に60Hz〜8kHzであり、ここで規定された上限および下限には、極端な場合にのみ達し、非常に低いレベルである。
【0105】
規定された方法およびシステムから、特に心理音響学的知覚に基づく時間および周波数に対する平滑化が、バックグラウンドノイズの特徴および一般的な状況に従って、個別にまたは様々な組み合わせで適用され得、その結果、一方で、所望の結果(音声信号によって損なわれることなしにバックグラウンドノイズのパワースペクトル密度の信頼できる推定値)を得、そして他方で、デジタル信号プロセッサへの実装に対する必要とされる計算機能力を最小化して、コストを節約し得ることが理解され得る。
【0106】
効果は、バックグラウンドノイズのパワースペクトル密度を推定するアルゴリズムにおいて制御時間定数の適応修正から得られる。バックグラウンドノイズのパワースペクトル密度の現在の測定値が、アルゴリズムの連続的な計算ステップにおいて、バックグラウンドノイズのパワースペクトル密度の推定値を超えるか、または推定値に達しない場合にはいつでも、これらの制御時間定数は、バックグラウンドノイズの推定パワースペクトル密度の近似に対するアルゴリズムにおいて規定の最大上限内で、増加ステップにおいて増分または減分を、バックグラウンドノイズのパワースペクトル密度の実際のレベルに増加させる。これにより、公知の方法と比較してバックグラウンドノイズのレベルの素早い変化への優れた考慮が可能になる(例えば、音声信号による干渉なしでのパワースペクトル密度の推定における)。
【0107】
全周波数領域を通してパワースペクトル密度のレベル全体の特徴からのバックグラウンドノイズの推定パワースペクトル密度の近似のためのアルゴリズムにおいて、増分または減分を導出しない場合には、さらなる利点が得られ得る。むしろ、上記の方法は、パワースペクトル密度の個別のスペクトル成分を参照して、その結果、バックグラウンドノイズのレベルにおける様々な変化パターンは様々なスペクトル位置において考慮される。
【0108】
バックグラウンドノイズの測定パワースペクトル密度が、ヒトの耳の心理音響学的遮蔽効果を考慮した推定を行う前に、時間領域および周波数領域の両方において平滑化される場合にはさらにより多くの利益が理解され得る。これは、時間領域および周波数領域に心理音響学的マスキングを含むことによって、パワースペクトル密度の推定に対するレベル変化に関して測定されるスペクトル線の数の大きな低減をもたらす。それゆえ、このアプローチは、かなり少ない計算機能力を必要とする。
【0109】
バックグラウンドノイズの推定パワースペクトル密度の近似おいてアルゴリズムの増分または減分に対する制御時間定数が、平滑化信号からのパワースペクトル密度の各個別のスペクトル線に対して決定されないが、むしろ少数の周波数帯域に対して決定される場合にはさらに多くの利点が導かれ得、この少数の周波数帯域は周波数群に対応し、この周波数群においてヒトの耳は音響アクティビティをコンパイルし、例えば、知覚されたラウドネスを編成するために使用し、このことは結果として、また、平滑化信号の個別のスペクトル成分の分析に比べるとかなり少ない計算機能力を必要とする。このことは、関心のある周波数をカバーする連続的な周波数群のそれぞれ1つに存在する全てのスペクトル成分を、それらの周波数群のスペクトルコンテンツに対する代表的な単一の結合信号に統合することによって達成される。
【0110】
本発明を実現する様々な例が開示されてきたが、本発明の利点の一部を達成する様々な変化および修正が、本発明の精神および範囲から逸脱することなしになされ得ることが当業者には明らかである。同一の機能を行う他の構成要素が適切に置き換えられ得ることが当業者には明白である。本発明の概念に対するこのような修正は添付の特許請求の範囲によって包含されることが意図される。
【符号の説明】
【0111】
6 パワースペクトル密度計算ユニット
7 時間領域信号平滑化ユニット
8 周波数領域信号平滑化ユニット
9 増分計算ユニット
10 減分計算ユニット
11 推定信号平滑化ユニット

【特許請求の範囲】
【請求項1】
音響的なバックグラウンドノイズのパワースペクトル密度を推定するシステムであって、該システムは、
該バックグラウンドノイズを表すノイズ信号を生成するセンサユニットと、
連続計算サイクルを配置することによって、該ノイズ信号から現在のパワースペクトル密度を連続的に決定するように適合され、対応するパワースペクトル密度出力信号を提供するように適合されたパワースペクトル密度計算ユニットと、
該パワースペクトル密度出力信号を時間領域で平滑化するように適合され、結果として生じる時間的に平滑化された信号を提供するように適合された時間領域信号平滑化ユニットと、
該時間領域信号平滑化ユニットから受信された該時間的に平滑化された信号を周波数領域で平滑化するように適合され、結果として生じる平滑化パワースペクトル密度信号を提供するように適合された周波数領域信号平滑化ユニットと、
該バックグラウンドノイズの該パワースペクトル密度の推定値に依存した増分の計算のために適合された増分計算ユニットと、
該バックグラウンドノイズの該パワースペクトル密度の該推定値に依存した減分の計算のために適合された減分計算ユニットと、
該増分および減分から、該バックグラウンドノイズの該パワースペクトル密度の該推定値を計算するように適合された推定信号平滑化ユニットと
を備え、
該平滑化パワースペクトル密度信号のレベルが増加する場合において、最大増分値が、同時に、新しい計算サイクルにおいて現在決定された該パワースペクトル密度の値が、事前の計算サイクルにおいて決定された該バックグラウンドノイズのパワースペクトル密度の該推定値該増分値よりも大きくなる場合に達成するまで、最小増分値から開始して、所定量だけ該増分が増加し、
該平滑化パワースペクトル密度信号のレベルが減少する場合において、最大減分値が、同時に、新しい計算サイクルにおいて現在決定された該パワースペクトル密度の値が、事前の計算サイクルにおいて決定された該バックグラウンドノイズのパワースペクトル密度の該推定値該増分値よりも小さくなる場合に達成するまで、最小減分値から開始して、所定量だけ該減分が増加する、システム。
【請求項2】
誤差信号を提供する適応フィルタをさらに備え、前記パワースペクトル密度計算ユニットは、連続計算サイクルを配置する該適応フィルタの該誤差信号から現在のパワースペクトル密度を決定するように適合され、前記システムは、対応するパワースペクトル密度出力信号および対応する平滑化パワースペクトル密度信号を提供するように適合される、請求項1に記載のシステム。
【請求項3】
前記システムは、
新しい計算サイクルにおいて決定された前記パワースペクトル密度の現在の値が、事前の計算サイクルにおいて計算された前記バックグラウンドノイズの該パワースペクトル密度の推定値よりも小さい場合に、前記増分値の計算のモードから、前記減分値の計算のモードまで該バックグラウンドノイズの該パワースペクトル密度を推定する計算を変化することであって、該システムは該増分値の現在の値を最小増分値に再設定するように適合されている、ことと、
新しい計算サイクルにおいて決定された該パワースペクトル密度の現在の値が、事前の計算サイクルにおいて計算された該バックグラウンドノイズの該パワースペクトル密度の推定値よりも大きい場合に、該減分値の計算のモードから、該増分値の計算のモードまで該バックグラウンドノイズの該パワースペクトル密度を推定する計算を変化することであって、該システムは該減分値の現在の値を最小減分値に再設定するように適合されている、ことと
を行うように適合されている、請求項1または請求項2に記載のシステム。
【請求項4】
前記システムは、前記バックグラウンドノイズの前記パワースペクトル密度の前記推定値を減分する場合には、該推定値の低減を一定の規定値まで制限するように適合され、その結果、該バックグラウンドノイズの該パワースペクトル密度の該推定値は、前記現在計算された値にかかわらず最小値未満に減少する、請求項1〜請求項3のいずれか1項に記載のシステム。
【請求項5】
前記時間領域信号平滑化ユニットは、2つの異なる時間定数を利用して時間に対する現在測定されたパワースペクトル密度の平滑化のために適合され、該2つの異なる時間定数のうちの1つは上昇信号の場合のためのものであり、該2つの異なる時間定数のうちの1つは減少信号の場合のためのものである、請求項1〜請求項4のいずれか1項に記載のシステム。
【請求項6】
前記周波数領域信号平滑化ユニットは、周波数平滑化第3係数を用いて最小周波数から上方に開始する、そして/または周波数平滑化第4係数を用いて最大周波数から下方に開始する、前記時間領域信号ユニットからの前記時間的に平滑化された信号の平滑化のために適合されている、請求項1〜請求項5のいずれか1項に記載のシステム。
【請求項7】
現在測定されたパワースペクトル密度の時間に対する平滑化のための第1および第2の係数は、ヒトの耳の心理音響学的感覚特性を表し、そして/または、
該現在測定されたパワースペクトル密度の周波数に対する平滑化のための第3および第4の係数は、該ヒトの耳の心理音響学的感覚特性を表す、請求項1〜請求項6のいずれか1項に記載のシステム。
【請求項8】
前記増分値の増加の値は、現在測定されたパワースペクトル密度の前記平滑化パワースペクトル密度信号内の各スペクトル位置に対して異なる値を用いて個別に選択され、前記減分値の増加の値は、現在測定されたパワースペクトル密度の該平滑化パワースペクトル密度信号内の各スペクトル位置に対して異なる値を用いて選択される、請求項1〜請求項7のいずれか1項に記載のシステム。
【請求項9】
前記システムは、心理音響学的感覚知覚に対応する周波数群内の平滑化パワースペクトル密度または非平滑化パワースペクトル密度のスペクトル成分を、さらなる処理の前に、各周波数群に対する単一の結合信号に統合するように適合されている、請求項1〜請求項8のいずれか1項に記載のシステム。
【請求項10】
音響的なバックグラウンドノイズのパワースペクトル密度の推定方法であって、該方法は、
パワースペクトル密度計算ユニットによって、マイクロフォン信号からの現在のパワースペクトル密度を決定し、対応するパワースペクトル密度出力信号を提供するステップと、
該提供されたパワースペクトル密度出力信号を時間領域内で平滑化して、結果として生じる時間的に平滑化された信号を提供するステップと、
該時間的に平滑化された信号を周波数領域で平滑化して、結果として生じる平滑化パワースペクトル密度信号を提供するステップと、
該バックグラウンドノイズのパワースペクトル密度の推定値に依存して増分を計算するステップと、
該バックグラウンドノイズの該パワースペクトル密度の推定値に依存して減分を計算するステップと、
該増分および減分から、該バックグラウンドノイズの該パワースペクトル密度の該推定値を計算するステップと
を包含し、
該平滑化パワースペクトル密度信号のレベルが増加する場合において、最大増分値が、同時に、新しい計算サイクルにおいて現在決定された該パワースペクトル密度の値が、事前の計算サイクルにおいて決定された該バックグラウンドノイズの該パワースペクトル密度の該推定値よりも大きくなる場合に達成するまで、最小増分値から開始して、所定量だけ該増分が増加し、
該平滑化パワースペクトル密度信号のレベルが減少する場合において、最大減分値が、同時に、新しい計算サイクルにおいて現在決定された該パワースペクトル密度の値が、事前の計算サイクルにおいて決定された該バックグラウンドノイズのパワースペクトル密度の該推定値よりも小さくなる場合に達成するまで、最小減分値から開始して、所定量だけ該減分が増加する、方法。
【請求項11】
連続的な計算サイクルを配置することによって、適応フィルタから導出された誤差信号から現在のパワースペクトル密度を決定するステップと、
対応するパワースペクトル密度出力信号および対応する平滑化パワースペクトル密度信号を提供するステップと、
をさらに包含する、請求項10に記載の方法。
【請求項12】
新しい計算サイクルにおいて決定された前記パワースペクトル密度の現在の値が、事前の計算サイクルにおいて計算された前記バックグラウンドノイズの該パワースペクトル密度の推定値よりも小さい場合に、前記増分値の計算のモードから、前記減分値の計算のモードに、該バックグラウンドノイズの該パワースペクトル密度を推定する計算を変化するステップであって、該増分値の現在の値は最小増分値に再設定される、ステップと、
新しい計算サイクルにおいて決定された該パワースペクトル密度の現在の値が、事前の計算サイクルにおいて計算された該バックグラウンドノイズの該パワースペクトル密度の推定値よりも大きい場合に、該減分値の計算のモードから、該増分値の計算のモードに、該バックグラウンドノイズの該パワースペクトル密度を推定する計算を変化するステップであって、該減分値の現在の値は最小減分値に再設定される、ステップと
をさらに包含する、請求項10または請求項11に記載の方法。
【請求項13】
前記バックグラウンドノイズの前記パワースペクトル密度の前記推定値を減分する場合には、該推定値の低減を一定の規定値まで制限するステップをさらに包含し、その結果、該バックグラウンドノイズの該パワースペクトル密度の該推定値は、前記現在計算された値にかかわらず最小値未満に減少する、請求項10〜請求項12のいずれか1項に記載の方法。
【請求項14】
2つの異なる時間定数を利用して時間に対する現在測定されたパワースペクトル密度を前記時間領域内で平滑化するステップをさらに包含し、該2つの異なる時間定数のうちの1つは上昇信号の場合のためのものであり、該2つの異なる時間定数のうちの1つは減少信号の場合のためのものである、請求項10〜請求項13のいずれか1項に記載の方法。
【請求項15】
周波数平滑化第3係数を用いて最小周波数から上方に開始する、そして/または周波数平滑化第4係数を用いて最大周波数から下方に開始する、前記時間領域信号平滑化ユニットからの時間的に平滑化された信号を周波数領域内で平滑化するステップを包含する、請求項10〜請求項14のいずれか1項に記載の方法。
【請求項16】
現在測定されたパワースペクトル密度の時間に対する平滑化のための第1および第2の係数は、ヒトの耳の心理音響学的感覚特性を表し、そして/または、
該現在測定されたパワースペクトル密度の周波数に対する平滑化のための第3および第4の係数は、該ヒトの耳の心理音響学的感覚特性を表す、請求項10〜請求項15のいずれか1項に記載の方法。
【請求項17】
前記増分値の増加の値は、現在測定されたパワースペクトル密度の前記(平滑化)パワースペクトル密度信号内の各スペクトル位置に対して異なる値を用いて個別に選択され、前記減分値の増加の値は、現在測定されたパワースペクトル密度の該(平滑化)パワースペクトル密度信号内の各スペクトル位置に対して異なる値を用いて個別に選択される、請求項10〜請求項16のいずれか1項に記載の方法。
【請求項18】
心理音響学的感覚知覚に対応する周波数群内の(平滑化)パワースペクトル密度のスペクトル成分を、さらなる処理の前に、各周波数群に対する単一の結合信号に統合する、請求項10〜請求項17のいずれか1項に記載の方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate


【公開番号】特開2010−211190(P2010−211190A)
【公開日】平成22年9月24日(2010.9.24)
【国際特許分類】
【出願番号】特願2010−12611(P2010−12611)
【出願日】平成22年1月22日(2010.1.22)
【出願人】(504147933)ハーマン ベッカー オートモーティブ システムズ ゲーエムベーハー (165)