説明

動的ノイズ低減

【課題】高ノイズ条件において音声の明瞭度と音声の質とを向上させること。
【解決手段】音声の質を改善するシステムであって、スペクトルコンバータと、バックグラウンドノイズ推定器と、該スペクトルコンバータおよび該バックグラウンドノイズ推定器と通信するスペクトルセパレータと、該スペクトルセパレータと通信するモデラであって、実質的に線形の複数の関数を該音声セグメントの様々な部分に適合させる、モデラと、動的ノイズ調節器であって、該音声セグメントのノイジーな部分に対応する動的調整係数を指定することによって、該音声セグメントの該ノイジーな部分のスペクトルの大きさを指定するようにプログラムされる、動的ノイズ調節器と、動的ノイズプロセッサであって、該音声セグメントの1つ以上の部分において検出されたノイズの一部を減衰させるようにプログラムされる、動的ノイズプロセッサとを備える、システム。

【発明の詳細な説明】
【技術分野】
【0001】
本開示は、音声強調に関し、さらに詳細には、高ノイズ条件において音声の明瞭度と音声の質とを向上させることに関する。
【背景技術】
【0002】
車両における音声強調は困難である。一部のシステムは、干渉の影響を受けやすい。干渉は、エンジン、ファン、道路のノイズ、および雨を含む多くのソースに由来し得る。反響およびエコーもまた、特に車両環境における音声強調システムにおいて干渉し得る。
【0003】
一部のノイズ抑制システムは、知覚可能な周波数帯域の多くの周波数にわたって均等にノイズを減衰させる。高ノイズ環境において、特に低周波数において、均等な量のノイズ抑制がスペクトルにわたって適用されたときに、高レベルの残余ノイズが生成され得、該高レベルの残余ノイズは、所望の信号の明瞭度と質とを低下させ得る。
【0004】
一部の方法は、第1のフォルマントを犠牲にして第2のフォルマントの周波数を強調し得る。これらの方法は、第2のフォルマントの周波数が第1のフォルマントよりも音声の明瞭度に貢献するということを想定し得る。残念ながら、これらの方法は、ユーザが予期し得る信号の鮮明度と質とを低減させる低周波数帯域の大部分を減衰させ得る。高感度であり、かつ正確であり、待ち時間が最も少なく、知覚可能な周波数帯域にわたって音声を強調するシステムに対する必要性が存在する。
【発明の概要】
【課題を解決するための手段】
【0005】
音声強調システムは、音声の質と、音声信号の明瞭度とを改善する。システムは、時間周波数コンバータを含み、該時間周波数コンバータは、音声信号のセグメントを周波数帯域に変換する。信号検出器は、各音声セグメントの周波数帯域の信号パワーを測定する。バックグラウンドノイズ推定器は、音声信号において検出されたバックグラウンドノイズを測定する。動的ノイズ低減コントローラは、音声信号におけるバックグラウンドノイズを動的にモデリングする。音声の強調は、音声信号のスペクトルの一部分において生じたノイズの一部分を動的に減衰させることによって、聴取者にとって知覚的に心地良い音声信号を表現する。
【0006】
他のシステム、方法、特徴、および利点が、以下の図面と詳細な記述とを考察すると、当業者に明確であるか、または明確になる。全てのかかる追加的なシステム、方法、特徴、および利点が、この記述の範囲内に含まれ、本発明の範囲内に含まれ、そして、添付の特許請求の範囲によって保護されるということが意図されている。
【0007】
本発明はさらに以下を提供する
(項目1)
音声の質を改善するシステムであって、該システムは、
時間変化する信号を周波数領域に、デジタル化して変換するように構成される、スペクトルコンバータと、
バックグラウンドノイズ推定器であって、該時間変化する信号に存在し、かつノイズレシーバの近傍で検出されるバックグラウンドノイズを測定するように構成される、バックグラウンドノイズ推定器と、
該スペクトルコンバータおよび該バックグラウンドノイズ推定器と通信するスペクトルセパレータであって、音声セグメントのパワースペクトルを分割するように構成される、スペクトルセパレータと、
該スペクトルセパレータと通信するモデラであって、実質的に線形の複数の関数を該音声セグメントの様々な部分に適合させる、モデラと、
動的ノイズ調節器であって、該音声セグメントのノイジーな部分に対応する動的調整係数を指定することによって、該音声セグメントの該ノイジーな部分のスペクトルの大きさを指定するようにプログラムされる、動的ノイズ調節器と、
動的ノイズプロセッサであって、該音声セグメントの1つ以上の部分において検出された該ノイズの一部分を減衰させるようにプログラムされる、動的ノイズプロセッサと
を備える、システム。
【0008】
(項目2)
上記モデラは、複数の線形関係を近似するように構成される、項目1に記載の音声の質を改善するシステム。
【0009】
(項目3)
上記モデラは、直線を聴覚スペクトルの中間周波数の部分から低周波数部分に適合させ、かつ直線を該聴覚スペクトルの高周波数部分に適合させるように構成される、項目2に記載の音声の質を改善するシステム。
【0010】
(項目4)
バックグラウンドノイズ推定器は、バックグラウンドノイズ推定器を備える、項目1に記載の音声の質を改善するシステム。
【0011】
(項目5)
車両内で聴取される変化するノイズ条件に適応する音声強調システムであって、該音声強調システムは、
周波数帯域において音声セグメントの複数の部分を変換する時間周波数コンバータと、
該音声セグメントの該周波数帯域の信号パワーを測定するように構成される信号検出器と、
車両内で検出された聴覚バックグラウンドノイズを測定するように構成されるバックグラウンドノイズ推定器と、
動的ノイズ低減コントローラであって、該音声セグメントのスペクトルの低周波数部分において発生する該ノイズの一部分の動的な減衰を介して、快く知覚される音声セグメントにするために、該車両内の該聴覚バックグラウンドノイズを動的にモデリングするように構成される、動的ノイズ低減コントローラと
を備える、音声強調システム。
【0012】
(項目6)
アナログ音声セグメントをデジタル信号に変換するように構成されるアナログデジタル変換器をさらに備える、項目5に記載の音声強調システム。
【0013】
(項目7)
上記時間周波数コンバータは、短時間フーリエ変換コントローラを備える、項目6に記載の音声強調システム。
【0014】
(項目8)
上記バックグラウンドノイズ推定器は、上記周波数帯域のそれぞれにおいて音響パワーを平均するように構成されるパワー検出器を備える、項目7に記載の音声強調システム。
【0015】
(項目9)
上記測定されたバックグラウンドノイズが所定の閾値を超えている場合に、上記バックグラウンドノイズ推定器を無効にするように構成される過渡検出器をさらに備える、項目8に記載の音声強調システム。
【0016】
(項目10)
上記動的ノイズ低減コントローラは、周波数スペクトルの2つ以上の間隔を区別するように構成される、項目9に記載の音声強調システム。
【0017】
(項目11)
上記動的ノイズ低減コントローラは、上記音声セグメントのスペクトルの一部分において発生する上記ノイズの一部分を減衰させるようにプログラムされる、項目9に記載の音声強調システム。
【0018】
(項目12)
上記動的ノイズ低減コントローラは、上記音声セグメントの周波数が実質的に事前に指定された周波数以上である場合に、実質的に均一な抑制を適用するように構成される、項目9に記載の音声強調システム。
【0019】
(項目13)
上記動的ノイズ低減コントローラは、上記音声セグメントの周波数ビンが事前に指定されたビンより小さい場合に、可変の抑制を適用するように構成される、項目12に記載の音声強調システム。
【0020】
(項目14)
空気を動かすことによって生成された上記ノイズを抑制する上記動的ノイズ低減コントローラと通信する風抑制システムをさらに備える、項目9に記載の音声強調システム。
【0021】
(項目15)
車両内で記録された信号に適用される減衰ゲインを動的に制御するシステムであって、該システムは、
サウンドセグメントにおいて該信号パワーをリアルタイムで測定するように構成されるパワープロセッサと、
該サウンドセグメントにおいて検出されたバックグラウンドノイズをリアルタイムで測定するように構成されるバックグラウンドノイズプロセッサと、
複数の線形関係を処理することによって、該測定されたバックグラウンドノイズをモデリングするように構成される動的ノイズ低減プロセッサと、
該測定されたバックグラウンドノイズの該モデルに応答して調整されたノイズ抑制ゲインを有する動的ノイズ抑制フィルタと
を備える、システム。
【0022】
(項目16)
上記動的ノイズ抑制フィルタは、上記サウンドセグメントの第1の指定された部分と、該サウンドセグメントの第2の指定された部分との間の勾配の差に基づき、抑制ゲインを適用するように構成される、項目15に記載の信号に適用される減衰ゲインを動的に制御するシステム。
【0023】
(項目17)
上記第1の指定された部分は、上記サウンドセグメントの低周波数部分を含む、項目16に記載の信号に適用される減衰ゲインを動的に制御するシステム。
【0024】
(項目18)
上記第2の指定された部分は、上記サウンドセグメントの高周波数部分を含む、項目17に記載の信号に適用される減衰ゲインを動的に制御するシステム。
【0025】
(項目19)
音声セグメントの音声の質および明瞭度を改善する方法であって、該方法は、
サウンドセグメントを別々の周波数帯域に変換することであって、各帯域は、小さな周波数範囲にわたって振幅および位相を識別する、ことと、
各周波数帯域において測定された音響パワーを平均することによって、信号のバックグラウンドノイズを推定することと、
周波数スペクトルの高い部分と周波数スペクトルの低い部分とを区別することと、
該スペクトルの高周波数部分に適用される実質的に一定の減衰と、該周波数スペクトルの低い部分に適用される可変の減衰とを決定することによって、バックグラウンドノイズスペクトルをモデリングすることと、
該一定の減衰と該可変の減衰とを適用することによって、該サウンドセグメントから該バックグラウンドノイズの複数の部分を減衰させることと
を包含する、方法。
【0026】
(項目20)
上記周波数スペクトルの高い部分と該周波数スペクトルの低い部分との間の分離を指定する所定の周波数帯域を指定することをさらに包含する、項目19に記載の音声セグメントの音声の質および明瞭度を改善する方法。
【0027】
(項目21)
過渡ノイズが検出される場合に、上記バックグラウンドノイズを推定する動作を無効にすることをさらに包含する、項目19に記載の音声セグメントの音声の質を改善する方法。
【0028】
(項目22)
上記サウンドセグメントをパワー領域に変換することをさらに包含する、項目19に記載の音声セグメントの音声の質を改善する方法。
【0029】
(項目23)
可変の減衰レベルは、複数のモデリングされた直線座標切片に基づく、項目19に記載の音声セグメントの音声の質を改善する方法。
【0030】
(項目24)
バックグラウンドノイズをモデリングすることによって、音声の質を改善するソフトウェアを保持するコンピュータ読み取り可能な媒体であって、該媒体は、
コンピュータ読み取り可能な媒体であって、プロセッサによって処理されるようにアクセス可能であり、かつそのように構成される信号推定ロジック、モデリングロジック、および減衰ロジックを保持する、媒体を備え、
該信号推定ロジックは、入力信号において所望される信号の信号パワーを決定し、
該モデリングロジックは、複数の実質的に線形のモデルを介して、該入力信号から検出された複数のバックグラウンドノイズを表し、
該減衰ロジックは、該モデリングロジックの出力に応答して、該入力信号に適用される抑制のレベルを近似する、コンピュータ読み取り可能な媒体。
【0031】
(項目25)
上記複数の実質的に線形のモデルを保持するようにプログラムされるメモリをさらに備える、項目24に記載のコンピュータ読み取り可能な媒体。
【0032】
(摘要)
音声強調システムは、音声の質と、音声信号の明瞭度とを改善する。システムは、時間周波数コンバータを含み、該時間周波数コンバータは、音声信号のセグメントを周波数帯域に変換する。信号検出器は、各音声セグメントの周波数帯域の信号パワーを測定する。バックグラウンドノイズ推定器は、音声信号において検出されたバックグラウンドノイズを測定する。動的ノイズ低減コントローラは、音声信号におけるバックグラウンドノイズを動的にモデリングする。音声の強調は、音声信号のスペクトルの一部分において生じたノイズの一部分を動的に減衰させることによって、聴取者にとって知覚的に心地良い音声信号を表現する。
【図面の簡単な説明】
【0033】
【図1】図1は、音声信号と、中間の強度の車両ノイズとのスペクトログラムである。
【図2】図2は、音声信号と、高強度の車両ノイズとのスペクトログラムである。
【図3】図3は、強調された音声信号と、静的ノイズ抑制方法によって処理された中間の強度の車両ノイズとのスペクトログラムである。
【図4】図4は、強調された音声信号と、静的ノイズ抑制方法によって処理された高強度の車両ノイズとのスペクトログラムである。
【図5】図5は、中間レベルのバックグラウンドノイズのパワースペクトル密度のグラフと、静的ノイズ抑制方法によって処理された中間レベルのバックグラウンドノイズのパワースペクトル密度のグラフとである。
【図6】図6は、高レベルのバックグラウンドノイズのパワースペクトル密度のグラフと、静的ノイズ抑制方法によって処理された高レベルのバックグラウンドノイズのパワースペクトル密度のグラフとである。
【図7】図7は、音声強調システムの流れ図である。
【図8】図8は、音声強調システムの第2の流れ図である。
【図9】図9は、例示的な動的ノイズ低減システムである。
【図10】図10は、代替の例示的な動的ノイズ低減システムである。
【図11】図11は、動的ノイズ低減ロジックを用いてプログラムされたフィルタである。
【図12】図12は、中間の強度の車両ノイズを減衰させる動的ノイズ低減を用いて強調された音声信号のスペクトログラムである。
【図13】図13は、高強度の車両ノイズを減衰させる動的ノイズ低減を用いて強調された音声信号のスペクトログラムである。
【図14】図14は、中間レベルのバックグラウンドノイズのパワースペクトル密度のグラフと、静的抑制方法によって処理された中間レベルのバックグラウンドノイズのパワースペクトル密度のグラフと、動的ノイズ抑制方法によって処理された中間レベルのバックグラウンドノイズのパワースペクトル密度のグラフとである。
【図15】図15は、高レベルのバックグラウンドノイズのパワースペクトル密度のグラフと、静的抑制方法によって処理された高レベルのバックグラウンドノイズのパワースペクトル密度のグラフと、動的ノイズ抑制方法によって処理された高レベルのバックグラウンドノイズのパワースペクトル密度のグラフとである。
【図16】図16は、車両と統合された音声強調システムである。
【図17】図17は、ハンズフリー通信デバイス、通信システム、またはオーディオシステムと統合された音声強調システムである。
【発明を実施するための形態】
【0034】
システムは、以下の図面と記述とを参照してさらに良く理解され得る。図面中のコンポーネントは、必ずしもサイズに比例しておらず、その代わりに、本発明の原理を例示することに重きを置いている。さらに、図面においては、同様な参照番号は、異なる図面全体にわたって対応する部分を示している。
【0035】
ハンズフリーシステムと、通信デバイスと、車両または筐体内の電話とは、ノイズに影響されやすい。ノイズの空間的特性、線形特性、および非線形特性が、音声を抑制したり、歪ませたりし得る。音声強調システムは、聞き取られ得るバックグラウンドノイズを動的に減衰させることによって音声の質と明瞭度とを改善する。動的ノイズ低減システムは、第1のフォルマントの周辺のより低周波数においてより多くの減衰を提供し、第2のフォルマントの周辺においてより少ない減衰を提供し得る。システムは、第2のフォルマントの周波数を強調しながら、第1のフォルマントの音声信号を排除しないことがあり得る。この強調が、開示されたシステムの一部における音声の明瞭度を改善し得る。
【0036】
バックグラウンドノイズが、低い強度であったり、中間の強度を下回ったりしたときには、一部の静的ノイズ抑制システム(SNSS)が、所望の音声の質および清澄度を達成し得る。ノイズレベルが中間レベルを超過したり、ノイズが一部の音調(tonal)特性または過渡特性を有したりするときには、静的抑制システムは、変化するノイズ条件に順応しないことがあり得る。一部の用途において、静的ノイズ抑制システムは、高レベルの残余散乱ノイズ、音調ノイズ、および/または過渡ノイズを生成する。これらの残余ノイズは、音声の質および明瞭度を低下させ得る。残余干渉が、聴取者に疲労をもたらし得、そして、自動音声認識(ASR)システムの性能を低下させ得る。
【0037】
相加性ノイズモデルにおいて、ノイジーな音声は、方程式1によって記述され得る。
y(t)=x(t)+d(t) (1)
ここで、x(t)とd(t)とは、音声信号とノイズ信号とをそれぞれ示す。方程式2において、
【0038】
【数1】

は、ノイジーな音声の短時間のスペクトルの大きさを示し、
【0039】
【数2】

は、鮮明な音声の短時間のスペクトルの大きさを示し、
【0040】
【数3】

は、ノイズの短時間のスペクトルの大きさを示し、Gn,kは、n番目のフレームとk番目の周波数ビンとにおける短時間のスペクトル抑制ゲインを示す。このように、推定された鮮明な音声のスペクトルの大きさは、方程式2によって記述され得る。
【0041】
【数4】

一部の静的抑制システムは、処理された信号において、楽音を作り出すので、処理された信号の質は低下し得る。音来のノイズを最小化したり、マスキングしたりするために、抑制ゲインは、方程式3によって記述されるように制限され得る。
n,k=max(σ,Gn,k) (3)
方程式3におけるパラメータσは、一定のノイズフロアであり、該一定のノイズフロアは、各周波数ビンに適用されるノイズの減衰の量を確立する。一部の用途において、例えば、σが約0.3に設定されたときには、システムは、周波数ビンkにおいて約10dBだけノイズを減衰させ得る。
【0042】
スペクトルゲインに基づいたノイズ低減システムは、通常のノイズ条件の下では良好な性能を有し得る。低周波数のバックグラウンドノイズ条件が、過大であるときには、かかるシステムは、処理された信号に残る高レベルの残余ノイズの影響をこうむり得る。
【0043】
図1および図2は、中間レベルおよび高レベルの車両ノイズの条件それぞれにおいて記録された音声信号のスペクトログラムである。図3および図4は、音声が静的ノイズ抑制システムによって処理されたあとの、図1および図2に示された音声信号のスペクトログラムに対応するスペクトログラムを示す。図1〜図4において、縦座標は、周波数で測定され、横座標は、時間(例えば、秒)で測定される。図の暗度によって示されているように、静的ノイズ抑制システムは、中間レベル(および、示されていないが、低レベル)のバックグラウンドノイズを効果的に抑制する(図3を参照)。逆に、音声が、強いノイズを受けている車両内で記録されたときには、音声のうちの一部は、残余ノイズによって損なわれたり、マスキングされたりしたように現れる(例えば、図4を参照)。
【0044】
一部の静的ノイズ抑制システムは、全ての周波数にわたって実質的に同じ量のノイズ抑制を加えるので、音声が強調されるときに、ノイズの形状は、変化しないままであり得る。図5および図6は、中間レベルまたは高レベルのバックグラウンドノイズのパワースペクトル密度のグラフと、静的ノイズ抑制システムによって処理された中間レベルまたは高レベルのバックグラウンドノイズのパワースペクトル密度のグラフとである。例示的な静的ノイズ抑制システムは、異なるノイズのタイプまたは異なるノイズ条件に対して減衰を適応させないことがあり得る。図4および図6に示されたもののような高ノイズ条件においては、高レベルの残余ノイズが、処理された信号に残る。
【0045】
図7は、リアルタイムまたは遅延音声強調方法700の流れ図であり、該リアルタイムまたは遅延音声強調方法700は、変化するノイズ条件に適応する。連続的な信号が記録されたときに、連続的な信号は、所定のサンプリングレートでサンプリングされ、アナログデジタルコンバータによってデジタル化され得る(デジタル信号として受信された場合には、任意である)。信号に対する複素スペクトルが、短時間フーリエ変換(STFT)によって獲得され得、該短時間フーリエ変換(STFT)は、離散時間信号を周波数ビンに変換し、各ビンは、動作702において小さな周波数範囲にわたって大きさと位相とを識別する。
【0046】
704において、各周波数ビンに対する信号パワーが測定され、バックグラウンドノイズが706において推定される。バックグラウンドノイズの推定は、各周波数ビンにおける音響パワーの平均を含み得る。過渡中の偏ったバックグラウンドノイズの推定を防止するために、ノイズ推定プロセスは、代替の方法において、検出されたパワーの異常な増加または予測不可能な増加の間には無効にされ得る。瞬間的なバックグラウンドノイズが、所定のデシベルレベルよりも多く、所定のバックグラウンドノイズまたは平均バックグラウンドノイズを超過したときには、過渡の検出プロセスは、バックグラウンドノイズの推定を無効にし得る。
【0047】
708において、バックグラウンドノイズスペクトルがモデリングされる。モデルは、高周波数範囲と低周波数範囲との間を区別し得る。線形のモデルまたは実質的に線形のモデルが使用されたときに、周波数ビンが所定の周波数ビンとほぼ等しかったり、所定の周波数ビンを上回ったりしたときには、定常な抑制係数または均一な抑制係数が適用され得る。周波数ビンが所定の周波数ビンを下回ったときには、修正された抑制係数または可変抑制係数が適用される。一部の方法において、所定の周波数ビンは、高周波数のスペクトルと中間周波数のスペクトルとの間(または高周波数範囲と中間周波数範囲から低周波数範囲までとの間)の境界を指示したり、その境界を近似したりし得る。
【0048】
抑制係数は、710において複素信号スペクトルに適用され得る。次に、処理されたスペクトルは、(所望された場合には)任意的な動作712において時間領域に再構築されたり、変換されたりし得る。一部の方法は、短時間逆フーリエ変換(STIFT)または逆サブバンドフィルタリング方法(inverse sub−band filtering method)によって、処理された信号を再構築したり、変換したりし得る。
【0049】
図8は、代替のリアルタイムまたは遅延音声強調方法800の流れ図であり、該代替のリアルタイムまたは遅延音声強調方法800は、車両内の変化するノイズ条件に適応する。連続的な信号が記録されたときには、連続的な信号は、所定のサンプリングレートでサンプリングされ、アナログデジタルコンバータによってデジタル化され得る(デジタル信号として受信された場合には、任意である)。信号に対する複素スペクトルが、短時間フーリエ変換(STFT)によって獲得され得、該短時間フーリエ変換(STFT)は、動作802において、離散時間信号を周波数ビンに変換する。
【0050】
バックグラウンドノイズのパワースペクトルが、804において、n番目のフレームにおいて推定され得る。各フレームBのバックグラウンドノイズのパワースペクトルが、方程式4によって記述されるように、dB領域に変換され得る。
φ=10log10 (4)
dBパワースペクトルが、806において、低周波数部分と高周波数部分とに分割され得る。分割は、カットオフ周波数などの所定の周波数fにおいて生じ得、このことが、808と810とにおいて、複数の線形の回帰モデルを分離し得る。例示的なプロセスは、方程式5および方程式6によって記述されている2つの実質的に線形のモデルまたは線形の回帰モデルを適用し得る。
=a+b (5)
=a+b (6)
方程式5および方程式6において、Xは周波数であり、YはバックグラウンドノイズのdBパワーであり、a、aはdBノイズパワースペクトルの低周波数部分と高周波数部分との勾配であり、b、bは周波数がゼロに設定されたときの2つの直線の切片である。
【0051】
所定の周波数f(kビン)またはカットオフ周波数を下回る所与の周波数に対する動的抑制係数が、方程式7によって記述され得る。
【0052】
【数5】

あるいは、所定の周波数またはカットオフ周波数ビンkを下回る各ビンに対して、動的抑制係数が、方程式8によって記述され得る。
【0053】
【数6】

動的調節係数または動的ノイズフロアが、均一なノイズフロアまたは均一な閾値を変更することによって記述され得る。変動性は、方程式9によって記述されているように、所定のビンを含むビンに対するビンの相対位置に基づき得る。
【0054】
【数7】

音声強調方法は、動的調節Gdynamic,n,kを指定することによってノイジーな音声セグメントのスペクトルの大きさを最小化したり、最大化したりし得、該動的調節Gdynamic,n,kは、812において、n番目のフレームとk番目の周波数ビンとにおける短時間スペクトル抑制ゲインを指示する。
dynamic,n,k=max(η(k),Gn,k) (10)
ノイジーな音声スペクトルの大きさは、動的ゲインGdynamic,n,kによって処理されることにより、814において、方程式11によって記述されているように音声セグメントを鮮明にし得る。
【0055】
【数8】

一部の音声強調方法において、鮮明な音声セグメントが、(所望される場合には)時間領域に変換され得る。一部の方法が、短時間逆フーリエ変換(STIFT)によって処理された信号を再構築したり、変換したりし得る。一部の方法は、逆サブバンドフィルタリング方法を使用し得、そして、一部の方法は、他の方法を使用し得る。
【0056】
図8において、ノイズ低減音声信号の質が改善される。動的ノイズ低減の量は、低周波数のノイズスペクトルと高周波数のノイズスペクトルとの間の勾配の差によって決定され得る。ノイズパワースペクトルの低周波数部分(例えば、第1の指定部分)が、高周波数分(例えば、第2の指定部分)と同様な勾配を有するときには、動的ノイズフロアは、実質的に均一または実質的に一定であり得る。ノイズスペクトルの低周波数部分(例えば、第1の指定部分)の負の勾配が、高周波数部分(例えば、第2の指定部分)の負の勾配よりも大きいときには、より積極的なまたは可変のノイズ低減方法が、より低い周波数において適用され得る。
【0057】
図7および図8の方法および記述は、信号伝達媒体、メモリなどのコンピュータ読み取り可能な媒体内に符号化され得、該コンピュータ読み取り可能な媒体は、1つ以上の集積回路などのデバイスの中にプログラムされたり、コントローラまたはコンピュータによって処理されたりした一体のロジックまたは別個のロジックを備え得る。方法が、ソフトウェアによって行われる場合には、ソフトウェアまたはロジックは、1つ以上のプロセッサまたはコントローラ、ワイヤレス通信インタフェース、ワイヤレスシステム、車両の娯楽および/または快適度コントローラに存在したり、インタフェースされたりしているメモリ、または音声強調システムにインタフェースされたり、存在したりしている不揮発性または揮発性のタイプのメモリ内にあり得る。メモリは、論理機能を実装するための実行可能な命令の順序付けられたリストを含む。論理機能は、デジタル回路、ソースコード、アナログ回路網、またはアナログ電気信号もしくはオーディオ信号などのアナログソースによって実装され得る。ソフトウェアは、図17に示されたハンズフリーシステムもしくは通信システムまたはオーディオシステムに存在する命令を実行可能なシステム、装置、デバイスによって使用するために、またはそれらと共に使用するために、任意のコンピュータ読み取り可能な媒体または信号伝達媒体において体現され得、図16に示されているように車両の中にもあり得る。かかるシステムは、コンピュータベースのシステム、プロセッサを含むシステム、または任意のハードウェアまたはワイヤレス自動車通信プロトコルまたは他の有線またはワイヤレスの通信プロトコルによって自動車またはワイヤレス通信バスと通信し得る入出力インタフェースを含む別のシステムを含み得る。
【0058】
「コンピュータ読み取り可能な媒体」、「機械読み取り可能な媒体」、「伝搬された信号」媒体、および/または「信号伝達媒体」は、命令を実行可能なシステム、装置、またはデバイスによって使用するために、あるいはそれらと共に使用するためにソフトウェアを含んだり、格納したり、通信したり、伝搬したり、運んだりする任意の手段を含み得る。機械読み取り可能な媒体は、限定するものではないが、選択的に、電子、磁気、光学、電磁、赤外線または半導体のシステム、装置、デバイス、または伝搬媒体であり得る。機械読み取り可能な媒体の網羅的ではない例は、1つ以上のワイヤを有する電気接続「電子機器」、ポータブルの磁気ディスクもしくは光学ディスク、ランダムアクセスメモリ「RAM」などの揮発性メモリ(電子機器)、読み取り専用メモリ「ROM」(電子機器)、消去可能なプログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)(電子機器)または光ファイバ(光学機器)を含む。機械読み取り可能な媒体は、ソフトウェアが画像としてまたは他のフォーマット(例えば、光学スキャン)によって電子的に格納され、次に、コンパイルされ、および/または解釈されたり、処理されたりするとき、ソフトウェアが印刷される有形の媒体も含み得る。処理された媒体は、次に、コンピュータおよび/または機械メモリに格納され得る。
【0059】
図9は、音声強調システム900であり、該音声強調システム900は、変化するノイズ条件に適応する。連続的な信号が記録されたときに、連続的な信号は、所定のサンプリングレートでサンプリングされ、アナログデジタルコンバータによって(修正されていない信号がデジタルフォーマットで受信された場合には、任意のデバイスによって)デジタル化され得る。信号の複素スペクトルが、時間周波数トランスフォーマ902によって獲得され得、該時間周波数トランスフォーマ902は、短時間フーリエ変換(STFT)コントローラまたはサブバンドフィルタを備え得、該短時間フーリエ変換(STFT)コントローラまたは該サブバンドフィルタは、デジタル化された信号を周波数ビンまたはサブバンドに分離する。
【0060】
各周波数ビンまたはサブバンドに対する信号パワーが、信号検出器904によって測定され得、バックグラウンドノイズが、バックグラウンドノイズ推定器906によって推定され得る。バックグラウンドノイズ推定器906は、レシーバの近傍で生じる連続的なノイズまたは周囲ノイズを測定し得る。バックグラウンドノイズ推定器906は、パワー検出器を備え、該パワー検出器は、音声が検出されていないときに、各周波数帯域または選択された周波数帯域における音響パワーを平均する。過渡における偏ったノイズの推定を防止するために、代替のバックグラウンドノイズ推定器が、任意の過渡検出器と通信し、該任意の過渡検出器は、パワーの異常な増加または予測不可能な増加の間、代替のバックグラウンドノイズ推定器を無効にする。瞬間的なバックグラウンドノイズB(f,i)が選択されたデシベルレベル「c」よりも多く、平均バックグラウンドノイズB(f)Aveを超過したときには、過渡検出器は、代替のバックグラウンド推定器を無効にし得る。この関係が方程式12によって表現され得る。
B(f,i)>B(f)Ave+c (12)
動的バックグラウンドノイズ低減コントローラ908は、バックグラウンドノイズを動的にモデリングし得る。モデルは、周波数スペクトルの2つ以上の間隔の間を区別し得る。複数のモデルが使用されるとき、例えば、2つ以上の実質的に線形のモデルが使用されるときに、周波数ビンが、事前に指定されたビンまたは周波数とほぼ等しかったり、それよりも大きかったりしたときには、定常な抑制または均一な抑制が、ノイジーな信号に適用され得る。あるいは、周波数ビンが、事前に指定された周波数ビンまたは周波数を下回ったときには、修正された抑制係数または可変抑制係数が適用される。一部のシステムにおいて、所定の周波数ビンは、聴覚範囲において、高周波数のスペクトルと中間周波数のスペクトルとの間(または高周波数範囲と中間周波数範囲から低周波数範囲までとの間)の境界を指示したり、その境界を近似したりし得る。
【0061】
モデルに基づいて、動的バックグラウンドノイズ低減コントローラ908は、低周波数スペクトルにおいて生じたノイズを積極的に減衰させることによって、音声を、聴取者にとってより知覚的に心地良くなるようにする。次に、処理されたスペクトルは、(所望される場合には)周波数時間コンバータ910によって時間領域に変換され得る。一部の周波数時間スペクトルコンバータ910は、短時間逆フーリエ変換(STIFT)コントローラまたは逆サブバンドフィルタによって、処理された信号を再構築したり、変換したりする。
【0062】
図10は、代替の音声強調システム1000であり、該代替の音声強調システム1000は、処理された音声の知覚的質を改善し得る。システムは、人間の聴覚器官の特性から利益を受け得、該システムは、事実上聞き取ることができないノイズを積極的に抑制することなく、音声を、耳にとってより知覚的に心地良くなるようにする。その代わりに、システムは、より可聴周波数範囲に集中し得る。音声強調は、スペクトルコンバータ1002によって達成され得、該スペクトルコンバータ1002は、時間領域信号を周波数領域にデジタル化して変換し、次に、該周波数領域は、パワー領域に変換される。バックグラウンドノイズ推定器906は、レシーバの近傍で生じる連続的なノイズまたは周囲のノイズを測定する。バックグラウンドノイズ推定器906は、パワー検出器を備え、該パワー検出器は、音声がほとんど検出されなかったり、全く検出されなかったりしたときに、各周波数ビンにおける音響パワーを平均する。過渡中の偏ったノイズの推定を防止するために、過渡検出器は、一部の代替の音声強調システムにおいて、パワーの異常な増加または予測不可能な増加の間、バックグラウンドノイズ推定器906を無効にし得る。
【0063】
スペクトルセパレータ1004は、パワースペクトルを低周波数部分と高周波数部分とに分割し得る。分割は、カットオフ周波数などの所定の周波数または指定された周波数ビンにおいて生じ得る。
【0064】
必要とされるノイズ抑制を決定するために、モデラ1006は、ノイジーな音声スペクトルの選択された部分に別々の直線を適合させ得る。例えば、モデラ1006は、ある直線を低周波数スペクトルおよび/または中間周波数スペクトルの一部分に適合させ得、別の直線をスペクトルの高周波数の部分の一部分に適合させ得る。回帰によって、最も適合する直線が、スペクトルの複数の部分における車両のノイズの激しさをモデリングし得る。
【0065】
動的ノイズ調節器1008は、各フレームまたは選択されたフレームと各周波数ビンまたは選択されたk番目の周波数ビンにおける短時間スペクトル抑制ゲインに対する動的調整係数を指定することによってノイジーな音声セグメントのスペクトルの大きさを指定し得る。動的調整係数は、一部のシステムにおいて、ゲイン係数の知覚的非線形の重み付けを含み得る。次に、動的ノイズプロセッサ1010が、スペクトルにおけるノイズのうちの一部を減衰させ得る。
【0066】
図11は、動的ノイズ低減ロジックまたは記述された方法を包含するソフトウェアを用いてプログラムされ得るプログラマブルフィルタである。プログラマブルフィルタは、受信された信号の信号対ノイズ比に基づいた周波数応答を有し得、例えば、再帰的ウィーナーフィルタである。例示的なウィーナーフィルタの抑制ゲインは、方程式13によって記述され得る。
【0067】
【数9】

【0068】
【数10】

は、方程式14によって記述されるアプリオリなSNR推定である。
【0069】
【数11】

【0070】
【数12】

は、方程式15によって記述される経験的SNR推定である。
【0071】
【数13】

ここで、
【0072】
【数14】

はノイズの大きさの推定である。
【0073】
【数15】

は、ノイジーな音声の短時間スペクトルの大きさである。
【0074】
フィルタの抑制ゲインは、方程式10によって記述された動的ノイズフロアを含むことにより、ゲイン係数を推定し得る。
dynamic,n,k=max(η(k),Gn,k) (10)
均一なフロアまたは一定のフロアがまた使用されることにより、方程式16によって記述されているように、再帰を制限し、かつ、音声の歪みを低減させ得る。
【0075】
【数16】

楽音ノイズを最小化させるために、フィルタがプログラムされることにより、方程式17によって記述されるように、
【0076】
【数17】

を平滑化し得る。
【0077】
【数18】

ここで、βは、約0と約1との間の係数であり得る。
【0078】
図12と図13とは、動的ノイズ低減を用いて強調された音声信号のスペクトログラムを示す。動的ノイズ低減は、中間の強度(例えば、図1と比較)の車両ノイズを減衰させることにより、図12に示された音声信号を生成する。動的ノイズ低減は、高い強度(例えば、図2と比較)の車両ノイズを減衰させることにより、図13に示された音声信号を生成する。
【0079】
図14は、中間レベルのバックグラウンドノイズのパワースペクトル密度のグラフと、静的抑制システムによって処理された中間レベルのバックグラウンドノイズのパワースペクトル密度のグラフと、動的ノイズ抑制システムによって処理された中間レベルのバックグラウンドノイズのパワースペクトル密度のグラフとである。図15は、高レベルのバックグラウンドノイズのパワースペクトル密度のグラフと、静的抑制システムによって処理された高レベルのバックグラウンドノイズのパワースペクトル密度のグラフと、動的ノイズ抑制システムによって処理された高レベルのバックグラウンドノイズのパワースペクトル密度のグラフとである。これらの図は、どのように、動的ノイズ抑制システムが、より低い周波数において、一部の静的抑制システムによって生成されたノイズフロアよりも低いノイズフロアを生成するかを示す。
【0080】
音声強調システムは、音声の明瞭度および/または音声の質とを改善する。ゲインの調節は、車両のマイクロフォンなどの入力デバイスから受信された信号に基づいてリアルタイム(または用途または所望の結果に依存した遅延の後)で行われ得る。システムは、追加の補償デバイスとインタフェースし得、そして、例えば、有声信号または無声信号からの風ノイズなどの特定のノイズを抑制するシステムと通信し得、例えば、本明細書において参考として援用される2003年10月16日出願の「System for Surpressing Wind Noise」と題される、米国代理人整理番号第11336/592(P03131USP)に基づく米国特許出願第10/688,802号に記述されたシステムと通信し得る。
【0081】
システムは、筐体またはハンズフリーシステムなどの自動車通信デバイスにおいて検出された信号に適用される減衰ゲインを動的に制御し得る。代替のシステムにおいて、信号パワーが、パワープロセッサによって測定され、バックグラウンドノイズが、バックグラウンドノイズプロセッサによって測定または推定され得る。バックグラウンドノイズプロセッサの出力に基づいて、バックグラウンドノイズの複数の線形の関係が、動的ノイズ低減プロセッサによってモデリングされ得る。ノイズ抑制ゲインが、コントローラ、増幅器またはプログラマブルフィルタによって表現され得る。デバイスは、待ち時間が少なく、計算の複雑度が低くなり得る。
【0082】
他の代替の音声強調システムは、上に記述されたり、図面のそれぞれにおいて示されたりした構造および機能の組み合わせを含む。これらの音声強調システムは、上に記述されたり、図面に例示されたりした構造および機能の任意の組み合わせから形成される。ロジックは、ソフトウェアまたはハードウェア内に実装され得る。ハードウェアは、プロセッサまたは揮発性および/または不揮発性のメモリを有するコントローラを含み、該プロセッサまたはコントローラは、ワイヤレス媒体または有線の媒体を介して周辺デバイスにインタフェースする。高ノイズ条件または低ノイズ条件において、元々の信号のスペクトルが調節されるので、明瞭度と信号の質とが改善され得る。
【0083】
本発明の様々な実施形態が記述されてきたが、本発明の範囲内において、さらに多くの実施形態および実装が可能であることが、当業者には明らかである。したがって、本発明は、添付の特許請求の範囲およびその均等物を踏まえたものを除いては制限されない。
【符号の説明】
【0084】
700 リアルタイムまたは遅延音声強調方法
702 周波数領域
704 信号推定
706 ノイズ推定
708 モデリング
710 ノイズ抑制
712 時間領域

【特許請求の範囲】
【請求項1】
本明細書に記載の発明。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate


【公開番号】特開2012−177950(P2012−177950A)
【公開日】平成24年9月13日(2012.9.13)
【国際特許分類】
【出願番号】特願2012−141111(P2012−141111)
【出願日】平成24年6月22日(2012.6.22)
【分割の表示】特願2008−273648(P2008−273648)の分割
【原出願日】平成20年10月23日(2008.10.23)
【出願人】(511277560)キューエヌエックス ソフトウェア システムズ リミテッド (2)