説明

雑音を含む音響信号の質を向上させる方法および音響信号を取得して該音響信号の質を向上させるシステム

【課題】音響信号の質を向上させる超音波ドップラ技法を使用する。
【解決手段】方法及びシステムは、同時に音響源の可動部分から超音波ドップラ信号を取得しながら、音響源からマイクロフォンによって取得された音響信号の質を向上させる。そして、モデルに従って音響信号とドップラ信号とを分析することにより、質の向上した音響信号を生成する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、信号処理に関し、特に音響信号を取得しその質を向上させることに関する。
【背景技術】
【0002】
ハンズフリー移動体通信、電話及びハンズフリー音声認識等、遠距離場(far-field)マイクロフォンによって音響信号が取得される多くの用途がある。このような用途では、取得された音響信号は、大量の雑音、たとえば交通、群集、ラジオ、TV、風、又は環境における他の周囲雑音を含むことが多い。雑音は、特に音声認識において、取得された音響信号を解釈する際や、他の処理を行う際の妨げとなる。
【0003】
多くの用途に対しドップラ技術が使用されてきた。2001年6月26日にモー(Mo)他に対して発行された、「Method and apparatus for dynamic noise reduction for Doppler audio output」と題する米国特許第6,251,077号は、適応型雑音低減用低域通過フィルタを用いてスペクトル・ドップラ画像の背景雑音を抑制する方法について述べている。2004年8月10日にンジェマンゼ(Njemanze)に対して発行された、「Noninvasive transcranial Doppler ultrasound face and object recognition testing system」と題する米国特許第6,773,400号は、大脳動脈におけるベースライン血流速度を測定すると同時に、顔及び物体認識タスクを用いて被験者を試験する方法について述べている。2004年8月10日にキム(Kim)他に対して発行された、「Ultra-sonic apparatus and method for measuring the velocities of human tissues using the Doppler effects」と題する米国特許第6,773,403号は、速度を含むデータの周波数分布を生成することにより、人体から反射したエコー信号をサンプリングすることによって組織成分の速度を測定する方法について述べている。
【発明の開示】
【発明が解決しようとする課題】
【0004】
音響信号の質を向上させる超音波ドップラ技法を使用することが望まれる。
【課題を解決するための手段】
【0005】
[発明の概要]
本発明は、ドップラ超音波信号発生器と、たとえばマイクロフォン等の音響信号検出器と、超音波信号センサとを含む。また、広帯域マイクロフォンを使用して音響信号と超音波信号とをともに取得することも可能である。超音波信号は、周波数が、公称可聴周波数範囲より高く、たとえば20KHzより高い。
【0006】
動作中、人間の話者は、音響検出器及び超音波センサに面しながら発話する。検出器及びセンサを、机の上に配置しても、台の上に配置しても、もしくは他の方法で、例えば車のダッシュボード又はバックミラーに取り付けてもよい。音響マイクロフォンは、話者が生成する音響信号を取得する。
【0007】
同時に、超音波発生器は、話者の顔に向かって高周波数音響信号を送信する。超音波信号は、話者の顔、特に口の周りの領域、すなわち、唇、舌及び顎によって反射される。反射されたドップラ信号は、超音波センサによって取得される。反射したドップラ信号の周波数は、音響信号が生成される際に話者の顔、舌、唇及び口の動きによって変調される。
【0008】
したがって、音響信号及びドップラ信号は非常に相関性が高い。取得された超音波信号は、音響信号の質を向上させるために、音響信号と合わせて分析される。そして、質の向上した音響信号を、改善された音声認識システムにおいて等、多数の用途でさらに処理することができる。
【発明を実施するための最良の形態】
【0009】
システム構成
図1は、超音波信号を使用して雑音を含む音響信号の質を向上させるシステム100を示す。本明細書では、音響信号を、公称20KHz未満であるように定義し、すなわち音響信号は人間の耳が聞き取ることができる信号であり、超音波信号は音響信号より周波数が高い信号である。すなわち、音響信号及び超音波信号の周波数は、同一の要素を持たない。
【0010】
システム100は、音響マイクロフォン102、超音波トランスデューサ103及び超音波センサ104を組み込んだハウジング110を含む。音響マイクロフォン及び超音波センサの代りに、超音波ドップラ周波数を含む広範囲の音響周波数にわたって感知可能な広帯域マイクロフォンを用いてもよい。
【0011】
音響マイクロフォン102は、音響源101、たとえば人間の話者から、雑音を含む音響信号105を取得する。雑音を含む音響信号は、音響信号を表す電気信号106に変換され、それが検出される120。音響源は、スピーカコーン又はダイアフラム、或いは可動部分を有する機械等、何らかの他の音響源であってもよいことが留意されるべきである。この場合、本発明は、音響信号と可動部分によって変調される反射ドップラ信号とを合わせて分析することにより、機械が適切に動作している時を決定することができる。
【0012】
超音波信号発生器130は、トランスデューサ103に対し超音波信号108を生成する。超音波信号は、概して音響源101に向けられ、別個に反射ドップラ信号109が検出される140。
【0013】
音響源の可動部分、たとえば口、唇及び舌によって音響信号が生成される時、反射ドップラ信号は対応する音響信号に対して高い相関性がある。
【0014】
したがって、本発明は、「クリーンな」音響スペクトルと対応するドップラスペクトルとの状態を表したモデルを使用する。そして、このモデルを使用して、取得されたドップラ信号を対応するクリーンな音響信号と相関させることにより本来雑音を含む音響信号の質を向上させることができる。
【0015】
検出された雑音を含む音響信号とドップラ信号とを、モデル200に従って合わせて分析することにより、雑音の量が低減した質の向上した音響信号151が生成される150。質の向上した音響信号151を、たとえば音声認識160を実行するためにさらに処理することができる。
【0016】
混合モデルトレーニング
図2は、超音波信号を使用して、音声等の音響信号の質を向上させるモデル200を示す。このモデルは、音響スペクトル201、ドップラ又は超音波スペクトル202及び雑音スペクトル203を用いてトレーニングされる。雑音スペクトル203が音響スペクトル201に追加される210ことにより、雑音を含む音響スペクトル204がもたらされる。
【0017】
モデルは、複数の状態220を有する。各状態において、「クリーンな」音響信号に対する1つのスペクトル201と、対応するドップラ信号に対する1つのスペクトル202とがある。このような分布を、
【0018】
【数1】

【0019】
として数学的に表してもよい。ここで、zは状態を表し、Dはドップラスペクトルを表し、Sは、たとえば取得された信号の30ミリ秒セグメントに対する音響スペクトルを表す。
【0020】
モデルのパラメータは、モデル200の状態P(z)の事前確率と、ドップラスペクトルの状態依存分布P(D|z)と、音響スペクトルの状態依存分布P(S|z)とを含む。モデルは、同時の「クリーンな」音響信号と対応するドップラ信号とのコーパスから「トレーニングされる」。モデルは、ガウス分布の混合の形式であってもよく、各分布は平均と分散とを有する。
【0021】
隠れマルコフモデル(HMM)又はベイズネットワーク等の他のモデルを使用することも可能である。
【0022】
モデルによれば、音響信号発生プロセス又はたとえば顔又は機械等の音響源は、すべての瞬間において異なる状態にある。その状態では、音響源は、音響信号に対する唯一のスペクトルと、同時にその音響信号と相関させることができるドップラ信号に対する対応する唯一のスペクトルとを生成する。音響スペクトル201が加法性雑音203によって汚染されることにより、雑音を含む音響スペクトル204が生成される。
【0023】
雑音を含む音響信号からの質を向上させた音響信号の推定
図3は、ドップラ信号を使用して雑音を含む音響信号105から推定される質の向上した音響信号151を取得する方法300を示す。周波数が高いドップラスペクトル302は、それより周波数の低い音響信号によって汚染されない。ドップラスペクトルは、モデル200のさまざまな状態220の事後確率を推定するために使用される「証拠」を提供する。これらの推定値は、ドップラ信号が音響雑音によって汚染されないため信頼性が高いとみなされる。
【0024】
雑音スペクトルに対するモデルを使用して、分析及び生成ステップ310において雑音を含む音響信号105から質の向上した音響スペクトル301の状態依存推定値を取得する。ドップラ信号から取得された状態の事後確率を重みとして使用して雑音スペクトルとドップラスペクトルとが結合されることにより、質の向上した音響信号151に対する推定値が生成される。
【0025】
手続き例を以下のように説明することができる。Yは、雑音を含む音声の音響スペクトルを表すものとする。f(S,N)は、クリーンな音響信号の音響スペクトルSに対する雑音Nの影響を表す関数を表すものとする。すなわち、Y=f(S,N)とする。雑音は未知である。Nは既知ではない。
【0026】
クリーンな音響スペクトルSもまた既知である場合、逆関数N=f(Y,S)を通して雑音を推定することができることが理想的である。不都合なことに、クリーンな音声スペクトルSもまた未知である。しかしながら、音響スペクトルSを生成した状態zが既知である場合、雑音Nを
【0027】
【数2】

【0028】
として推定することができる。ここで、μは、音響スペクトルの状態依存分布P(S|z)の平均値である。しかしながら、状態zもまた未知であり、音響信号に雑音が含まれるため取得された音響信号から正確に推定することはできない。しかしながら、ドップラスペクトルDは雑音によって汚染されておらず、ドップラスペクトルから証拠を導出することにより
【0029】
【数3】

【0030】
として、状態zの事後確率を推定することができる。
【0031】
そして、雑音の推定されたスペクトルを、状態の各々から導出された推定値の重み付きの組合せとして取得することができる。ここで、状態の重みは、
【0032】
【数4】

【0033】
に従ってドップラスペクトルから取得されている。
【0034】
推定された雑音を使用して、逆変換
【0035】
【数5】

【0036】
を通して、取得された音響信号のスペクトルの「雑音を除去する」ことができる。この変換は、本発明により雑音を含む音響信号に対しいかに雑音除去を実行することができるかを表す。
【0037】
上述した変換は一例に過ぎないということが理解されるべきである。手続きにより種々の変換関数f(.)及びg(.)を使用することができる。同様に、さまざまなスペクトルを表すために他の統計モデルを使用することも可能である。
【0038】
本発明により、音声認識等、多数の用途が質の向上した音響信号で動作することができる。たとえば、本発明を使用して、自動車においてハンズフリー電話に対し信号の雑音を除去し、携帯電話において、それが雑音の多い環境で使用される場合に伝送信号の質を向上させるために信号の雑音を除去し、又は機械類の動作を診断し潜在的な故障を検出するために使用することができる。
【0039】
本発明を好ましい実施形態の例を用いて説明したが、本発明の精神及び範囲内においてさまざまな他の適応及び変更を行ってもよい、ということが理解されるべきである。したがって、本発明の真の精神及び範囲内にあるこのような変形及び変更のすべてを包含することが添付の特許請求の範囲の目的である。
【図面の簡単な説明】
【0040】
【図1】本発明による音響信号を取得するシステム及び方法のブロック図である。
【図2】本発明によるモデルのブロック図である。
【図3】本発明による音響信号の質を向上させる方法のブロック図である。

【特許請求の範囲】
【請求項1】
音響源から音響信号を取得することと、
同時に、前記音響源の可動部分から反射される超音波ドップラ信号を取得することと、
モデルに従って前記音響信号と前記超音波ドップラ信号とを合わせて分析することによって、質が向上された音響信号を生成することと
を備えた、雑音を含む音響信号の質を向上させる方法。
【請求項2】
前記取得された音響信号は雑音を含み、前記質が向上された音響信号は雑音の量が低減している、請求項1に記載の方法。
【請求項3】
前記超音波ドップラ信号を生成すること
をさらに含む、請求項1に記載の方法。
【請求項4】
前記超音波ドップラ信号は、前記音響信号より周波数が高い、請求項1に記載の方法。
【請求項5】
前記音響信号はマイクロフォンによって取得され、前記超音波ドップラ信号は超音波センサによって取得される、請求項1に記載の方法。
【請求項6】
前記音響源は人間の話者である、請求項1に記載の方法。
【請求項7】
前記音響源は可動部分を備えた機械である、請求項1に記載の方法。
【請求項8】
前記音響源はスピーカである、請求項1に記載の方法。
【請求項9】
前記質が向上された音声信号で音声認識を実行すること
をさらに含む、請求項6に記載の方法。
【請求項10】
自動車においてハンズフリー電話に対して雑音を含む音声の質を向上させること
をさらに含む、請求項6に記載の方法。
【請求項11】
雑音の多い環境で動作している携帯電話に対し雑音を含む音声の質を向上させること
をさらに含む、請求項6に記載の方法。
【請求項12】
前記機械の動作を診断すること
をさらに含む、請求項7に記載の方法。
【請求項13】
複数のクリーンな音響スペクトルと複数の対応するドップラスペクトルとを用いて前記モデルをトレーニングすること
をさらに含む、請求項1に記載の方法。
【請求項14】
前記モデルは、分布の混合の形式である、請求項1に記載の方法。
【請求項15】
前記分布はガウス分布である、請求項14に記載の方法。
【請求項16】
前記モデルは複数の状態を含み、各状態は、1つの音響スペクトル及び1つの対応するドップラスペクトルをモデル化する、請求項14に記載の方法。
【請求項17】
前記モデルは、前記状態の事前確率、前記ドップラスペクトルの状態依存分布、及び前記音響スペクトルの状態依存分布を含む、請求項16に記載の方法。
【請求項18】
前記モデルの前記状態の事後確率を重みとして使用することにより音響スペクトルと前記ドップラスペクトルとを結合することにより、前記質が向上された音響信号を生成すること
をさらに含む、請求項17に記載の方法。
【請求項19】
前記モデルはガウス分布を含む、請求項1に記載の方法。
【請求項20】
前記モデルは隠れマルコフモデルである、請求項1に記載の方法。
【請求項21】
前記モデルはベイズネットワークである、請求項1に記載の方法。
【請求項22】
音響源から音響信号を取得するように構成されたマイクロフォンと、
前記音響源から反射した超音波ドップラ信号を同時に取得するように構成されたセンサと、
モデルに従って前記音響信号と前記ドップラ信号とを合わせて分析することにより、質が向上された音響信号を生成する手段と
を備えた、音響信号を取得して該音響信号の質を向上させるシステム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate


【公開番号】特開2006−313344(P2006−313344A)
【公開日】平成18年11月16日(2006.11.16)
【国際特許分類】
【外国語出願】
【出願番号】特願2006−116507(P2006−116507)
【出願日】平成18年4月20日(2006.4.20)
【出願人】(597067574)ミツビシ・エレクトリック・リサーチ・ラボラトリーズ・インコーポレイテッド (484)
【住所又は居所原語表記】201 BROADWAY, CAMBRIDGE, MASSACHUSETTS 02139, U.S.A.
【Fターム(参考)】