説明

適応ノイズ下限トラッキングを伴う音声動作検出

本発明は、通信信号中の音声動作を検出するための方法及び装置に関する。フィルタ手段は、通信信号のレベルのオフセット成分を概算又は抑制するために設けられている。フィルタパラメータは、フィルタ手段の出力に基づいて制御される。また、オフセット成分の概算又は抑制は、フィルタ手段の出力に応じて制限される。フィルタ手段は、非線形適応ノッチレベルフィルタ又はノイズ下限トラッキングフィルタに基づいていてもよい。これにより、ノイズ下限の突然の上昇に対するノイズ下限概算のトラッキング態様を向上させることができるとともに、幅広いダイナミックレンジに亘って音声動作検出を効率的に機能させることができる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、モバイル及びコードレス用途の主要領域における遠距離通信システムの通信信号での音声動作を検出するための方法及び装置に関し、特に、ノイズ環境下でアクティブなスピーチレベルを概算するための自動利得制御装置に使用することができる方法及び装置に関する。
【背景技術】
【0002】
スピーチ信号が聞き手に対して送信され又は電話応答機によって記録される通信システムにおいては、実際のスピーチレベルがたとえどのようなものであっても、スピーチ信号のレベルを自動的に所定の基準レベルに対して調整することが望ましい。これにより、可聴性及び聞き手の快適さが向上する。出力レベルを基準値に設定すべき、対応する自動利得制御装置の調節機構は、長期アクティブスピーチレベルの信頼できる測定及び概算を必要とする。また、制御装置は、スピーチ発生中におけるバックグラウンドノイズの望ましくない増大を防止する能力も有していなければならない。このため、経時的にかなり変化する場合がある高いバックグラウンドノイズの存在下でも良好に機能する音声動作検出回路(VAD)が必要になる。
【0003】
図1は、クリーン(明瞭な)スピーチ信号sの時間に依存する信号図(上側の図)、及び、クリーンスピーチ信号から生成される短期レベル信号Sの時間に依存する信号図を示している。ノイズが無いそのような場合には、レベル信号と絶対閾値とを比較してアクティブスピーチを伴う部分を識別することによって音声動作検出を行うことができる。これは、一般に、信号sの矩形入力サンプルに対してローパスフィルタ若しくは平滑化フィルタを適用する(短期出力概算)ことにより、又は、入力サンプルの絶対値に対してローパスフィルタ若しくは平滑化フィルタを適用する(短期大きさレベル概算)ことにより行われる。ローパスフィルタは、いわゆる漏出統合(leaky integration)において使用されるデジタル一次再帰フィルタ(無限インパルス応答(IIR)フィルタ)であってもよい。フィルタの時定数パラメータαは、一般に、9kHzのサンプリングレートにおいて2−5乃至2−7の範囲において選択される。
【0004】
スピーチ信号の初期に特に重点を置くため、立ち上がりレベル又は立ち下がりレベルに応じてパラメータを切り換えることができる。ここで、クリーンスピーチ信号sの短期レベルSが所定の絶対閾値パラメータYH Aを上回る場合には、音声動作が検出される。これは、以下の式により表すことができる。
VAD=1 S(i)−TH A>0の場合 (1)
【0005】
図2は、例えば文献 欧州特許第EP0 110 464 B2号公報に記載されるような音声動作検出器の概略ブロック図を示している。図1において、ノイズスピーチ信号は、入力端子Eを介してアナログ/デジタル(A/D)変換器2に対して供給され、また、A/D変換器2は、所定のサンプリングタイミングでサンプル値x(k)を生成する。ここで、kは、整数であり、サンプル値の連続番号を示している。その後、サンプル値x(k)は、ノイズ下限概算ユニット4に対して供給される。このノイズ下限概算(評価)ユニット4は、受信したスピーチ信号のデジタル表示即ちサンプル値x(k)中に存在するバックグラウンドノイズを概算するようになっている。並行して、サンプル値x(k)は、信号出力レベル概算ユニット6にも供給される。この信号出力レベル概算ユニット6は、計算及び/又は処理を行って、受信したスピーチ信号中に存在する信号出力を決定する。信号出力レベル概算ユニット6での計算及び/又は処理は、入力サンプル値の平方平均値の決定に基づくことができる。ノイズ下限概算ユニット4及び信号出力レベル概算ユニット6の出力は、その後、比較ユニット又はコンパレータユニット8に対して供給される。この比較ユニット8は、概算されたノイズ下限に基づいて相対閾値を決定するようになっているとともに、この相対閾値と概算された信号出力レベルとを比較するようになっている。比較ユニット8は、比較結果に基づいて、制御信号を生成するとともに、この制御信号を音声動作検出処理ユニット10に対して供給する。音声動作検出処理ユニット10は、受信した制御信号に応じて、音声動作を表すためのVADフラグを生成する。
【0006】
このように、図2に示される音声動作検出器は、ノイズ入力レベルの値とバックグラウンドノイズレベルの概算値との閾値比較に応じて、そのVADフラグを割り当てる。
【0007】
図3は、ノイズスピーチ信号xが定常バックグラウンドノイズを含んでいる場合における図1に類似する時間依存信号図を示している。多くの定常バックグラウンドノイズが一定のオフセットのようにクリーンスピーチ信号レベルSに対して加えられ、それにより、ノイズを有する複合信号スピーチの短期レベルX(図3の実線)が形成される。尚、ここでは、小文字で示された信号が、図2のA/D変換器2から得られる実際の又は真のサンプル値に対応している。一方、大文字で示された信号は、平方サンプル又はサンプルの大きさをそれぞれ平滑化若しくは平均化することにより当初のサンプル値から得られるレベル信号に対応している。
【0008】
ここで、音声動作検出方式は、スピーチ信号のアクティブ部分がバックグラウンドノイズからどのくらい取り出されるか、即ち、ノイズスピーチ信号xの短期レベルが概算されたオフセットレベル、いわゆるノイズ下限の相対量を大きく超えているかどうかを考慮するための特性を有していなければならない。従って、VAD決定は、概算されたノイズ下限によって重み付けられる(加重される)相対閾値パラメータTH Rを更に含んでいなければならず、以下のように表すことができる。
VAD=1 X(i)・TH R−N(i)−TH A>0の場合 (2)
【0009】
図3において、概算されたノイズ下限Nは点線により示されており、また、ノイズ加重相対検出閾値は破線により示されている。概算されたノイズ下限Nが最初にノイズスピーチ信号の短期レベルXから除去されることによりクリーンスピーチ信号の短期レベル概算値S’が得られる場合には、これを以下の変更された方程式によって表すことができる。
VAD=1 S’(i)−(1−TH R)・X(i)−TH A>0の場合 (3)
【0010】
レベル分離、即ち、スピーチ信号の少ない定常レベルからの定常ノイズ下限Nの分離、の基本的な原理は、VAD機構として多くの用途に適用することができる。このことは、スピーチ信号及びノイズ信号の付加的な特性、例えばスペクトル構造、ゼロ交差率、信号振幅分布等が何ら考慮されないことを意味している。ほとんどの用途において、スピーチとノイズとの間の区別は、これらの短期レベルの異なる定常態様に基づいてのみ十分に行うことができる。しかし、時間全体に亘ってノイズ下限がおおよそ一定であるという仮定は、現実には取り下げられなければならない。実際には、経時的にゆっくりと変化し又は突然に変化するノイズ下限の可能性にも基づいて決定する必要がある。従って、VAD機構は、ノイズ下限をトラッキングする特徴を有していなければならない。ノイズ下限のトラッキングは、スローライズ/ファストフォール(緩慢上昇/高速降下)技術を使用して達成され得るバックグラウンドノイズ概算の更新手順に基づくことができる。上記スローライズ/ファストフォール技術においては、入力レベルがノイズ下限概算値を下回る場合、ノイズ下限が入力レベルと等しく設定される。一方、立ち上がり入力レベルは、アクティブスピーチ部分に対して割り当てられるとともに、バックグラウンドノイズレベル概算値を上げるために注意して使用されるだけであることが好ましい。目的は、音声動作検出とバックグラウンドノイズ下限更新との間の相互依存性を低減することである。真のノイズ下限の良好な独自のトラッキング態様によっても、VADの良好な性能及び長期アクティブスピーチレベル概算値が得られることが分かってきており、これにより、同様にして、AGC性能全体が向上する。
【0011】
前述した文献 欧州特許第EP0 110 467 B2号公報には、保存的な更新を伴うノイズ下限トラッキング手順について記載されており、このノイズ下限トラッキング手順では、ノイズ下限概算値は、ノイズレベルが完全に安定したままである場合にのみ許容されるインクリメント定数をもって増大される。この手順によれば、ノイズ下限の変化が適度である限り、良好な性能が得られる。しかしながら、ノイズ下限における急増のトラッキングは、良好ではない。新たなノイズ下限に適合するのに、数秒かかることがある。
【0012】
他のノイズ下限トラッキングの解決策は、文献 米国特許出願公開第US2002/0152066A1号公報に記載されており、この解決策では、勾配係数重み付けプロセスによりノイズ下限が立ち上がる(上昇する)場合に、トラッキング速度がかなり増大する。勾配係数は、2.8dB/sの一定の立ち上がり時間が対数領域で得られるように選択される。しかしながら、ノイズ下限更新における増大量は現在の実際のノイズ下限概算値自体に依存しているため、ダイナミックレンジ全体に亘って比較できるようなタイミング挙動は決して存在しない。これにより、一定の勾配係数をもって機能することが難しくなる。ノイズ下限の最初の概算値が真のノイズ下限からかけ離れている場合には、かなり高い値を有する勾配係数が使用され、また、この勾配係数は、その後、わずかな実際の偏りだけをトラッキングするためにかなり減少させられる。
【発明の開示】
【発明が解決しようとする課題】
【0013】
要するに、両方の既知のトラッキング策は、実際には、幅広いダイナミックレンジに亘って性能を維持することができないという問題をかかえている。互いに排他的な可能性同士の間で良好なトレードオフを見出すこと、即ち、スピーチ動作中にスピーチレベルに過度に追従しないが、大きなノイズレベルを十分に速くトラッキングすることは、依然として重要な問題である。
【0014】
従って、本発明の目的は、幅広いダイナミックレンジに亘ってノイズ下限概算のトラッキング能力を向上させることができる音声動作検出方式を提供することである。
【課題を解決するための手段】
【0015】
この目的は、請求項1に記載された音声動作検出装置及び請求項7に記載された音声動作検出方法によって達成される。
【0016】
従って、音声動作検出においてノイズ下限をトラッキングするための簡単で強力な解決策が提供される。従来の解決策とは異なり、幅広いダイナミックレンジ及び音声動作検出と高速で且つ信頼性の高いノイズ下限トラッキングとの間の良好な相互依存性を得ることができる。ノイズ下限概算は、トラッキング速度を決定する経時変化するフィルタ係数を有するフィルタを用いて上向き(アップワード)に行われる。入力通信信号のレベルが概算されたオフセット成分即ちノイズ下限を上回っている場合には、ノイズレベルの立ち上がり(上昇)が想定され、トラッキング速度が益々増大するようにフィルタ係数を選択することができる。一方、入力通信信号のレベルが概算されたオフセット成分を下回っている場合には、トラッキング速度を直ちに減少させて、概算されたノイズ下限がスピーチレベルに追従するという問題を回避することができる。従って、この解決策は、ノイズ下限の突然の上昇中にノイズ下限トラッキングを向上させるとともに、大きなダイナミックレンジに亘って良好に機能する。
【0017】
第1の態様において、フィルタ手段は、ゼロ周波数にノッチを有するノッチ型フィルタを備えていてもよく、また、制限手段は、ノッチ型フィルタの再帰的経路へのマイナス信号の送信を抑制するための制限特性を有する非線形素子を備えていてもよい。このように、ノッチ型フィルタの再帰的経路中に非線形素子を加えれば、ノッチ型フィルタにおけるオフセット成分の減算によってマイナスの出力レベル値が得られないようになる。
【0018】
第2の態様において、フィルタ手段は、オフセット成分を抽出するためのローパスフィルタを備えていてもよく、また、制限手段は、抽出されたオフセット成分と通信信号とを比較するための比較手段と、比較手段の出力に応じて抽出されたオフセット成分又は通信信号のうちのいずれかを選択するための切換手段とを備えていてもよい。従って、ローパスフィルタは、ノイズ下限を直接に概算し、一方、切換手段は、入力レベルがノイズ下限を下回る場合、入力レベルをノイズ下限に対して直接にコピーする。これにより、迅速な下向きの更新(ダウンワード更新)を得ることができる。
【0019】
パラメータ制御手段は、通信信号のレベルが概算されたオフセット成分のレベルを下回る場合には、フィルタパラメータを、低いトラッキング速度の概算をもたらす第1の値に設定するようになっていてもよく、また、通信信号のレベルが上記概算されたオフセット成分のレベルよりも高い場合には、上記フィルタパラメータを、高いトラッキング速度の上記概算をもたらす第2の値に設定するようになっていてもよい。具体的には、パラメータ制御手段は、最大値及び最小値の制限内においてフィルタパラメータの指数関数的適応をもって機能してもよく、また、比較手段に基づいて最小値にリセットされてもよい。これにより、フィルタパラメータの適応は、好ましいスローライズ/ファストフォール技術に対応する。従って、スピーチ動作中にノイズ下限の安定した概算値を得ることができる。
【発明を実施するための最良の形態】
【0020】
ここで、図面を参照しながら、好適な実施の形態に基づいて本発明を説明する。
【0021】
以下、図4に示される音声動作検出方式に基づいて好適な実施の形態を説明する。図4においては、ノイズスピーチ信号が、入力端子Eを介して、図2の構成と同様のアナログ/デジタル(A/D)変換器2に対して供給される。その後、サンプル値は、当該サンプル値の平滑化された短期レベル値Xを計算するためのレベル計算手段42に対して供給される。平滑化された平滑レベル値Xは、ノイズ下限概算ユニット44に対して供給される。ノイズ下限概算ユニット44は、制限機能141を備えるとともに、受信したスピーチ信号のデジタル表示中に存在するバックグラウンドノイズ下限即ち平滑レベル値を概算するようになっている。並行して、平滑レベル値は、ノイズ下限概算ユニット44の概算値出力と共に、ノイズ下限概算ユニット44内に設けられたフィルタ関数のフィルタパラメータを制御するパラメータ制御ユニット46、及び、例えばVADフラグ等のVAD制御信号を生成する音声動作制御ユニット48へも供給される。
【0022】
好適な実施の形態において、提案された音声動作検出器は、所定の相対閾値と絶対閾値との組み合わせを用いて機能するとともに、短期入力レベル値、例えば入力サンプルのローパスフィルタ処理された絶対値がノイズ下限概算値を大きく上回る場合にスピーチ動作を示す。相対閾値に基づいて入力レベル値が重み付けられ、その後、この入力レベル値はノイズ下限減算を受ける。最終的に、絶対閾値は、例えば上記方程式(2)により規定されるようなVAD制御信号を生成するために、ノイズ下限減算の結果として得られたクリーンスピーチ信号レベル値に関係している。
【0023】
以下の好適な実施の形態では、ノイズ下限概算ユニット44及びパラメータ制御ユニット46の機能が一つの概算値処理ユニット40内に統合される。
【0024】
ノイズ下限の更新は、一般に、当初のサンプリングレートの二段抽出されたベースに基づいて低いレートをもって行われる。図4のノイズ下限概算ユニット44において行われるノイズ下限概算は、実際のトラッキング速度を決定する少なくとも一つの経時変化するフィルタ係数を有するフィルタを用いて行われる。このフィルタは、ノイズ下限を概算又は計算するように構成することができ、又は、別の手段として、ノイズ下限を入力信号レベル値から直接にキャンセルするように構成することができる。入力レベル値がノイズ下限概算値を下回る場合には、ノイズ下限概算の制限が制限機能141によって行われるとともに、適応フィルタ係数を最小スロートラッキング速度値にリセットすることができ、この最小スロートラッキング速度値から例えば指数関数により適応フィルタ係数が最大高速トラッキング速度まで大きくなる。
【0025】
第1の好適な実施の形態においては、ノイズ下限キャンセリングのために非線形適応ノッチフィルタが使用される。従って、ノイズ下限概算ユニット44においてクリーンスピーチ信号レベル値S’の概算値が得られる。このクリーンスピーチ信号レベル値S’及び入力レベル値Xは音声動作制御ユニット48に対して直接に供給され、この音声動作制御ユニット48においてVAD閾値比較を行うことができる。別の手段として、ノイズ下限概算ユニット44は、概算されたクリーンスピーチ信号レベル値S’をノイズスピーチレベル値Xから再び減算することによりノイズ下限を決定してもよい。
【0026】
ゼロ周波数にノッチを有するノッチフィルタは、信号のDC成分を除去する。そのような一般的な一次再帰型(巡回)フィルタの差分方程式及びZ−変換は、以下の方程式により与えられる。
y(k)=x(k)−x(k−1)+γ・y(k−1) (4)
(z)=(z−1)/(z−γ)
【0027】
フィルタ係数γを用いてノッチ共振の鋭さを制御することができる。フィルタパラメータγが「1」に向かって動くと、ノッチが更に目立つようになる。一方、フィルタ応答時間は増大する。
【0028】
図5は、フィルタパラメータγの二つの異なる設定における一般的なDCノッチフィルタの周波数応答を示している。図5から分かるように、フィルタ係数γの値が高い(実線に対応している)と、破線で示されたフィルタ係数γの低い値と比べて、より特徴的なフィルタリング動作が行われる。
【0029】
しかしながら、DCノッチフィルタをノイズスピーチレベル値Xに対して直接に適用すると、ノイズ下限を除去するのに役立たない。なぜなら、これは復号レベルのDC部分ではないからである。一定のオフセットレベルの減算によっては決してマイナスの出力レベル値が得られないようになっている場合には、ノイズ下限だけを除去することができる。これは、制限曲線を有する非線形フィルタ素子をDCノッチフィルタの再帰的経路に加えることにより達成できる。これにより、クリーンスピーチ信号レベル値S’は常に0以上の値をとる。
【0030】
図6は、第1の好適な実施の形態に係る非線形適応ノッチレベルフィルタを有する概算値処理ユニット40の一実施例の概略的な機能流れ図を示している。図6から分かるように、制限曲線を有する非線形素子16は、再帰的経路中に導入されており、これにより、図4の制限機能141を与えている。制限曲線は、0よりも小さい値を有する信号を遮断又は抑制する機能を果たす。一方、プラス信号は通過する。これにより、クリーンスピーチ信号レベルS’は常にプラスの値をとるようになる。通常のDCノッチフィルタ構造においては、入力信号レベル値Xが演算機能13に対して直接に供給され、この演算機能13により、入力信号レベル値Xは、1サンプル周期分だけ第1の遅延素子11により遅延させられる遅延入力信号レベル値X(i−1)に対して加えられる。また、実際のクリーンスピーチ信号レベル値S’(i)を生成するために、最後のサンプル周期のクリーンスピーチ信号レベル値S’(i−1)から生成されたフィードバック信号が加えられる。このフィードバック信号は、1サンプル周期分だけ第2の遅延素子12で最後のクリーンスピーチレベル信号値S’(i−1)を遅延させ且つ乗算器14内で遅延信号にフィルタパラメータγ(i)を乗じることにより又はフィルタパラメータγ(i)によって遅延信号を重み付けることにより得られる。ダイナミックレンジ全体に亘って良好な性能を得ようとする要求に対応するため、フィルタパラメータγ(i)が後述するように適応される。これにより、非線形適応ノッチレベルフィルタが得られる。適応フィルタパラメータγ(i)は、出力クリーンスピーチ信号レベル値S’(i)が供給されるパラメータ制御ユニット46で生成される。クリーンスピーチ信号レベル値S’(i)が既に入力信号レベル値X(i)とノイズ下限N(i)との間の差に対応しているという事実を考慮すると、ここでは、クリーンスピーチ信号レベル値をパラメータ制御ユニット46に供給するだけで十分である。
【0031】
DC成分のキャンセル又はDCノッチフィルタによるオフセットは、最初にオフセット成分の概算値がローパスフィルタ動作によって形成され、その後、オフセット信号が当初の入力信号から減算されることによりオフセットが無い即ちクリーン出力信号が得られる一つの手順とみなすこともできる。
【0032】
図7は、線形DCノッチフィルタリング動作に相当する処理又は手順の概略的な機能流れ図を示している。ここでは、最初に、オフセット信号d(k)の概算値が入力信号x(k)のローパスフィルタリングによって得られる。その後、このオフセット信号d(k)が減算される。入力信号x(k)のローパスフィルタリングは、1サンプル周期に対応する遅延を有する二つの遅延素子20,22と、受信信号をそれぞれのフィルタ係数α,(1−α)によって重み付け又は掛け合わせる二つの乗算又は重み付け素子24,26とからなるIIRフィルタによって行われる。オフセット信号d(k)は、減算ユニット29において当初の入力信号x(k)から減算され、これにより、オフセットが無い出力信号y(k)が得られる。図6に示されるこのオフセット減算構造は、等価方程式(4)の簡単な変換によって得ることもできる。以下の方程式(5)は、図7のオフセット減算フィルタ構造に対応している。
d(k)=(1−α)・d(k−1)+α・x(k−1) 但し、α=1−γ (5)
y(k)=x(k)−d(k)
【0033】
図8は、第2の好適な実施の形態に係る適応ノイズ下限トラッキングフィルタを有する概算処理ユニット40の他の実施例を示している。このフィルタは、図7に示されるオフセット減算フィルタ構造に基づいている。
【0034】
図8において、ノイズ下限概算値Nは、前述したスローライズ/ファストフォール(緩慢上昇/高速降下)技術の原理を通じて得られる。入力信号レベル値X(i)をローパスフィルタリングすることにより得られるノイズ下限概算値N(i)は、比較機能39において当初の入力信号レベル値X(i)と比較され、この比較結果は、ノイズ下限概算値N(i)又は当初の入力信号レベル値X(i)を最終的なノイズ下限概算値N(i)としての出力に切り換える切換機能35を制御するために使用される。従って、比較機能39及び切換機能35は、図4の制限機能141としての役割を果たす。この構造は、以下の方程式によって記述することができる。
N(i)=(1−α(i))・N(i−1)+α(i)・X(i) (6)
N(i)=X(i) X(i)<N(i)の場合
【0035】
第1の好適な実施の形態と同様に、フィルタパラメータα(i),(1−α(i))は、比較機能39の比較出力が供給されるパラメータ制御ユニット46によって生成される。
【0036】
従って、ノイズ下限概算値N(i)を入力信号レベル値X(i)から減算してノイズレベルがないスピーチレベル概算値S’(i)を得ることができるとともに、第1の好適な実施の形態のノッチフィルタパラメータγからオフセット減算フィルタパラメータαを得ることができるという点に留意することにより、図6の非線形素子16の制限機能曲線と第2の好適な実施の形態に係るノイズ下限トラッキングフィルタにおけるスローライズ/ファストフォール技術との間の関係を確立することができる。そのため、両方の実施の形態は、同じ基本原理を使用している。第1の好適な実施の形態の非線形適応ノッチレベルフィルタ構造及び第2の好適な実施の形態の適応ノイズ下限トラッキングフィルタ構造の用途は、その程度まで等価である。
【0037】
図9は、入力レベル信号(実線)及びノイズ下限概算値(破線)を示す時間依存信号図を示している。また、点線の矩形信号は、図4に示される音声制御ユニット48の出力におけるVADフラグの値を示している。図9に示される信号は、本発明の第1及び第2の好適な実施の形態の両方において有効である。図9から分かるように、ノイズ下限概算による真のノイズ下限の良好なトラッキングを得ることができる。また、ファストフォール技術は、約200msの時間の最初のスピーチ期間の後に見ることができる。この場合、ノイズ下限概算値は、減少する入力レベル信号にそのまま追従している。ノイズ下限概算のトラッキング性能が向上すると、アクティブなスピーチ期間に対するVADフラグ値の整合性が向上する。
【0038】
以下、第1及び第2の好適な実施の形態のパラメータ制御ユニット46によって行われるパラメータ制御について詳細に説明する。
【0039】
第1の好適な実施の形態に係る非線形適応ノッチレベルフィルタのフィルタパラメータγ又は第2の好適な実施の形態に係るノイズ下限トラッキングフィルタのフィルタパラメータαはいずれも、一般に、立ち上がる(上昇する)入力信号レベル値Xに追従するノイズ下限概算値の速度に影響を及ぼす。従って、これらのパラメータの適応制御は、スローライズ/ファストフォール技術に整合され又は適合されなければならない。実際の入力信号レベル値Xが概算されたノイズ下限Nを下回る場合、即ち、既にノイズ下限に達したことが示されている場合には、トラッキング速度が非常に低い値までリセットされなければならない。そのため、それぞれのスロートラッキング値αmin=αslow及びγmax=γslowは、ノイズ下限概算がスピーチレベルに追従することを回避するように選択される。一方、非定常スピーチ部分の長さよりも長い時間間隔に亘って反対の状態が保持される場合、即ち、入力信号レベル値Xがノイズ下限概算レベルNよりも高い場合には、ノイズ下限の上昇が想定され、フィルタパラメータの感度が益々高くなる。即ち、それぞれのファストトラッキング値αmax=αfast及びγmin=γfastに達するまでフィルタパラメータを連続的に増大させることにより、トラッキング速度が増大する。
【0040】
フィルタパラメータの連続的な変化は、上記二つの制限値内での指数関数的適応に基づくことができる。これを達成するため、開始値a及び係数cを含む暫定状態変数a(i)を導入することができる。ここで、第1の好適な実施の形態に係る適応非線形ノッチレベルフィルタ構造は、以下の方程式(7)に従ってパラメータ制御ユニット18においてフィルタパラメータ更新を行ってもよい。
a(i)=(1+c)・a(i−1)
S’(i)=X(i)−N(i)>0の場合 (7)
a(i)=a それ以外の場合は、再開始
γ(i)=max[γmin,(γmax−a(i))]
【0041】
また、第2の好適な実施の形態に係るノイズ下限トラッキングレベルフィルタ構造のパラメータ制御ユニット38は、以下の方程式(8)に従ってフィルタパラメータ更新を行ってもよい。
a(i)=(1+c)・a(i−1) X(i)>N(i)の場合 (8)
a(i)=a それ以外の場合は、再開始
α(i)=min[αmax,(αmin+a(i))]
【0042】
フィルタ係数のこの制御又は設定により、スピーチ動作中における定常ノイズ下限の概算が安定する。一方、立ち上がる(上昇する)ノイズ下限に追従するトラッキング速度は、スローライズ/ファストフォール技術において最適化される。これにより、幅広いダナミックレンジ内で性能全体を良好にすることができる。
【0043】
図10は、ノイズ下限概算方式のトラッキング態様を比較するため、最初に説明した既知のトラッキング手順における信号図、及び、第1及び第2の好適な実施の形態に係る改良された適応トラッキング手順における信号図を示している。
【0044】
図10の上側の図には、文献 欧州特許第EP 0 110 467 B2号公報に記載された、インクリメントが一定のダイナミックレンジノイズ下限概算が示されている。この図から分かるように、ノイズ下限トラッキングが非常に遅いため、ノイズ下限が急激に上昇する状況では、VADフラグの値(破線)は、実際のスピーチ期間に追従し又は実際のスピーチ期間を反映することができない。
【0045】
上方の2番目の図は、文献 米国特許出願公開第US 2002/0152066 A1号公報に記載された、勾配係数が一定のダイナミックレンジノイズ下限概算を示している。この場合も同様に、音声動作検出態様は、t=8.000ms乃至t=14.000msの時間において明らかなように、大きく跳ね上がっているノイズ下限の場合には不十分である。
【0046】
下方の二つの図は、それぞれ、第1及び第2の好適な実施の形態に係る適応ノッチフィルタ構造及びノイズ下限トラッキング構造に関するものである。ノイズ下限概算値を増大させるために必要な比較的短い期間の後、VADフラグは、ノイズ下限変動が大きい場合であっても、実際の音声動作に良く一致(整合)している。
【0047】
尚、本発明は、前述した好適な実施の形態に限定されず、任意の音声動作検出機構に対して適用することができる。具体的には、フィルタ次数が高い他のフィルタ構成を使用して、クリーンスピーチ信号レベル値S’又はノイズ下限概算値Nをそれぞれ得ることができる。図4,図6,図8に示された機能流れ図の素子は、信号処理装置を制御する個別ハードウェア素子又はソフトウェアルーチンを有する具体的なハードウェア機能として実施されてもよい。従って、好適な実施の形態は、添付の請求項の範囲内において変更され得る。
【図面の簡単な説明】
【0048】
【図1】クリーンスピーチにおける音声動作検出の原理を示す信号図を示している。
【図2】音声動作検出構成の従来の概略ブロック図を示している。
【図3】ノイズスピーチ信号における音声動作検出の原理を示す信号図を示している。
【図4】本発明を実施可能な音声動作検出構成の概略ブロック図を示している。
【図5】ノッチフィルタの周波数応答を表す図を示している。
【図6】本発明の第1の好適な実施の形態に係る非線形適応ノッチレベルフィルタの概略機能ブロック流れ図を示している。
【図7】本発明の第2の好適な実施の形態において使用可能なオフセット減算フィルタの概略機能流れ図を示している。
【図8】第2の好適な実施の形態に係る適応ノイズ下限トラッキングフィルタの概略機能流れ図を示している。
【図9】第1及び第2の好適な実施の形態に係る高速トラッキングを伴う適応ノイズ下限概算を表す信号図を示している。
【図10】異なるノイズ下限概算方式のトラッキング態様を比較するための信号図を示している。

【特許請求の範囲】
【請求項1】
通信信号中の音声動作を検出するための装置であって、
a)前記通信信号のレベルのオフセット成分の概算又は抑制を行うためのフィルタ手段と、
b)前記フィルタ手段の出力に基づいて前記フィルタ手段のフィルタパラメータを制御するためのパラメータ制御手段と、
c)前記フィルタ手段の前記出力に応じて前記オフセット成分の前記抑制又は前記概算を制限するための制限手段と、
を備えることを特徴とする装置。
【請求項2】
前記通信信号の短期レベルを計算するためのレベル計算手段と、前記フィルタ手段の入力レベルと出力レベルとを比較するための音声動作制御手段とを更に備えていることを特徴とする請求項1に記載の装置。
【請求項3】
前記オフセット成分は、前記通信信号のレベルのノイズ下限成分であることを特徴とする請求項1又は2に記載の装置。
【請求項4】
前記フィルタ手段は、ゼロ周波数にノッチを有するノッチ型フィルタを備え、前記制限手段は、前記ノッチ型フィルタの再帰的経路を介したマイナス信号の送信を抑制するための制限特性を有する非線形素子を備えていることを特徴とする請求項1乃至3のいずれか一項に記載の装置。
【請求項5】
前記フィルタ手段は、前記オフセット成分を抽出するためのローパスフィルタを備え、前記制限手段は、前記抽出されたオフセット成分と前記通信信号とを比較するための比較手段と、前記比較手段の出力に応じて前記抽出されたオフセット成分及び前記通信信号のうちの一方を選択するための切換手段とを備えていることを特徴とする請求項1乃至3のいずれか一項に記載の装置。
【請求項6】
前記パラメータ制御手段(46)は、前記通信信号のレベルが前記概算されたオフセット成分のレベルを下回る場合には、前記フィルタパラメータを、低いトラッキング速度の前記概算をもたらす第1の値に設定するようになっており、また、前記通信信号のレベルが前記概算されたオフセット成分のレベルよりも高い場合には、前記フィルタパラメータを、高いトラッキング速度の前記概算をもたらす第2の値に設定するようになっていることを特徴とする請求項1乃至5のいずれか一項に記載の装置。
【請求項7】
前記パラメータ制御手段は、所定のパラメータ値の制限内において前記フィルタパラメータの指数関数的適応を適用するようになっていることを特徴とする請求項6に記載の装置。
【請求項8】
通信信号中の音声動作を検出する方法であって、
a)前記通信信号のレベルのオフセット成分をフィルタリングするフィルタリングステップと、
b)前記フィルタリングステップの結果に基づいて前記フィルタリングステップにおいて使用されるフィルタパラメータを制御するステップと、
c)前記フィルタリングステップの結果に応じて前記フィルタリングステップを制限する制限ステップと、
を含むことを特徴とする方法。
【請求項9】
前記フィルタリングステップは、ゼロ周波数にノッチを有するフィルタ特性を適用することにより前記オフセット成分を抑制するようになっており、前記制限ステップは、マイナス信号の送信を抑制するための制限特性を適用することにより行われることを特徴とする請求項8に記載の方法。
【請求項10】
前記フィルタリングステップは、前記オフセット成分を抽出するようになっており、前記制限ステップは、前記抽出されたオフセット成分と前記通信信号のレベルとを比較するステップと、前記比較結果に応じて前記抽出されたオフセット成分及び前記通信信号の前記レベルのうちの一方を選択するステップとを含んでいることを特徴とする請求項8に記載の方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate


【公表番号】特表2007−509364(P2007−509364A)
【公表日】平成19年4月12日(2007.4.12)
【国際特許分類】
【出願番号】特願2006−534880(P2006−534880)
【出願日】平成16年10月8日(2004.10.8)
【国際出願番号】PCT/IB2004/052025
【国際公開番号】WO2005/038773
【国際公開日】平成17年4月28日(2005.4.28)
【出願人】(590000248)コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ (12,071)
【Fターム(参考)】