説明

音声信号処理装置、方法及びプログラム

【課題】 背景雑音検出にコヒーレンスを適用して利用者に負担をかけずに、ウィーナーフィルタ係数の適応更新の精度を高める。
【解決手段】 ウィーナーフィルタ技術を適用した音声信号処理装置に関する。入力音声信号に遅延減算処理を施して、第1、第2の所定方位に死角を有する第1、第2の指向性信号を形成し、これら2つの指向性信号を用いてコヒーレンスを得る。そして、コヒーレンスに基づいて、入力音声信号が目的方位からの目的音声区間か、それ以外の非目的音声区間かを判別する。また、コヒーレンス瞬時値と、その長期平均値であるコヒーレンス長期平均値との差分を得て、差分を閾値と比較し、非目的音声区間を、閾値より小さいときの背景雑音区間とそれ以外の非背景雑音区間に分け、ウィーナーフィルタ係数の適応処理を切り換える。そして、適応処理後のウィーナーフィルタ係数を入力音声信号に乗算する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は音声信号処理装置、方法及びプログラムに関し、例えば、電話やテレビ会議などの音声信号を扱う通信機又は通信ソフトウェアに適用し得るものである。
【背景技術】
【0002】
雑音抑制技術の一つにボイススイッチと呼ばれる技術がある。これは、目的音声区間検出機能を用いて入力信号から話者が話している区間(目的音声区間)を検出し、目的音声区間の場合は無処理で出力し、非目的音声区間の場合は振幅を減衰する、という技術である。例えば、図11に示すように、入力信号inputを受信すると、目的音声区間か否かを判定し(ステップS100)、目的音声区間であればゲインVS_GAINに1.0を設定し(ステップS101)、非目的音声区間であればゲインVS_GAINに1.0未満の任意の正の数値αを設定し(ステップS102)、その後。ゲインVS_GAINを入力信号inputに乗算して出力信号outputを得る(ステップS103)。
【0003】
また、他の雑音抑制技術にはウィーナーフィルタという技術がある(特許文献1参照)。これは、図12に示すように、入力信号inputから雑音区間を検出し(ステップS150)、周波数ごとに背景雑音の特性を推定し、背景雑音の特性に応じたウィーナーフィルタ係数を算出し(ステップS151)、入力信号inputにウィーナーフィルタ係数WF_COEF(f)を乗算することで(ステップS153)、入力信号inputに含まれていた背景雑音成分を抑制する技術である。なお、雑音特性の推定方法については特許文献1の『数1』の式を、フィルタ係数の算出方法については特許文献1の『数3』の式を適用することができる。
【0004】
ボイススイッチやウィーナーフィルタの技術を、テレビ会議装置や携帯電話機のような音声信号処理装置に適用することで雑音を抑制し、通話音質を高めることができる。
【0005】
ところで、ボイススイッチ及びウィーナーフィルタを適用するためには、非目的音声区間(話者以外の人間の声である『妨害音声』及び、オフィスノイズや道路ノイズのような『背景雑音』の区間)を検出しなければならず、その検出方法の一つとして、コヒーレンスという特徴量に基づいた方法がある。コヒーレンスは、簡単に述べれば入力信号の到来方向を意味する特徴量である。携帯電話機などの利用を想定して目的音声と非目的音声の到来方向を比較すると、話者の声(目的音声)は正面から到来するのに対し、非目的音声のうち、妨害音声は正面以外から到来する傾向が強く、背景雑音は明確な到来方向をもたない、という差異がある。従って、到来方向に着目することで目的音声と非目的音声の区別が可能である。
【0006】
図13は、目的音声検出機能にコヒーレンスを用いる場合のボイススイッチ及びウィーナーフィルタを併用した従来の音声信号処理装置のブロック図である。
【0007】
一対のマイクm_1、m_2のそれぞれから、図示しないAD変換器を介して入力信号s1(t)、s2(t)を取得し、FFT(高速フーリエ変換)部10で周波数領域信号X1(f)、X2(f)に変換する。第1の指向性形成部11では、(1)式のような演算を行い、右方向に強い指向性を持つ信号B1(f)を求め、第2の指向性形成部12では(2)式のような演算を行い、左方向に強い指向性を持つ信号B2(f)を求める。信号B1(f)及びB2(f)は複素数で表されている。
【数1】

【0008】
これらの式の意味を、(1)式を例に、図14及び図15を用いて説明する。図14(A)に示した方向θから音波が到来し、距離lだけ隔てて設置されている一対のマイクm_1及びm_2で捕捉されたとする。このとき、音波が一対のマイクm_1及びm_2に到達するまでには時間差が生じる。この到達時間差τは、音の経路差をdとすると、d=l×sinθなので、音速をcとすると(3)式で与えられる。
【0009】
τ=l×sinθ/c …(3)
ところで、入力信号s1(n)にτだけ遅延を与えた信号s1(t−τ)は、入力信号s2(t)と同一の信号である。従って、両者の差をとった信号y(t)=s2(t)−s1(t−τ)は、θ方向から到来した音が除去された信号となる。結果として、マイクロフォンアレーm_1及びm_2は図14(B)のような指向特性を持つようになる。
【0010】
なお、以上では、時間領域での演算を記したが、周波数領域で行っても同様なことがいえる。この場合の式が、上述した(1)式1及び(2)式である。今、一例として、到来方向θが±90度であることを想定している。すなわち、第1の指向性形成部11からの指向性信号B1(f)は、図15(A)に示すように右方向に強い指向性を有し、第2の指向性形成部12からの指向性信号B2(f)は、図15(B)に示すように左方向に強い指向性を有する。
【0011】
以上のようにして得られた指向性信号B1(f)、B2(f)に対し、コヒーレンス計算部13で、(4)式、(5)式のような演算を施すことでコヒーレンスCOHが得られる。(4)式におけるB2(f)はB2(f)の共役複素数である。
【数2】

【0012】
目的音声区間検出部14では、コヒーレンスCOHを目的音声区間判定閾値Θと比較し、閾値Θより大きければ目的音声区間と判定し、そうでなければ非目的音声区間と判定する。
【0013】
ここで、コヒーレンスの大小で目的音声区間を検出する背景を簡単に述べておく。コヒーレンスの概念は、右から到来する信号と左から到来する信号の相関と言い換えられる(上述した(4)式はある周波数成分についての相関を算出する式であり、(5)式は全ての周波数成分の相関値の平均を計算している)。従って、コヒーレンスCOHが小さい場合とは、2つの指向性信号B1及びB2の相関が小さい場合であり、反対にコヒーレンスCOHが大きい場合とは相関が大きい場合と言い換えることができる。そして、相関が小さい場合の入力信号は、入力到来方向が右又は左のどちらかに大きく偏った場合か、偏りがなくても雑音のような明確な規則性の少ない信号の場合である。そのため、コヒーレンスCOHが小さい区間は妨害音声区間あるいは背景雑音区間(非目的音声区間)であるといえる。一方、コヒーレンスCOHの値が大きい場合は、到来方向の偏りがないため、入力信号が正面から到来する場合であるといえる。今、目的音声は正面から到来すると仮定しているので、コヒーレンスCOHが大きい場合は目的音声区間といえる。
【0014】
ゲイン制御部15では、目的音声区間ならばゲインVS_GAINとして1.0を、非目的音声区間(妨害音声、背景雑音)ならばゲインVS_GAINとして1.0未満の任意の正の数値αを設定する。
【0015】
また、WF適応部16では、目的音声区間検出部14の判定結果を参照し、非目的音声区間ならばウィーナーフィルタ係数を適応させ、そうでなければウィーナーフィルタ係数の適応を停止するという制御を行うことで、ウィーナーフィルタ係数であるWF_COEF[f]を得る。ウィーナーフィルタ係数WF_COEF[f]はWF係数乗算部17に送られ、(6)式に示すように、入力信号s1(t)のFFT変換信号X1(f)と乗算される。これにより、入力信号から背景雑音特性が抑制された信号P(f)が得られる。
【0016】
P(f)=WF_COEF(f)× X1(f) …(6)
背景雑音抑制信号P(f)はIFFT(逆高速フーリエ変換)部18で時間領域信号q(t)に変換された後、VSゲイン乗算部19で、(7)式に示すように、ゲイン制御部15で設定されたゲインVS_GAINと乗算され、出力信号y(t)が得られる。
【0017】
y(t)=VS_GAIN×q(t) …(7)
以上のように、ボイススイッチ及びウィーナーフィルタを併用することで、ボイススイッチによる非目的音声区間の抑制効果と、ウィーナーフィルタによる目的音声区間に重畳された雑音成分の抑制効果を両立でき、おのおのを単独で用いるよりも高い雑音抑制効果が得られる。
【0018】
ここで目的音声区間と非目的音声区間の識別のための特徴量としてコヒーレンスを用いる背景を補足する。通常の目的音声区間検出では、検出の特徴量として入力信号レベルの変動を用いるが、この方式は妨害音声と目的音声との区別ができないため、妨害音声をボイススイッチで抑制できず、抑制効果が不十分だった。一方、コヒーレンスによる検出は入力信号の到来方向によって識別するので、到来方向が異なる目的音声と妨害音声を区別することができ、ボイススイッチによる抑制効果が得られる。
【先行技術文献】
【特許文献】
【0019】
【特許文献1】特表2010−532897号公報
【発明の概要】
【発明が解決しようとする課題】
【0020】
しかしながら、ボイススイッチとウィーナーフィルタとは、同じ「雑音抑制技術」でありながら、最適動作のために検出するべき雑音区間が異なっている。ボイススイッチは、妨害音声と背景雑音の片方あるいは双方が重畳された区間を検出できれば良いに対し、ウィーナーフィルタは、非目的音声区間の中から、背景雑音だけの区間を検出しなければならない。なぜならば、仮に妨害音声区間で係数が適応した場合、妨害音声という『音声』の特徴も、雑音としてウィーナーフィルタ係数に反映されてしまい、音声に特徴的な成分までもが目的音声から抑制されてしまい、音質が劣化してしまうためである。
【0021】
以上のように、ボイススイッチ及びウィーナーフィルタの併用では、おのおの最適な区間を検出しなければならないのにも関わらず、従来技術では、一律の基準で適用しているために、妨害音声の特性が反映されたウィーナーフィルタ係数を付与することで目的音声が劣化する、という課題がある。
【0022】
この課題を解消するためには、ボイススイッチとウィーナーフィルタのそれぞれに適した区間を検出できるように複数の目的音声区間検出技術を併用することも可能だが、この場合、演算量が増大するうえに、異なる挙動をする複数のパラメータの調整が必要となり、装置利用者の負担が増す、という課題がある。
【0023】
そのため、背景雑音検出にコヒーレンスを適用して利用者に負担をかけずに、ウィーナーフィルタ係数の適応更新の精度を高めて音質を向上できる音声信号処理装置、方法及びプログラムが望まれている。
【課題を解決するための手段】
【0024】
第1の本発明は、入力音声信号から雑音成分を抑制する音声信号処理装置において、(1)入力音声信号に遅延減算処理を施すことで、第1の所定方位に死角を有する指向性特性を付与した第1の指向性信号を形成する第1の指向性形成部と、(2)入力音声信号に遅延減算処理を施すことで、前記第1の所定方位とは異なる第2の所定方位に死角を有する指向性特性を付与した第2の指向性信号を形成する第2の指向性形成部と、(3)前記第1及び第2の指向性信号を用いてコヒーレンスを得るコヒーレンス計算部と、(4)前記コヒーレンスに基づいて、入力音声信号が、目的方位から到来している目的音声の区間か、それ以外の非目的音声区間かを判別する目的音声区間検出部と、(5)前記コヒーレンスの、平均的な値からの相違情報を得るコヒーレンス挙動情報計算部と、(6)前記相違情報を背景雑音検出用閾値と比較し、非目的音声区間を、背景雑音検出用閾値より小さいときの背景雑音区間とそれ以外の非背景雑音区間に分け、背景雑音区間か非背景雑音区間かに応じてウィーナーフィルタ係数の適応処理を切り換えるWF適応部と、(7)前記WF適応部からのウィーナーフィルタ係数を前記入力音声信号に乗算するWF係数乗算部とを有することを特徴とする。
【0025】
第2の本発明は、入力音声信号から雑音成分を抑制する音声信号処理方法において、(1)第1の指向性形成部は、入力音声信号に遅延減算処理を施すことで、第1の所定方位に死角を有する指向性特性を付与した第1の指向性信号を形成し、(2)第2の指向性形成部は、入力音声信号に遅延減算処理を施すことで、前記第1の所定方位とは異なる第2の所定方位に死角を有する指向性特性を付与した第2の指向性信号を形成し、(3)コヒーレンス計算部は、前記第1及び第2の指向性信号を用いてコヒーレンスを計算し、(4)目的音声区間検出部は、前記コヒーレンスに基づいて、入力音声信号が、目的方位から到来している目的音声の区間か、それ以外の非目的音声区間かを判別し、(5)コヒーレンス挙動情報計算部は、前記コヒーレンスの、平均的な値からの相違情報を得、(6)WF適応部は、前記相違情報を背景雑音検出用閾値と比較し、非目的音声区間を、背景雑音検出用閾値より小さいときの背景雑音区間とそれ以外の非背景雑音区間に分け、背景雑音区間か非背景雑音区間かに応じてウィーナーフィルタ係数の適応処理を切り換え、(7)WF係数乗算部は、前記WF適応部からのウィーナーフィルタ係数を前記入力音声信号に乗算することを特徴とする。
【0026】
第3の本発明の音声信号処理プログラムは、コンピュータを、(1)入力音声信号に遅延減算処理を施すことで、第1の所定方位に死角を有する指向性特性を付与した第1の指向性信号を形成する第1の指向性形成部と、(2)入力音声信号に遅延減算処理を施すことで、前記第1の所定方位とは異なる第2の所定方位に死角を有する指向性特性を付与した第2の指向性信号を形成する第2の指向性形成部と、(3)前記第1及び第2の指向性信号を用いてコヒーレンスを得るコヒーレンス計算部と、(4)前記コヒーレンスに基づいて、入力音声信号が、目的方位から到来している目的音声の区間か、それ以外の非目的音声区間かを判別する目的音声区間検出部と、(5)前記コヒーレンスの、平均的な値からの相違情報を得るコヒーレンス挙動情報計算部と、(6)前記相違情報を背景雑音検出用閾値と比較し、非目的音声区間を、背景雑音検出用閾値より小さいときの背景雑音区間とそれ以外の非背景雑音区間に分け、背景雑音区間か非背景雑音区間かに応じてウィーナーフィルタ係数の適応処理を切り換えるWF適応部と、(7)前記WF適応部からのウィーナーフィルタ係数を前記入力音声信号に乗算するWF係数乗算部として機能させることを特徴とする。
【発明の効果】
【0027】
本発明によれば、背景雑音検出にコヒーレンスを適用して利用者に負担をかけないながら、ウィーナーフィルタ係数の適応更新の精度を高めて音質を向上できる音声信号処理装置、方法及びプログラムを提供できる。
【図面の簡単な説明】
【0028】
【図1】第1の実施形態に係る音声信号処理装置の構成を示すブロック図である。
【図2】第1の実施形態におけるコヒーレンス差分計算部の詳細構成を示すブロック図である。
【図3】第1の実施形態におけるWF適応部の詳細構成を示すブロック図である。
【図4】第1の実施形態におけるコヒーレンス差分計算部の動作を示すフローチャートである。
【図5】第1の実施形態におけるWF適応部の動作を示すフローチャートである。
【図6】第2の実施形態におけるWF適応部の詳細構成を示すブロック図である。
【図7】第2の実施形態におけるWF適応部内の係数適応制御部の動作を示すフローチャートである。
【図8】第3の実施形態に係る音声信号処理装置の構成を示すブロック図である。
【図9】第4の実施形態に係る音声信号処理装置の構成を示すブロック図である。
【図10】第4の実施形態における第3の指向性形成部からの指向性信号の性質を示す説明図である。
【図11】ボイススイッチの処理フローチャートである。
【図12】ウィーナーフィルタの処理フローチャートである。
【図13】目的音声検出機能にコヒーレンスを用いる場合のボイススイッチ及びウィーナーフィルタを併用した従来の音声信号処理装置のブロック図である。
【図14】図13の指向性形成部からの指向性信号の性質を示す説明図である。
【図15】図13の2つの指向性形成部による指向性の特性を示す説明図である。
【発明を実施するための形態】
【0029】
(A)第1の実施形態
以下、本発明による音声信号処理装置、方法及びプログラムの第1の実施形態を、図面を参照しながら説明する。第1の実施形態は、複数種の音声区間検出を稼働させることなく、また、装置利用者の負担を増大させることなく、コヒーレンスに特有の挙動のみに基づきボイススイッチとウィーナーフィルタに最適な区間を検出しようとしたものである。
【0030】
(A−1)第1の実施形態の構成
図1は、第1の実施形態に係る音声信号処理装置の構成を示すブロック図であり、上述した図13との同一、対応部分には同一符号を付して示している。ここで、一対のマイクm_1及びm_2を除いた部分は、CPUが実行するソフトウェア(音声信号処理プログラム)として実現することも可能であるが、機能的には、図1で表すことができる。
【0031】
図1において、第1の実施形態に係る音声信号処理装置1は、従来と同様なマイクm_1、m_2、FFT部10、第1指向性形成部11、第2の指向性形成部12、コヒーレンス計算部13、目的音声区間検出部14、ゲイン制御部15、WF適応部30、WF係数乗算部17、IFFT部18及びVSゲイン乗算部19に加え、コヒーレンス差分計算部20を有する。WF適応部30は、従来におけるWF適応部16と処理が多少異なっている。
【0032】
コヒーレンスは、目的音声区間では、全般的に値が大きく、目的音声の大振幅成分での値と小振幅成分での値は大きく変動する。一方、非目的音声区間では、全般的に値が小さいうえに変動も小さい、という独特の挙動を持つ。さらに、コヒーレンスが全体的に小さい非目的音声区間においてもコヒーレンスが取る値には幅があり、妨害音声のような波形の規則性(音声のピッチ性など)が明確な区間では相関が出やすくコヒーレンスは比較的大きいのに対して、規則性が希薄な区間では特に小さい値となる。この規則性が希薄な区間が背景雑音のみの区間であると言うことができる。そこで、非目的音声区間の中でも特にコヒーレンスが小さい区間でのみ、ウィーナーフィルタ係数を適応させるように制御することで、従来技術の課題である妨害音声特性がウィーナーフィルタ係数に反映されることによる目的音声の劣化を防止することができる。
【0033】
第1の実施形態の場合、このような現状認識、着想に基づいて、コヒーレンス差分計算部20を追加し、その出力が入力されるWF適応部30も、その機能を従来のものから変更している。
【0034】
コヒーレンス差分計算部20は、非目的音声区間におけるコヒーレンスの瞬時値COH(t)と、コヒーレンスの長期平均値AVE_COHとの差分δを計算するものである。第1の実施形態のWF適応部30は、コヒーレンス瞬時値COHと差分δを用いて、背景雑音のみの区間を検出して適応動作を行い、得られたWF_COEF(f)をWF係数乗算部17に与えるものである。
【0035】
図2は、コヒーレンス差分計算部20の詳細構成を示すブロック図である。図2において、コヒーレンス差分計算部20は、コヒーレンス受信部21、コヒーレンス長期平均計算部22、コヒーレンス減算部23及びコヒーレンス差送信部24を有する。
【0036】
コヒーレンス受信部21は、コヒーレンス計算部13が計算したコヒーレンスCOH(t)を取り込むと共に、目的音声区間検出部14から、現在の処理対象(例えば、処理対象はフレーム単位に切り替わる)のコヒーレンスCOH(t)が非目的音声区間か否かを照合するものである。
【0037】
コヒーレンス長期平均計算部22は、現在の処理対象が非目的音声区間に属するならば、コヒーレンス長期平均AVE_COH(t)を(8)式に従って更新するものである。なお、コヒーレンス長期平均AVE_COH(t)の計算式は(8)式に限定されるものではなく、所定数のサンプル値を単純平均するなどの他の算出式を適用するようにしても良い。
【0038】
AVE_COH(t)=β×COH(t)+(1−β)×AVE_COH(t−1)
但し、0.0<β<1.0 …(8)
コヒーレンス減算部23は、(9)式に示すように、コヒーレンス長期平均AVE_COH(t)とコヒーレンスCOH(t)との差分δを計算するものである。
【0039】
δ=AVE_COH(t)−COH(t) …(9)
コヒーレンス差送信部24が、得られた差分δをWF適応部39に与えるものである。
【0040】
図3は、第1の実施形態におけるWF適応部30の詳細構成を示すブロック図である。図3において、WF適応部30は、コヒーレンス差分受信部31、背景雑音区間判定部32、WF係数適応部33及びWF係数送信部34を有する。
【0041】
コヒーレンス差分受信部31は、コヒーレンスCOH(t)とコヒーレンス差分δとを取り込むものである。
【0042】
背景雑音区間判定部32は、背景雑音区間か否かを判定するものである。背景雑音区間判定部32による判定条件は、『コヒーレンスCOH(t)が目的音声判定閾値Θより小さく、かつ、コヒーレンス差分δが差分判定閾値Φ(Φ<0.0)より小さい』であり、この判定条件を満たせば背景雑音区間と判定する。
【0043】
WF係数適応部33は、背景雑音区間判定部32の判定結果が背景雑音区間であればウィーナーフィルタ係数の適応動作を実行し、そうでなければ適応しないものである。
【0044】
WF係数送信部34は、WF係数適応部33によって得られたウィーナーフィルタ係数をWF係数乗算部17に与えるものである。
【0045】
(A−2)第1の実施形態の動作
次に、第1の実施形態の音声信号処理装置1の動作を、図面を参照しながら、全体動作、コヒーレンス差分計算部20における詳細動作、WF適応部16における詳細動作の順に説明する。
【0046】
一対のマイクm_1及びm_2から入力された信号は、FFT部10によって時間領域から周波数領域の信号X1(f)、X2(f)に変換された後、第1及び第2の指向性形成部11及び12のそれぞれによって、所定の方位に死角を有する指向性信号B1(f)、B2(f)が生成される。そして、コヒーレンス計算部13において、指向性信号B1(f)及びB2(f)を適用して、(4)式及び(5)式の演算が実行され、コヒーレンスCOHが算出される。
【0047】
そして、目的音声区間検出部14において、目的音声区間か否かが判定し、判定結果をうけてゲイン制御部15によってゲインVS_GAINが設定される。
【0048】
コヒーレンス差分計算部20においては、非目的音声区間におけるコヒーレンスの瞬時値COH(t)と、コヒーレンスの長期平均値AVE_COHとの差分δが計算される。そして、WF適応部30において、コヒーレンスCOHと差分δとが利用されて背景雑音のみの区間が検出され、ウィーナーフィルタ係数の適応動作が実行され、WF係数乗算部17において、周波数領域の入力信号X1(f)に得られたウィーナーフィルタ係数WF_COEF(f)が乗算され、その乗算後の信号P(f)、言い換えると、ウィーナーフィルタ技術によって背景雑音が抑制された信号P(f)がIFFT部18において時間領域信号q(t)に変換される。VSゲイン乗算部19において、この信号q(t)にゲイン制御部15が設定したゲインVS_GAINが乗算され、出力信号y(t)が得られる。
【0049】
次に、コヒーレンス差分計算部20の動作を説明する。図4は、コヒーレンス差分計算部20の動作を示すフローチャートである。
【0050】
コヒーレンス受信部21において、コヒーレンスCOH(t)を取り込むと共に、処理対象が非目的音声区間か否かを目的音声区間検出部14に照合する(ステップS200)。非目的音声区間であれば、コヒーレンス長期平均計算部22において、(8)式に従って、コヒーレンス長期平均AVE_COH(t)が更新する(ステップS201)。さらに、コヒーレンス減算部23において、(9)式に示すようにして、コヒーレンス長期平均AVE_COH(t)とコヒーレンスCOH(t)の差分δが計算される(ステップS202)。得られたコヒーレンス差分δは、コヒーレンス差送信部24からWF適応部30に与えられる。このような処理を、処理対象を順に更新しながら実行する(ステップS203)。
【0051】
次に、WF適応部30の動作を説明する。図5は、WF適応部30の動作を示すフローチャートである。
【0052】
コヒーレンス差分受信部31において、コヒーレンスCOHとコヒーレンス差分δとを取り込むと(ステップS250)、背景雑音区間判定部32において、『COHが目的音声判定閾値Θより小さく、かつ、コヒーレンス差分δが差分判定閾値Φ(<0.0)より小さい』か否か、すなわち、背景雑音区間か否かが判定される(ステップS251)。WF係数適応部33においては、背景雑音区間であればウィーナーフィルタ係数の適応動作が実行され(ステップS252)、そうでなければ適応動作が実行されない(ステップS253)。そして、このようにして得られたウィーナーフィルタ係数WF_COEFがWF係数送信部34からWF係数乗算部17に与えられる(S254)。
【0053】
(A−3)第1の実施形態の効果
以上のように、第1の実施形態によれば、『背景雑音のみの区間ではコヒーレンスが特に小さくなる』という挙動に基づき、妨害音声と背景雑音が混在する非目的音声区間から背景雑音のみの区間を検出し、ウィーナーフィルタ係数の算出に利用している。これによって、ボイススイッチとウィーナーフィルタのそれぞれに適した信号区間を単一のパラメータ(コヒーレンス)のみで検出して、ボイススイッチとウィーナーフィルタを適用できるようになる。その結果、従来の課題であった、妨害音声の特性がウィーナーフィルタ係数に反映されることによる目的音声の歪みの発生を防止でき、かつ、複数の音声区間検出技術を導入することなく最適区間を検出できるので演算量の増大を防止できると共に、異なる特性の複数パラメータを調整する必要がなくなるので、装置利用者の負担の増大を防止できる。
【0054】
これにより、第1の実施形態の音声信号処理装置、方法若しくは音声信号処理プログラムを適用した、テレビ会議装置や携帯電話機などの通信装置における通話音質の向上が期待できる。
【0055】
(B)第2の実施形態
次に、本発明による音声信号処理装置、方法及びプログラムの第2の実施形態を、図面を参照しながら説明する。
【0056】
上記第1の実施形態では、非目的音声区間の中から背景雑音のみの区間を検出してウィーナーフィルタ係数を推定しているため、正確な係数推定が可能な反面、係数推定処理の頻度が減り、十分な雑音抑圧性能が得られるまでの時間が長くなって、装置利用者は不適切な音質にさらされる恐れがある。
【0057】
第2の実施形態は、適応開始直後はフィルタ係数推定速度を早め、その後は推定速度を遅くするように構成された『係数適応速度制御部』をWF適応部内に設けることで、第1の実施形態で生じる可能性がある恐れを解消しようとしたものである。
【0058】
第2の実施形態に係る音声信号処理装置は、第1の実施形態に係る音声信号処理装置1と比較すると、WF適応部の詳細構成、動作が異なっており、その他は、第1の実施形態と同様である。そこで、以下では、第2の実施形態におけるWF適応部30Aについてのみ説明する。
【0059】
図6は、第2の実施形態におけるWF適応部30Aの詳細構成を示すブロック図である。図6において、WF適応部30Aは、コヒーレンス差分受信部31、背景雑音区間判定部32、WF係数適応部33A、WF係数送信部34及び係数適応速度制御部35を有する。コヒーレンス差分受信部31、背景雑音区間判定部32及びWF係数送信部34は、第1の実施形態のものと同様であるので、その説明は省略する。
【0060】
係数適応速度制御部35は、背景雑音と判定された回数をカウントし、回数が所定の閾値より小さいか否かに応じてウィーナーフィルタ係数の適応速度を制御するパラメータλの値を設定するものである。
【0061】
WF係数適応部33Aは、背景雑音区間判定部32の判定結果が背景雑音以外の区間の場合には、第1の実施形態と同様にしてウィーナーフィルタ係数に適応動作し、背景雑音区間判定部32の判定結果が背景雑音区間の場合には、係数適応速度制御部35から受信したパラメータλを係数推定演算に利用して係数推定を行う。
【0062】
ここで、パラメータλの役割を簡単に述べておく。ウィーナーフィルタ係数は、特許文献1の数3のような演算で得られる。これに先立ち、周波数ごとに背景雑音特性を計算しなければならない。背景雑音の推定は、特許文献1の数1で行われ、ここにパラメータλが関与する。パラメータλは0.0〜1.0の値をとり、背景雑音特性に対して瞬時入力値をどの程度反映するかをコントロールする役割を持ち、λが大きいほど瞬時入力の影響が強くなり、小さければ瞬時入力の影響は薄れる。従って、パラメータλが大きければウィーナーフィルタ係数にはその瞬間の入力が強く反映されて高速な係数適応が実現できる一方で、瞬時入力の影響が強くなるため係数値の変動が大きくなり、音質の自然さを低下させる可能性がある。一方、パラメータλが小さい場合には適応速度は遅いものの、得られる係数は瞬時特性の影響を強く受けておらず過去の雑音特性が平均的に反映されたものになるので、音質の自然さが失われにくい。
【0063】
パラメータλは、以上のような特性を持つので、適応開始直後はパラメータλを大きくすることで高速な消去性能を実現できる。また、ある程度の時間が経過した以降はパラメータλを小さくして自然の音質を実現できる。
【0064】
以上が第2の実施形態におけるWF適応部30Aの動作概要である。
【0065】
次に、係数適応制御部35の動作を説明する。図7が、係数適応制御部35の動作を示すフローチャートである。
【0066】
まず、係数適応制御部35は、背景雑音区間判定部32の判定結果に基づいて背景雑音区間か否かを知る(ステップS300)。そして、背景雑音区間であれば、適応開始直後か否かを知るための変数counterを1インクリメントし(ステップS301)、そうでない場合には変数counterにはいかなる処理も加えない。その後、適応開始直後か否かを判定するために初期適応時間判定閾値T(T>0の整数)と変数counterとを比較し、変数counterが閾値Tより小さければ適応開始直後とみなし、閾値T以上であれば適応開始直後でないと判定する(ステップS302)。そして、適応開始直後であれば係数推定を高速にするためにパラメータλに大きな値を設定し(ステップS303)、適応開始直後でない場合は係数推定速度を遅くするためにパラメータλには小さい値を設定する(ステップS304)。
【0067】
第2の実施形態によれば、適応開始直後ではウィーナーフィルタ係数の適応速度を速めることができるので、第1の実施形態よりも高速な雑音抑圧性能が実現できる。また、ある程度の時間が経過した以後は、係数適応速度を遅くするように制御されるので、瞬時的な雑音への過剰適応を防ぎ、自然な音質を実現できる。
【0068】
これにより、第2の実施形態の音声信号処理装置、方法若しくは音声信号処理プログラムを適用した、テレビ会議装置や携帯電話機などの通信装置における通話音質の向上が期待できる。
【0069】
(C)第3の実施形態
次に、本発明による音声信号処理装置、方法及びプログラムの第3の実施形態を、図面を参照しながら説明する。第3の実施形態に係る音声信号処理装置1Bは、第1の実施形態の構成に、公知のコヒーレンスフィルタ構成を導入したものである。
【0070】
コヒーレンスフィルタとは、得られたコヒーレンスcoef(f)を入力信号X1(f)に乗算する処理であり、到来方向に左右の偏りがある成分を抑制する働きを持っている。
【0071】
図8は、第3の実施形態に係る音声信号処理装置1Bの構成を示すブロック図であり、第1の実施形態に係る図1との同一、対応部分には同一、対応符号を付して示している。
【0072】
図8において、第3の実施形態に係る音声信号処理装置1Bは、第1の実施形態の構成に加えて、コヒーレンスフィルタ係数乗算部40を備えており、WF係数乗算部17Bの処理も多少変更されている。
【0073】
コヒーレンスフィルタ係数乗算部40には、コヒーレンス計算部13からコヒーレンスcoef(f)が与えられると共に、FFT部10から、周波数領域に変換された一方の入力信号X1(f)が与えられるようになされており、コヒーレンスフィルタ係数乗算部40は、(10)式に示すように、これらを乗算してはコヒーレンスフィルタ処理信号R0(f)を得る。
【0074】
R0(f)=X1(f)×coef(f) …(10)
第3の実施形態のWF係数乗算部17Bは、(11)式に示すように、コヒーレンスフィルタ処理信号R0(f)に、WF適応部30からのウィーナーフィルタ係数WF_COEF(f)を乗算し、ウィーナーフィルタ処理後信号P(f)を得る。
【0075】
P(f)=R0(f)×WF_COEF(f) …(11)
これ以降のIFFT部18及びVSゲイン乗算部19の処理は、第1の実施形態と同様である。
【0076】
第3の実施形態によれば、コヒーレンスフィルタ機能を追加したことにより、第1の実施形態を単体で動作させるよりも高い雑音抑制効果を得ることができる。
【0077】
(D)第4の実施形態
次に、本発明による音声信号処理装置、方法及びプログラムの第4の実施形態を、図面を参照しながら説明する。第4の実施形態に係る音声信号処理装置1Cは、第1の実施形態の構成に、公知の周波数減算技術の構成を導入したものである。
【0078】
周波数減算技術とは、入力信号から雑音信号を減算することで雑音低減効果を得る信号処理手法である。
【0079】
図9は、第4の実施形態に係る音声信号処理装置1Cの構成を示すブロック図であり、第1の実施形態に係る図1との同一、対応部分には同一、対応符号を付して示している。
【0080】
図9において、第4の実施形態に係る音声信号処理装置1Cは、第1の実施形態の構成に加えて、周波数減算部50を備えており、WF係数乗算部17Cの処理も多少変更されている。周波数減算部50は、第3の指向性形成部51と減算部52とを有する。
【0081】
第3の指向性形成部51には、FFT部10から周波数領域に変換された2つの入力信号X1(f)及びX2(f)が与えられる。第3の指向性形成部51は、図10に示すような正面に死角を有する指向性特性に従った第3の指向性信号B3(f)を形成し、この指向性信号B3(f)を雑音信号として減算部52に減算入力として与える。減算部52には、周波数領域に変換された一方の入力信号X1(f)が被減算入力として与えられており、減算部52は、(12)式に示すように、入力信号X1(f)から第3の指向性信号B3(f)を減算しては周波数減算処理信号R1(f)を得る。
【0082】
R1(f)=X1(f)−B3(f) …(12)
第4の実施形態のWF係数乗算部17Cは、(13)式に示すように、周波数減算処理信号R1(f)に、WF適応部30からのウィーナーフィルタ係数WF_COEF(f)を乗算し、ウィーナーフィルタ処理後信号P(f)を得る。
【0083】
P(f)=R1(f)×WF_COEF(f) …(13)
これ以降のIFFT部18及びVSゲイン乗算部19の処理は、第1の実施形態と同様である。
【0084】
第4の実施形態によれば、周波数減算機能を追加したことにより、第1の実施形態を単体で動作させるよりも高い雑音抑制効果を得ることができる。
【0085】
(E)他の実施形態
本発明は、上記実施形態のものに限定されず、以下に例示するような変形実施形態を挙げることができる。
【0086】
(E−1)上記各実施形態の説明から明らかなように、上記各実施形態では、ボイススイッチとウィーナーフィルタという二つの雑音抑制技術を用いているが、コヒーレンスの挙動に基づいて背景雑音のみの区間を抜き出す構成、処理に特徴を有している。この特徴は、特に、ウィーナーフィルタの性能向上に寄与する機能である。そこで、雑音抑制技術としてウィーナーフィルタだけを有する音声信号処理装置やプログラムに対しても、本発明を適用することができる。雑音抑制技術としてウィーナーフィルタだけを有する音声信号処理装置の構成としては、例えば、図1の構成から、ゲイン制御部15及びVSゲイン乗算部19を除外したものを挙げることができる。
【0087】
(E−2)上記各実施形態においては、判定された非目的音声区間における背景雑音のみの区間を、コヒーレンスの瞬時値COH(t)の、コヒーレンスの長期平均値AVE_COHからの差分δに基づいて検出するものを示したが、コヒーレンスの分散(若しくは標準偏差)の大小によって背景雑音のみの区間を検出するようにしても良い。コヒーレンスの分散は、最新所定個数のコヒーレンスの瞬時値COH(t)の、その平均値からのバラツキ度合を表しているので、コヒーレンス差分と同様なコヒーレンスの挙動を表すパラメータとなっている。
【0088】
(E−3)第3の実施形態では、第1の実施形態に公知のコヒーレンスフィルタ構成を追加したものを示し、第4の実施形態では、第1の実施形態に公知の周波数減算構成を追加したものを示したが、第1の実施形態に、コヒーレンスフィルタ構成と周波数減算構成とを共に追加するようにしても良い。
【0089】
また、第2の実施形態の構成をベースとして、コヒーレンスフィルタ構成と周波数減算構成との少なくとも一方を追加するようにしても良い。
【0090】
(E−4)第2の実施形態では、パラメータλの値に応じて、適応速度を2段階で切り替えるものを示したが、閾値を複数設定することにより、パラメータλの値に応じて、適応速度を3段階以上で切り替えるようにしても良い。
【0091】
(E−5)上記各実施形態では、目的音声区間検出部があるが、WF適応部がコヒーレンスに基づいて目的音声区間か否かをも再度判定しているものを示したが、WF適応部が目的音声区間検出部の検出結果を利用し、WF適応部が目的音声区間か否かの判定を実行しないようにしても良い。特許請求の範囲における「目的音声区間検出部」は、WF適応部がコヒーレンスに基づいて目的音声区間か否かをも判定している場合には、WF適応部が対応し、WF適応部が外部の目的音声区間検出部の検出結果を利用する場合には、外部の目的音声区間検出部が対応するものである。
【0092】
(E−6)上記各実施形態においては、ウィーナーフィルタ処理を施した後に、ボイススイッチ処理を施すものを示したが、この処理順序は逆であっても良い。
【0093】
(E−7)上記各実施形態において、周波数領域の信号で処理していた処理を、可能ならば時間領域の信号で処理するようにしても良く、逆に、時間領域の信号で処理していた処理を、可能ならば周波数領域の信号で処理するようにしても良い。
【0094】
(E−8)上記各実施形態では、一対のマイクが捕捉した信号を直ちに処理する音声信号処理装置やプログラムを示したが、本発明の処理対象の音声信号はこれに限定されるものではない。例えば、記録媒体から読み出した一対の音声信号を処理する場合にも、本発明を適用することができ、また、対向装置から送信されてきた一対の音声信号を処理する場合にも、本発明を適用することができる。
【符号の説明】
【0095】
1…音声信号処理装置、m_1、m_2…マイク、11…第1指向性形成部、12…第2の指向性形成部、13…コヒーレンス計算部、14…目的音声区間検出部、15…ゲイン制御部、16…WF適応部、17、30…WF係数乗算部、19…VSゲイン乗算部、20…コヒーレンス差分計算部、22…コヒーレンス長期平均計算部、23…コヒーレンス減算部、32…背景雑音区間判定部、33…WF係数適応部、40…コヒーレンスフィルタ係数乗算部、50…周波数減算部、51…第3の指向性形成部、52…減算部。

【特許請求の範囲】
【請求項1】
入力音声信号から雑音成分を抑制する音声信号処理装置において、
入力音声信号に遅延減算処理を施すことで、第1の所定方位に死角を有する指向性特性を付与した第1の指向性信号を形成する第1の指向性形成部と、
入力音声信号に遅延減算処理を施すことで、前記第1の所定方位とは異なる第2の所定方位に死角を有する指向性特性を付与した第2の指向性信号を形成する第2の指向性形成部と、
前記第1及び第2の指向性信号を用いてコヒーレンスを得るコヒーレンス計算部と、
前記コヒーレンスに基づいて、入力音声信号が、目的方位から到来している目的音声の区間か、それ以外の非目的音声区間かを判別する目的音声区間検出部と、
前記コヒーレンスの、平均的な値からの相違情報を得るコヒーレンス挙動情報計算部と、
前記相違情報を背景雑音検出用閾値と比較し、非目的音声区間を、背景雑音検出用閾値より小さいときの背景雑音区間とそれ以外の非背景雑音区間に分け、背景雑音区間か非背景雑音区間かに応じてウィーナーフィルタ係数の適応処理を切り換えるWF適応部と、
前記WF適応部からのウィーナーフィルタ係数を前記入力音声信号に乗算するWF係数乗算部と
を有することを特徴とする音声信号処理装置。
【請求項2】
前記コヒーレンス挙動情報計算部は、コヒーレンスの長期平均値と、最新のコヒーレンスの瞬時値との差分を、前記相違情報として算出することを特徴とする請求項1に記載の音声信号処理装置。
【請求項3】
前記コヒーレンス挙動情報計算部は、最新所定個数のコヒーレンスの瞬時値から求めた分散値を、前記相違情報として算出することを特徴とする請求項1に記載の音声信号処理装置。
【請求項4】
前記WF適応部は、背景雑音区間でウィーナーフィルタ係数の適応処理を実行し、非背景雑音区間でウィーナーフィルタ係数の適応処理を停止することを特徴とする請求項1〜3のいずれかに記載の音声信号処理装置。
【請求項5】
前記WF適応部は、ウィーナーフィルタ係数の適応開始直後か否かを判別し、開始直後では、ウィーナーフィルタ係数の適応処理における適応速度を高めることを特徴とする請求項1〜4のいずれかに記載の音声信号処理装置。
【請求項6】
目的音声区間か非目的音声区間かに応じ、いずれかの処理段階にある音声信号に対して、異なるゲインを乗算して雑音抑制を行うボイススイッチ処理部をさらに有することを特徴とする請求項1〜5のいずれかに記載の音声信号処理装置。
【請求項7】
前記コヒーレンス計算部で得られたコヒーレンスを、フィルタ特性として、いずれかの処理段階にある音声信号に対して乗算し、到来方向に偏りを有する成分を抑制するコヒーレンスフィルタ処理部をさらに有することを特徴とする請求項1〜6のいずれかに記載の音声信号処理装置。
【請求項8】
前記第1及び第2の指向性形成部とは異なる第3の所定方向に死角を有する指向性特性を付与した第3の指向性信号を形成する第3の指向性形成部と、前記第3の指向性信号をいずれかの処理段階にある音声信号から減算する減算部とを有する周波数減算部をさらに有することを特徴とする請求項1〜7のいずれかに記載の音声信号処理装置。
【請求項9】
入力音声信号から雑音成分を抑制する音声信号処理方法において、
第1の指向性形成部は、入力音声信号に遅延減算処理を施すことで、第1の所定方位に死角を有する指向性特性を付与した第1の指向性信号を形成し、
第2の指向性形成部は、入力音声信号に遅延減算処理を施すことで、前記第1の所定方位とは異なる第2の所定方位に死角を有する指向性特性を付与した第2の指向性信号を形成し、
コヒーレンス計算部は、前記第1及び第2の指向性信号を用いてコヒーレンスを計算し、
目的音声区間検出部は、前記コヒーレンスに基づいて、入力音声信号が、目的方位から到来している目的音声の区間か、それ以外の非目的音声区間かを判別し、
コヒーレンス挙動情報計算部は、前記コヒーレンスの、平均的な値からの相違情報を得、
WF適応部は、前記相違情報を背景雑音検出用閾値と比較し、非目的音声区間を、背景雑音検出用閾値より小さいときの背景雑音区間とそれ以外の非背景雑音区間に分け、背景雑音区間か非背景雑音区間かに応じてウィーナーフィルタ係数の適応処理を切り換え、
WF係数乗算部は、前記WF適応部からのウィーナーフィルタ係数を前記入力音声信号に乗算する
ことを特徴とする音声信号処理方法。
【請求項10】
コンピュータを、
入力音声信号に遅延減算処理を施すことで、第1の所定方位に死角を有する指向性特性を付与した第1の指向性信号を形成する第1の指向性形成部と、
入力音声信号に遅延減算処理を施すことで、前記第1の所定方位とは異なる第2の所定方位に死角を有する指向性特性を付与した第2の指向性信号を形成する第2の指向性形成部と、
前記第1及び第2の指向性信号を用いてコヒーレンスを得るコヒーレンス計算部と、
前記コヒーレンスに基づいて、入力音声信号が、目的方位から到来している目的音声の区間か、それ以外の非目的音声区間かを判別する目的音声区間検出部と、
前記コヒーレンスの、平均的な値からの相違情報を得るコヒーレンス挙動情報計算部と、
前記相違情報を背景雑音検出用閾値と比較し、非目的音声区間を、背景雑音検出用閾値より小さいときの背景雑音区間とそれ以外の非背景雑音区間に分け、背景雑音区間か非背景雑音区間かに応じてウィーナーフィルタ係数の適応処理を切り換えるWF適応部と、
前記WF適応部からのウィーナーフィルタ係数を前記入力音声信号に乗算するWF係数乗算部と
して機能させることを特徴とする音声信号処理プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate