説明

近接音分離収音方法、近接音分離収音装置、近接音分離収音プログラム、記録媒体

【課題】目的音源の近傍に雑音源が存在し、双方が同時に鳴っている場合でも、目的音をSN比よく取り出す。
【解決手段】目的音信号と雑音信号とが混合された信号を複数の帯域信号に分割し、分割された各帯域信号の特徴量を求める。或る帯域信号の特徴量が目的音を表わす値である場合その帯域信号を目的音として判定し、特徴量が雑音を表わす値である場合、その帯域信号を雑音と判定し、その判定結果に従って各帯域信号に重み付けを施し、この重み付けにより雑音成分を除去し、目的音をSN比よく取り出す。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、マイクロホンに近接した目的音源と、マイクロホンから離れた雑音源が同時に鳴っている環境において、雑音信号を抑圧し、目的音を高いSN比で収音する近接音分離収音方法、近接音分離収音装置に関する。
【背景技術】
【0002】
目的音と雑音が同時に鳴っている環境において、雑音を抑圧し、目的音を強調する方法としては、従来、単一のマイクロホンを用いて目的音を音声とし、雑音として空調ノイズなど時間変動が緩やかな雑音(以下、定常雑音)を想定し、雑音の定常性を利用して混合信号のスペクトルから雑音信号のスペクトルを減算するスペクトルサブトラクション法(非特許文献1)が提案されている。
また、複数のマイクロホンを用いて雑音を抑圧するマイクロホンアレー法(非特許文献2)も提案されている。
【非特許文献1】Boll, S. F. “Suppression of Acoustic Noise in Speech Using Spectral Subtraction.” IEEE Trans. Acoust. Speech, and Signal Processing, vol. ASSP-27, no.2 pp.133-120,1979.
【非特許文献2】Y. Kaneda and J. Ohga, “Adaptive microphone-array system for noise reduction,” IEEE Trans. Acoust. Speech Signal Process, vol.ASSP-34,no.6,pp.1391-1400,1986
【発明の開示】
【発明が解決しようとする課題】
【0003】
非特許文献1で提案されている雑音抑圧方法は雑音の定常性を用いるため、音声や、音楽など非定常な雑音信号を抑圧することは困難とする第1の課題が生じる。また、非特許文献2で提案されている雑音抑圧方法は少なくとも2本以上のマイクロホンを必要とするため、装置の規模が大きくなるとする第2の課題が生じる。
【課題を解決するための手段】
【0004】
本発明の第1実施形態によれば音声入力手段の各出力信号を音声帯域内において複数の帯域信号に分割する帯域分割手段と、帯域信号の音響特徴量を算出する帯域別特徴量算出手段と、帯域別特徴量算出手段で算出された各帯域別の特徴量に基づき、目的音源の信号を主成分とする信号であるか、又は雑音を主成分とする信号であるかを判定する帯域別信号判定手段と、帯域別信号判定手段で判定した判定結果に基づいて、前記帯域別に重み値を決定する帯域別重み値決定手段と、帯域別重み値決定手段で決定された重み値を前記各帯域信号に乗算する帯域別重み値乗算手段と、帯域別重み値乗算手段で重み付けされた信号を時間波形に戻す信号合成手段とを備えることを特徴とする。
【0005】
本発明の第2の実施形態によれば第1の実施形態で提案した近接音分離収音装置において、帯域別特徴量算出手段は各帯域信号のパワー値を算出し、帯域別信号判定手段は各帯域信号のパワー値が予め設定した閾値以上を目的音信号を主成分とする帯域信号として判定し、閾値以下を雑音を主成分とする帯域信号と判定することを特徴とする。
本発明の第3の実施形態によれば第1の実施形態で提案した近接音分離収音装置において、帯域別特徴量算出手段は各帯域信号の特徴量として尖鋭度を算出し、帯域信号判定手段は各帯域信号の尖鋭度が予め設定した閾値以上を目的音信号を主成分とする帯域信号と判定し、各帯域信号の尖鋭度が閾値以下を雑音を主成分とする帯域信号と判定することを特徴とする。
【0006】
本発明の第4の実施形態によれば前述した第2の実施形態又は第3の実施形態で提案した近接音分離収音装置の何れかにおいて、帯域別特徴量算出手段で算出した特徴量の値から閾値を算出する閾値算出手段を付加し、この閾値算出手段で算出した閾値に従って帯域別信号判定手段の判定を実行することを特徴とする。
各実施形態において、目的音は音声とし、目的音は雑音源に比べてマイクロホンに近接している、という条件に限定して用いる。また、音声信号のスパース性(パワーの大きな周波数が、特定の帯域に局在する性質)に着目して、雑音が混ざった信号から目的音声を推定する。
【0007】
帯域分割手段においては、各帯域の信号が主として1つの音響信号成分よりなる程度(目的音のスペクトルを分離できる程度)に細かく帯域分割する、具体例としては20Hz程度、また、目的音が雑音に比べてマイクロホンに近接していることから、目的音信号は雑音信号よりも大きくマイクロホンに受音される、と仮定する。
受音信号を帯域分割手段で帯域分割し、帯域別特徴量算出手段で帯域毎の音響的特徴量を算出する。帯域別重み値決定手段では、帯域別に算出した特徴量に基づき、各周波数成分が、マイクロホンに近接した目的音源の成分であるか、遠方から到来する雑音源の成分であるかを判定し、その判定に基づき重み値α(ω)を決定する。例えば、特徴量として各帯域のパワーを用いた場合、目的音源の信号パワーは雑音の信号パワーよりも大きいことを利用して、パワーがあらかじめ定めた閾値より大きくなる帯域の信号は、目的信号と判定し、その帯域に乗算する重み値を例えばα(ω)=1.0と決定する。パワーが閾値より小さくなる帯域は雑音信号の成分と判定し、ゼロに近い重み値α(ω)(0<α(ω)<1)と決定する。
【0008】
また、特徴量として信号の尖鋭度(実施例において詳しく定義を説明する)を用いる場合には、近接した音源の尖鋭度は大きく、遠方音源の尖鋭度は小さくなる性質を利用して、尖鋭度がある閾値以下の場合には雑音信号成分と判定してゼロに近い重み値を例えばα(ω)(0<α(ω)<1)と決定する。
帯域別重み値乗算手段においては、決定した重み値α(ω)を各帯域信号X(ω)に乗算する。このように重み付けされた信号を信号合成手段により時間波形に戻す。
【発明の効果】
【0009】
本発明の構成によれば雑音の性質(定常性)を用いることなく雑音が混じった信号から目的音声を回復することができる。よって、雑音源が音声や音楽など非定常な信号に対しても対応が可能である。つまり、上述した第1の課題を解決することができる。
また、本発明では単一のマイクロホンで実現可能なため、装置規模も小さくできる。これにより上述した第2の課題も解決することができる。
【発明を実施するための最良の形態】
【0010】
本発明による近接音分離収音装置は全てをハードウェアにより構成することができるが、それより、コンピュータが解読可能なプログラム言語によって記述された近接音分離収音プログラムをコンピュータにインストールし、コンピュータに近接音分離収音装置として機能させる実施形態が最良の実施形態である。
コンピュータに本発明による近接音分離収音装置として機能させる場合、コンピュータには帯域分割手段、帯域別特徴量算出手段、帯域別信号判定手段、帯域別重み付け値決定手段、帯域別重み値乗算手段、信号合成手段を構築し、近接分離装置として機能させる。
【実施例1】
【0011】
図1に本発明の請求項5で提案する近接音分離収音装置の実施例を示す。入力手段1は例えばマイクロホンとする。目的音源Mの信号をS(t)、雑音源Nの信号をn(t)とする。説明を簡略化するために、ここでは雑音源Nを一つとして説明するが、一般に雑音源Nは複数でも良い。
帯域分割手段2においては例えば高速フーリエ変換などで音声帯域内を複数の帯域に分割する。このとき、各帯域信号X(ω),X(ω),...X(ω)は、主として一つの音響信号成分よりなる程度に細かく分割する。ここで一つの音響信号成分とは信号S(t)及びn(t)に含まれる一つのスペクトルを指し、各スペクトルを分離できる程度の細かさに分割すれば良いとされている。(更に詳しくは特許第3355598号明細書を参照)。
【0012】
帯域別特徴量算出手段3においては、各周波数帯域毎に信号の音響的特徴量(τ(ω))を算出する。この特徴量とは例えば、信号のパワーや尖鋭度である。ここでは本発明の請求項6で提案する信号のパワーを特徴量として用いるものとして説明する。従って帯域別特徴量算出手段3は各帯域信号X(ω),X(ω),…X(ω)のパワー値20log10|X(ω1)|,20log10|X(ω2)|,…20log10|X(ωN)|,を出力する。
帯域別信号判定手段4は各帯域のパワー値により、各帯域信号X(ω),X(ω),…X(ω)の属性を判定する。ここで雑音は目的音より遠方から到来するため、雑音信号n(t)は目的音信号S(t)に比べて小さく受音される、と仮定できる。すなわち、帯域分割した帯域信号X(ω),X(ω),…X(ω)は図2に示すようなスペクトルを持つと考えられる。よって図2に示したようにパワーが閾値(T)を超える帯域はその主成分が目的信号S(t)であると推定され、閾値T以下の帯域はその主成分が雑音信号n(t)であると推定される。帯域別信号判定手段4はこの判定アルゴリズムを適用して各帯域信号X(ω),X(ω),…X(ω)の属性を判定し、その判定結果を帯域別重み値決定手段5に受け渡す。
【0013】
帯域別重み値決定手段5では目的音信号S(t)と判定された帯域には重み値α(ω)を例えばα(ω)=1.0と決定する。また、雑音信号n(t)と判定された帯域には重み値α(ω)を例えば0≦α(ω)≦1と決定する。雑音と判定された帯域に指定した重み値0≦α(ω)≦1は限りなく0に近い値とされる。目的音信号と判定された帯域に指定した重み値α(ω)=1は必ずしも1でなくともよく、雑音帯域に与えた重み値より大きい値であればよい。
帯域別重み値決定手段5で決定した各帯域の重み値α(ω),α(ω),…α(ω)は帯域別重み値乗算手段6に与えられ、この帯域別重み値乗算手段6で各帯域信号X(ω),X(ω),…X(ω)に乗算され、重み付けされた各帯域信号α(ω)・X(ω),α(ω)・X(ω),…α(ω)・X(ω)を信号合成手段7に入力し、信号合成手段7で例えば逆フーリエ変換等を用いて時間信号に戻される。雑音と判定した帯域には限りなく0に近い重み値を指定したから、この時間信号に含まれる雑音信号成分はわずかとなり、目的音信号S(t)のSN比が向上する。
【0014】
図3はこの発明の請求項7で提案した近接音分離収音装置の実施例を示す。この実施例では特徴量算出手段3において算出する特徴量を尖鋭度J(ω),J(ω),…J(ω)とした場合を示す。
信号x(n)の線形予想残差信号をy(n)とする。信号y(n)の尖鋭度(n)は下記(1)で定義される、Eはカッコ内の平均値
J(n)=E{y4(n)}/E2{y2(n)}-3 …(1)
信号y(n)の尖鋭度は、マイクロホンに近接した音源信号の場合の値が大きく、マイクロホンから遠方になるにつれて値が小さくなることが知られている。この性質を帯域分割した帯域信号X(ω)に適用することを考える。帯域分割された帯域信号X(ω)の尖鋭度を測定し、各帯域の尖鋭度が予め定めた閾値Tを越える場合には目的音信号と判定し、閾値以下となる帯域は雑音信号成分と判定する。ここで時間波形x(n)の場合には、一旦信号を線形予測し、その残差信号y(n)を求め、その残差信号y(n)について尖鋭度を測定する必要があった。これは線形予測により音声の包絡情報を除去するためであった。しかし、帯域分割した各成分にはすでに音声の包絡線情報が残っていないため、本発明では帯域分割した信号X(ω)の尖鋭度J~(ωi,J)を式(2)に定義し、それを用いて各帯域の信号成分の属性を判定する。
【0015】
J~(ωi,)= E{x4i,)}/E2{x2i,)}-3 …(2)
ここで、インデックスiは帯域のインデックス、jはフレームのインデックスである。
帯域別特徴量算出手段3は、式(2)で定義した尖鋭度J~(ωi,)を各帯域について算出する。帯域別信号判定手段4は尖鋭度がある閾値以上の帯域は目的音信号成分と判定し、尖鋭度がある閾値以下の帯域は雑音信号と判定する。
帯域別重み値決定手段5は図1の場合と同様に、目的音信号成分と判定した帯域に対しては重み値α(ωi)をα(ωi)=1.0と決定し、雑音信号成分と判定した帯域に対しては重み値α(ωi)をゼロに近い値をα(ωi)(0≦α(ωi)≦1)として決定する。決定した各帯域の重み値α(ωi)を各帯域信号X(ωi)に乗算し、重み付けされた各帯域信号α(ωi)・X(ωi)を信号合成手段7で時間信号に戻すことにより雑音成分が除去された目的音信号を得ることができる。
【0016】
ところで、上述した実施例では帯域別信号判定手段4の判定を予め定めた閾値Tを用いて各帯域の信号の属性を判定したが、この判定方法を採る場合は、目的音信号に対して雑音信号が充分小さい場合には有効であるが、雑音信号が大きくなるに伴って、閾値Tを大きく設定する必要が生じる。一方、音声信号は一般に高域になるにつれて信号のパワーが小さくなる性質を持つ(図5参照)。そのため雑音が大きくなると、雑音の低域成分の影響を抑制するために閾値Tを大きく設定する必要が生じ、その結果、目的音信号の高域成分まで抑圧してしまうという問題が生じる(図5参照)。
【0017】
図4はこの問題を解決するための実施例(請求項8に対応)を示す。この実施例では複数の帯域毎に適正な閾値を算出する閾値算出手段8を設け、この閾値算出手段8で算出した閾値を用いて、帯域別信号判定手段4で適正に信号の属性を判定しようとするものである。
つまり、この実施例では音声信号はいくつかの(通常、3つ程度)のフォルマント周波数を有するという特徴(図5参照)と、更に、高域になるにつれてパワーが減衰するという特徴を利用して受音信号s(t)+n(t)を複数個、例えば3つ程度のバンドに分離し、閾値算出手段8で各バンド毎に適した閾値を算出することで、雑音がある程度大きい場合にも本発明を適用可能としたものである。但し、雑音信号のパワーは目的音信号のパワーより小さい、とする条件は必要である。
【0018】
以下に具体的な方法を説明する。図5にしめしたように、音声信号は通常、高域にいくに従ってパワーが減衰する。そのため、雑音がある程度大きい場合に、一つの閾値(T)で全帯域の雑音成分を除去しようとすると、雑音信号の低域成分を除去するために閾値Tを高めに設定することになり、その結果、高域の目的信号まで減衰させてしまう。よって信号を複数個(例えば3個)のバンドに分割し、各バンドで適した閾値(T1,T2,T3)を閾値算出手段8で算出する。バンドの分割方法として例えば、平均的な音声信号のフォルマント周波数(第一フォルマント周波数f1、第二フォルマント周波数f2、第三フォルマント周波数f3)を用いて、f2以下の帯域を第一バンド、f2以上f3未満の帯域を第二バンド、f3以上の帯域を第三バンドとする。
【0019】
各バンドにおける閾値(T1,T2,T3)の算出方法を、T1を例に挙げて述べる。第一バンドにおいて、受音信号のうち最も大きなパワーを持つ周波数成分X(ωMax1)を選定する。この帯域X(ωMax1)は、目的音信号の成分である可能性が高いと判断できる。よって、X(ωMax1)のパワー20log10|X(ωMax1)|を算出し、そのパワー値より例えば20dB小さい値(他の値(10dB,15dBなど)でもよい)を閾値T1とする。すなわち、T1=20log10|X(ωMax1)|-20とする。こうすることで、第一バンドの中で、最大のパワーを持つ周波数成分に比べて20dB以上小さくなる信号成分は雑音成分と判定されて抑圧される。
【0020】
閾値T2についても同様に、第二バンドのなかで最もパワーが大きい周波数成分20log10|X(ωMax2)|のパワーを算出し、閾値T2を、T2=20log10|X(ωMax1)|-20と設定する。閾値T3についても同様である。以上の方法により、閾値算出手段8は帯域毎に適した閾値を求める。その算出結果を帯域別信号判定手段4に入力する。帯域別信号判定手段4は各バンド毎に算出した閾値を利用して各帯域信号の属性を判定するから、雑音信号がある程度大きくなった場合でも、請求項6に比べて、帯域毎の雑音成分を精度よく判定することができる。以上の説明により、遠方からの雑音信号が混在した受音信号に対して、目的信号を抽出できることが理解できよう。
【0021】
上述した各実施例で説明した帯域分割手段2、帯域別特徴量算出手段3、帯域別信号判定手段4、帯域別重み値決定手段5、帯域別重み値乗算手段6、信号合成手段7、閾値算出手段8はそれぞれ、コンピュータが解読可能なプログラム言語によって記述された近接音分散プログラムをコンピュータにインストールし、コンピュータに備えたCPUに解読させて実行することによりコンピュータより機能させることができ、結果として近接音分離収音装置として機能させることができる。近接音分離収音プログラムはコンピュータが読み取り可能な磁気ディスク或はCD−ROMのような記録媒体に記録され、これらの記録媒体からコンピュータにインストールするか或は通信回線を通じてインストールすることができる。
【産業上の利用可能性】
【0022】
この発明による近接音分離収音装置は例えばハンズフリー方式の音声会議システム等に活用される。
【図面の簡単な説明】
【0023】
【図1】この発明の請求項5と6で提案する近接音分離収音装置の実施例を説明するためのブロック図。
【図2】図1の動作を説明するためのグラフ。
【図3】この発明の請求項7で提案する近接音分離収音装置の実施例を説明するためのブロック図。
【図4】この発明の請求項8で提案する近接音分離収音装置の実施例を説明するためのブロック図。
【図5】図4の動作を説明するためのグラフ。
【符号の説明】
【0024】
N 雑音源 4 帯域別信号判定手段
M 目的音源 5 帯域別重み値決定手段
n(t) 雑音信号 6 帯域別重み値乗算手段
s(t) 目的音信号 7 信号合成手段
1 入力手段 8 閾値算出手段
2 帯域分割手段
3 帯域別特徴量算出手段




【特許請求の範囲】
【請求項1】
少なくとも1つ以上の音声入力手段を用いて目的音源と雑音源が存在する環境下で雑音を抑圧し、目的音信号を強調して収音する近接音分離収音方法であって、
前記音声入力手段の各出力信号を音声帯域内において複数の帯域信号に分割する帯域分割処理と、
前記各帯域信号の音源特徴量を算出する帯域別特徴量算出処理と、
前記帯域別特徴量算出処理で算出された各帯域別の特徴量に基づき、目的音源の信号を主成分とする信号か、雑音源の信号を主成分とする信号であるかを判定する帯域別信号判定処理と、
前記帯域別信号判定処理で判定した判定結果に基づいて、前記各帯域別に重み値を決定する帯域別重み値決定処理と、
前記帯域別重み値決定処理で決定された重み値を前記各帯域信号に乗算する帯域別重み値乗算処理と、
前記帯域別重み値乗算処理で重み付けされた信号を時間波形に戻す信号合成処理と、
を含むことを特徴とする近接音分離収音方法。
【請求項2】
請求項1記載の近接音分離収音方法において、前記帯域別特徴量算出処理は各帯域信号のパワー値を算出し、前記帯域別信号判定処理は各帯域信号のパワー値が予め設定した閾値以上を前記目的音信号を主成分とする帯域信号として判定し、閾値以下を雑音を主成分とする帯域信号と判定することを特徴とする近接音分離収音方法。
【請求項3】
請求項1記載の近接音分離収音方法において、前記帯域別特徴量算出処理は各帯域信号の特徴量として尖鋭度を算出し、前記帯域別信号判定処理は各帯域信号の尖鋭度が予め設定した閾値以上を前記目的音信号を主成分とする帯域信号と判定し、各帯域信号の尖鋭度が閾値以下を雑音を主成分とする帯域信号と判定することを特徴とする近接音分離収音方法。
【請求項4】
請求項2記載の近接音分離収音方法の何れかにおいて、前記帯域別特徴量算出処理で算出した特徴量の値から前記閾値を算出する閾値算出処理を付加し、この閾値算出処理で算出した閾値に従って前記帯域別信号判定処理を実行することを特徴とする近接音分離収音方法。
【請求項5】
少なくとも1つ以上の音声入力手段を用いて目的音源と雑音源が存在する環境下で雑音を抑圧し、目的音信号を強調して収音する近接音分離収音装置であって、
前記音声入力手段の各出力信号を音声帯域内において複数の帯域信号に分割する帯域分割手段と、
前記帯域信号の音響特徴量を算出する帯域別特徴量算出手段と、
前記帯域別特徴量算出手段で算出された各帯域別の特徴量に基づき、目的音源の信号を主成分とする信号であるかを判定する帯域別信号判定手段と、
前記帯域別信号判定手段で判定した判定結果に基づいて、前記帯域別に重み値を決定する帯域別重み値決定手段と、
前記帯域別重み値決定手段で決定された重み値を前記各帯域信号に乗算する帯域別重み値乗算手段と、
前記帯域別重み値乗算手段で重み付けされた信号を時間波形に戻す信号合成手段と、
を備えることを特徴とする近接音分離収音装置。
【請求項6】
請求項5記載の近接音分離収音装置において、前記帯域別特徴量算出手段は各帯域信号のパワー値を算出し、前記帯域別信号判定手段は各帯域信号のパワー値が予め設定した閾値以上を前記目的音信号を主成分とする帯域信号として判定し、閾値以下を雑音を主成分とする帯域信号と判定することを特徴とする近接音分離収音装置。
【請求項7】
請求項5記載の近接音分離収音装置において、前記帯域別特徴量算出手段は各帯域信号の特徴量として尖鋭度を算出し、前記帯域別信号判定手段は各帯域信号の尖鋭度が予め設定した閾値以上を前記目的音信号を主成分とする帯域信号と判定し、各帯域信号の尖鋭度が閾値以下を雑音を主成分とする帯域信号と判定することを特徴とする近接音分離収音装置。
【請求項8】
請求項6又は7記載の近接音分離収音装置の何れかにおいて、前記帯域別特徴量算出手段で算出した特徴量の値から前記閾値を算出する閾値算出手段を付加し、この閾値算出手段で算出した閾値に従って前記帯域別信号判定手段の判定を実行することを特徴とする近接音分離収音装置。
【請求項9】
コンピュータが解読可能なプログラム言語によって記述され、コンピュータに少なくとも請求項5乃至8の何れかに記載の近接音分離収音装置として機能させる近接音分離収音プログラム。
【請求項10】
コンピュータが読み取り可能な記録媒体で構成され、この記録媒体に請求項9記載の近接音分離収音プログラムを記録した記録媒体。






【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2006−178333(P2006−178333A)
【公開日】平成18年7月6日(2006.7.6)
【国際特許分類】
【出願番号】特願2004−373810(P2004−373810)
【出願日】平成16年12月24日(2004.12.24)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】