説明

音響信号処理装置、音響信号処理方法、及びコンピュータプログラム

【課題】 推定された音源方向の信頼度を得ることが可能な音響信号処理装置、音響信号処理方法、及びコンピュータプログラムを提供する。
【解決手段】
音響信号処理装置1は、2つのマイクロホン2,2と、マイクロホン2,2に各別に接続された増幅器3,3と、増幅器3,3のそれぞれに接続されたA/D変換器4,4と、A/D変換器4,4に接続されたCPU5と、CPU5に接続されたROM51及びRAM52とを備える。CPU51は、A/D変換された音響信号をフレーム化し、フレーム化した音響信号から音空間特徴量を取得し、音空間特徴量に基づいて、対象音響の音源方向を推定し、音空間特徴量の3次以上の高次統計量を取得することにより音源方向の信頼度を推定する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、観測された音響信号から推定された音源方向の信頼性を推定する音響信号処理装置及び音響信号処理方法、並びにコンピュータに音源方向の信頼性を推定させるためのコンピュータプログラムに関する。
【背景技術】
【0002】
音源方向は、多チャネル音響信号処理において重要な情報である。従来、音源方向は種々の方法により推定され、例えば複数音源の分離、雑音除去、残響除去、及び音声区間検出等の音響処理技術において利用されている。
【0003】
実環境には多種多様な雑音源及び残響が存在し、それらが時々刻々と変化する。これらの外乱は、観測信号に不要な歪みを与え、音源方向推定に用いる音空間特徴量を歪ませることにより、音源方向の推定精度を低下させる。このような理由により、音源方向を正確に推定することは困難である。そこで、観測信号から雑音成分を除去して音源方向を推定する方法(非特許文献1参照)、対象信号(音源方向の推定対象である音響信号)の特徴又は雑音の特徴を利用して、音響の空間的な特徴を示す情報である音空間特徴量の耐雑音性を高め、音源方向を推定する方法(非特許文献2,3参照)等、実環境において高精度に音源方向を推定可能な方法が開発されている。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】S. F. Boll, "Suppression ofacoustic noise in speech using spectral subtraction," IEEE Trans. Acoust.,Speech, and Signal Process., vol. 27, no. 2, pp. 113-120, 1979.
【非特許文献2】M. Brandstein, "On the useof explicit speech modeling in microphone array applications," Proc. Intl.Conf. on Acoust., Speech, and Signal Process. (ICASSP'98), pp. 613-616, 1998.
【非特許文献3】M. Mizumachi and K. Niyada,"DOA Estimation Based on Cross-Correlation with FrequencySelectivity," RISP Journal of Signal Process., Vol. 11, No. 1, pp. 43-50,2007.
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、これらの従来の音源方向推定方法は、対象信号又は雑音について何らかの事前知識を必要とするという制約がある。例えば、非特許文献1及び3に開示されている方法にあっては、雑音のパワースペクトルが事前に既知であるか、推定可能である必要がある。また、非特許文献2に開示されている方法にあっては、対象信号を音声とする必要があり、しかも音声の基本周波数(声の高さに対応する物理量)が既知又は推定可能である必要がある。したがって、このような事前知識を取得できる環境でなければ、高精度に音源方向を推定することはできない。このように、推定した音源方向が正しい場合もあれば正しくない場合もあるため、従来の方法により推定した音源方向を利用して複数音源の分離、雑音除去、残響除去、及び音声区間検出等の音響処理を行うときには、間違った方向を音源方向としてしまい、適切な処理結果を得ることができない場合があった。
【0006】
本発明は斯かる事情に鑑みてなされたものであり、その主たる目的は、推定された音源方向の信頼度を得ることが可能な音響信号処理装置、音響信号処理方法、及びコンピュータプログラムを提供することにある。
【課題を解決するための手段】
【0007】
上述した課題を解決するために、本発明の一の態様の音響信号処理装置は、音源から発せられた対象音響を含む音響を捕捉して当該音響を示す音響信号を出力する複数のマイクロホンと、前記複数のマイクロホンから出力された音響信号に基づいて、前記音響の空間における特徴に関する音空間特徴量を取得する音空間特徴量取得手段と、前記音空間特徴量取得手段により取得された音空間特徴量に基づいて、前記対象音響の音源方向を推定する音源方向推定手段と、前記音空間特徴量取得手段により取得された音空間特徴量の3次以上の高次統計量を取得する高次統計量取得手段と、前記高次統計量取得手段により取得された高次統計量に基づいて、前記音源方向推定手段により推定された音源方向の信頼度を推定する信頼度推定手段と、を備える。
【0008】
この態様においては、前記高次統計量取得手段が、前記空間における前記音空間特徴量の分布状態を示すグラフにおける尖度を示す前記高次統計量を取得するように構成されていることが好ましい。
【0009】
また、上記態様においては、前記音空間特徴量取得手段が、前記音響において雑音の影響が少ないと推定される周波数を取得し、当該取得した周波数を中心としたバンドパスフィルタによって帯域制限を行った音響信号から音空間特徴量を抽出するように構成されていることが好ましい。
【0010】
また、上記態様においては、前記音空間特徴量取得手段が、前記マイクロホンから経時的に出力された音響信号を所定時間毎にフレーム化し、前記帯域制限を行った音響信号から抽出した音空間特徴量を尤度として用い、隣り合うフレーム間における音源方向の変化を示す音空間特徴量の動特性モデルに基づくパーティクルフィルタを用いて、対象フレームの1時刻前のフレームにおける音空間特徴量の状態から対象フレームの音空間特徴量を推定するように構成されていることが好ましい。
【0011】
また、上記態様においては、前記音空間特徴量取得手段が、同一の重さを有する複数の粒子を空間内に一様に配置する初期粒子分布設定手段と、式(1)によって示される動特性モデルにしたがって、式(2)によって示される重さ{w(l)l=1を有する粒子{Θ(l)l=1を生成することにより、時刻kにおける粒子の事前分布を取得する事前分布取得手段と、前記事前分布取得手段によって取得された事前分布における粒子を、重さが所定値以上のものはその重さに応じた数に分割し、重さが所定値未満のものは0とすることにより、時刻kにおける音空間特徴量を推定する音空間特徴量推定手段と、を具備することが好ましい。
【数1】

但し、xは時刻kにおける音響信号を、Θは時刻kにおける真の音源方向を、νは時刻kにおける平均0で分散σのガウス分布に従う雑音を、Nはガウス分布を、lは粒子番号を、Mは粒子数を示す。
【0012】
また、上記態様においては、前記高次統計量取得手段が、音空間特徴量として重みw(l)についての高次統計量を取得するように構成されていることが好ましい。
【0013】
また、上記態様においては、前記高次統計量取得手段が、音空間特徴量w(l)について、式(3)に示される高次統計量Skewnessを取得するように構成されていることが好ましい。
【数2】

【0014】
また、上記態様においては、前記高次統計量取得手段が、音空間特徴量w(l)について、式(4)に示される高次統計量Kurtosisを取得するように構成されていることが好ましい。
【数3】

【0015】
また、本発明の一の態様の音響信号処理方法は、複数のマイクロホンにより、音源から発せられた対象音響を含む音響を捕捉して当該音響を示す音響信号へ変換するステップと、変換された音響信号に基づいて、前記音響の空間における特徴に関する音空間特徴量を取得するステップと、取得された音空間特徴量に基づいて、前記対象音響の音源方向を推定するステップと、前記音空間特徴量の3次以上の高次統計量を取得するステップと、取得された高次統計量に基づいて、推定された音源方向の信頼度を推定するステップと、を有する。
【0016】
また、本発明の一の態様のコンピュータプログラムは、音源から発せられた対象音響を含む音響を捕捉して当該音響を示す音響信号へ変換する複数のマイクロホンに接続されたCPUに、前記複数のマイクロホンから出力された音響信号を処理させるためのコンピュータプログラムであって、前記複数のマイクロホンから出力された音響信号に基づいて、前記音響の空間における特徴に関する音空間特徴量を取得するステップと、取得された音空間特徴量に基づいて、前記対象音響の音源方向を推定するステップと、前記音空間特徴量の3次以上の高次統計量を取得するステップと、取得された高次統計量に基づいて、推定された音源方向の信頼度を推定するステップと、を前記CPUに実行させる。
【発明の効果】
【0017】
本発明に係る音響信号処理装置、音響信号処理方法、及びコンピュータプログラムによれば、推定された音源方向の信頼度を得ることが可能となる。
【図面の簡単な説明】
【0018】
【図1】実施の形態1に係る音響信号処理装置の構成を示すブロック図。
【図2】実施の形態1に係る音響信号処理装置の音響信号処理の流れを示すフローチャート。
【図3】実施の形態1に係る音源方向推定処理の手順を示すフローチャート。
【図4】音空間特徴量と音源方向推定値との関係を示すグラフ。
【図5】実施の形態3に係る音響信号処理装置の音響信号処理の流れを示すフローチャート。
【図6】拡散性雑音が存在する環境下における音源方向推定結果及び関連情報を示すグラフ。
【図7】方向性雑音が存在する環境下における音源方向推定結果及び関連情報を示すグラフ。
【図8】拡散性雑音が存在する環境下での各フレームにおけるESS、波高率、歪度、及び尖度の計算結果を示すグラフ。
【図9】方向性雑音が存在する環境下での各フレームにおけるESS、波高率、歪度、及び尖度の計算結果を示すグラフ。
【発明を実施するための形態】
【0019】
以下、本発明の好ましい実施の形態を、図面を参照しながら説明する。
【0020】
(実施の形態1)
図1は、本実施の形態に係る音響信号処理装置の構成を示すブロック図である。図1に示すように、音響信号処理装置1は、2つのマイクロホン2,2と、マイクロホン2,2に各別に接続された増幅器3,3と、増幅器3,3のそれぞれに接続されたA/D変換器4,4と、A/D変換器4,4に接続されたCPU5と、CPU5に接続されたROM51及びRAM52とを備えている。
【0021】
2つのマイクロホン2,2は、互いに10cmの距離を隔てて配置されている。これらのマイクロホン2,2は、周囲の音響を捕捉し、これに応じた電気信号である音響信号を出力する。マイクロホン2,2の周囲には、話者又はスピーカ装置等の音源6が発した音響(対象音響)並びに雑音及び残響等が生じており、マイクロホン2,2はこれらを含む音響を捕捉する。
【0022】
増幅器3,3には、マイクロホン2,2から出力された音響信号が各別に与えられる。増幅器3,3は、それぞれ与えられた音響信号を所定の増幅率により増幅し、増幅した音響信号を出力する。
【0023】
A/D変換器4,4には、増幅器3,3から出力された増幅後の音響信号が各別に与えられる。A/D変換器4,4は、アナログ信号である音響信号をデジタル信号へ変換し、変換後の音響データを内蔵するレジスタに格納する。
【0024】
CPU5は、ROM51に格納されたコンピュータプログラムを実行することが可能である。そして、音響信号処理用のコンピュータプログラム51aを当該CPU5が実行することにより、CPU5がA/D変換器4,4のレジスタに記憶された音響データを読み出し、後述するようなデータ処理を行う。
【0025】
ROM51は、マスクROM、PROM、EPROM、又はEEPROM等によって構成されており、CPU5に実行されるコンピュータプログラム及びこれに用いるデータ等が記録されている。すなわち、CPU5に後述する音響信号処理を実行させるためのコンピュータプログラム51aと、その実行において使用されるデータ51bとがROM51に記憶されている。このデータ51bには、後述する雑音モデルが含まれる。
【0026】
RAM52は、SRAMまたはDRAM等によって構成されている。RAM52は、CPU5がコンピュータプログラムを実行するときに、CPU5の作業領域として利用される。
【0027】
次に、本実施の形態に係る音響信号処理装置1の動作について説明する。音響信号処理装置1を起動すると、CPU5がROM51に記憶されているコンピュータプログラム51aを実行する。このとき、雑音モデルがROM51からRAM52へロードされる。この状態において、音響信号処理装置1は次のように動作する。
【0028】
図2は、本実施の形態に係る音響信号処理装置1の音響信号処理の流れを示すフローチャートである。マイクロホン2,2が捕捉した音響は、音響信号へ変換され、マイクロホン2,2から出力される。アナログ信号である音響信号は、増幅器3,3によりそれぞれ増幅され、増幅された音響信号がA/D変換器4,4によりデジタル信号へと変換され、変換後の音響データがA/D変換器4,4に内蔵されるレジスタに記憶される。かかる動作は所定のサンプリング周波数により繰り返し実行される。
【0029】
CPU5は、A/D変換器4,4のレジスタから音響データを読み出し、サンプリング周波数により切り出された音響信号をフレーム化する(ステップS1)。次に、CPU5は、音響信号をフーリエ変換し(ステップS2)、フーリエ変換後のデータにより、音響信号中に対象信号、即ち音源6が発した対象音響を示す信号が存在するか否かを判定する(ステップS3)。この処理では、対象信号のエネルギー密度はノイズ成分に比べて高いと考えられることから、エネルギー密度が突出して高い周波数がデータ中に存在するか否かを判定することにより行われる。
【0030】
ステップS3において対象信号が存在しない場合には(ステップS3においてNO)、そのフレームの音響信号は雑音のみを含んでいると考えられる。ここで、実環境に存在する雑音のうち、定常な雑音成分については、その周波数特徴は対象信号が存在しない区間で観測した平均の長時間平均パワースペクトルとして得ることができる。そこで、音響信号中に対象信号が存在しない場合には、CPU5は当該フレームの音響信号によりRAM52の雑音モデルを更新し(ステップS4)、処理をステップS1へ移す。
【0031】
雑音モデルは、次式(5)により与えられる。
【数4】

ここで、演算子F(・)はフーリエ変換を、演算子|・|はパワースペクトルの演算を表し、雑音モデルは時刻kから時刻kまでのパワースペクトルの平均値として与えられる。
【0032】
ステップS3において対象信号が存在する場合には(ステップS3においてYES)、周波数領域において音響信号(対象信号と雑音との混合信号)とRAM52の雑音モデルとの差分を求めることにより、対象信号が優勢な周波数を推定する(ステップS5)。これにより、最も雑音の影響を受けていないと考えられる、即ちSN比の高い周波数を得ることができる。
【0033】
次にCPU5は、ステップS5において推定した周波数を中心とした所定帯域幅のバンドパスフィルタに音響信号を通すことにより、音響信号の狭帯域幅信号を抽出する(ステップS6)。このように、音響信号より雑音の影響が少ない帯域における信号を抽出することにより、音空間特徴量の耐雑音性を向上させることが可能になる。なお、ここでは、マイクロホン2,2によって捕捉される雑音は時々刻々変化するため、そのパワースペクトルを厳密に推定することは困難であると考えられることから、音響信号と雑音モデルとの差分ではなく、A/D変換器4,4から読み出した音響信号に対してバンドパスフィルタを適用している。
【0034】
次に、CPU5は、音源方向推定処理を実行する(ステップS7)。定常雑音環境下において雑音モデルは有効であるが、たとえ対象信号が優勢である周波数においても、音空間特徴量には多かれ少なかれ雑音による歪みが生じる。そこで本実施の形態においては、音源モデルの導入により、更なる音空間特徴量の耐雑音性向上を図っている。対象信号を音声信号とすると、その周波数特徴は時変であり、周波数特徴の統計的性質も個人性の影響により一意に定めることは困難である。そこで、音源の時間的動きに着目する。つまり、音響信号を短時間フレームで切り出し、フレーム間での音源の動きをモデル化する。ここでは、物体の運動を記述するモデルとして最も汎用性が高いランダムウォークモデル(式(6))を採用する。
【数5】

ここで、Θは時刻kでの真の音源方向を表し、νは平均0で分散σのガウス分布に従う雑音である。式(6)は、物体が時間的に滑らかに移動することを表しており、分散σが小さいほど滑らかな移動軌跡を描くことを意味している。例えば、対象物体が自動車又はロケットの場合、等速運動又は等加速度運動として音源モデルを記述することが望ましい。対象音源が人の場合、フレーム長を数十ミリ秒と短く設定することにより、ランダムウォークモデルで音源の時間的移動を記述することは妥当である。
【0035】
ここで、音源の動特性モデルと雑音の周波数特徴モデルを組み合わせて音源方向推定を実現する手法について説明する。まず、時系列フィルタリングを考えるため、音源方向Θと観測信号(音響信号)xの時刻kまでの時系列を以下のように表記する。
【数6】

音空間特徴量としては、2つの観測信号間の相互相関(C. H. Knapp and
G. C. Carter, "The generalized correlation method for estimation of time
delay," IEEE Trans. Acoust., Speech, Signal Process., Vol. 24, pp.
320-327, 1976.)、及び音源数が既知の場合にはMUSIC法(R. O. Schmidt, "Multiple emitter location and signal parameter
estimation," IEEE Trans. Antennas Propagation, Vol. 34, No. 3, pp.
276-280, 1986.)がよく用いられる。ここでは、音空間特徴量を相互相関法に基づき計算する。但し、音空間特徴量p(Θ|x)を尤度p(x|Θ)(値域は[0,1]となる必要がある)として用いるために、相互相関値(値域は[−1,1])を半波整流したものを採用する。
【0036】
このとき、1時刻前の音空間特徴量の事後確率p(Θ1:k−1|x1:k−1)と時刻kでの尤度p(x|Θ)と式(6)に示した音源の動きを記述したシステムモデルp(Θ|Θk−1)を用いて、次式(8)に示す状態推定により、時刻1から時刻kまでを考慮した音空間特徴量の事後確率p(Θ1:k|x1:k)を得ることができる。
【数7】

【0037】
式(8)の状態推定は、プロポーザル分布としてシステムモデルを用いるブートストラップフィルタ(A. Doucet, J. F. G. de Freitas, and N. J. Gordon, Sequential Monte
Carlo Methods in Practice, Springer-Verlag, New York, 2001.)によるものである。現実の問題では、状態推定の際に非線形・非ガウス型の尤度を用いるため、式(8)を解析的に解くことはできない。そこで、本実施の形態においては、任意の確率分布を重み付き粒子の集合として表現するパーティクルフィルタを用いて状態推定を行う。パーティクルフィルタは、1期先予測と重みの更新、粒子の再分配(リサンプリング)を各時刻で行う。パーティクルフィルタによる状態推定と、それにより事後分布として推定される音空間特徴量を用いた音源方向推定アルゴリズムの具体的な手順を以下に示す。
【0038】
図3は、本実施の形態に係る音源方向推定処理の手順を示すフローチャートである。まず、CPU5は、粒子分布の予測及び重みの更新を行う(ステップS71)。この処理において、処理対象のフレームが最初のフレームである場合には、音源方向が未知であるため、1次元空間[−90deg.,90deg.]に一様に粒子{Θ(l)l=1を配置する。ここで、lは粒子番号、Mは粒子数を表す。初期フレームにおいては、粒子はすべて等しい重み{w(l)l=1=1/Mを持つものとする。一方、処理対象のフレームが2つめの以降のフレームである場合には、CPU5は、式(6)に示したシステムモデルにしたがって生成した粒子{Θ(l)l=1により、時刻kにおける粒子の事前分布を式(9)のように推定する。
【数8】

また、式(10)に示すように、各粒子の重み{w(l)l=1は、尤度p(x|Θ)にしたがって更新される。
【数9】

ここで、尤度は、雑音モデルを用いて推定した優勢な周波数において帯域制限された相互相関関数の半波整流値として計算される。
【0039】
次にCPU5は、各粒子が等しい重みを持つように、粒子を再分配(リサンプリング)する(ステップS72)。この処理では、所定値以上の重さを有する粒子はその重さに比例した数に分割され、所定値未満の重さを有する粒子は削除される。つまり、粒子の再分配により、大きな重みを持つ粒子は多数の粒子へ分割され、小さな重みを持つ粒子は消滅してしまう。リサンプリングされた重み付き粒子の集合は、次時刻におけるプロポーザル分布として利用される。またCPU5は、重み付き粒子の集合から、音空間特徴量を再構築(推定)する(ステップS73)。この音空間特徴量は、雑音モデルと音源モデルの両者を考慮して推定したものであるため、雑音による歪みは大幅に低減されているものと期待できる。
【0040】
図4は、音空間特徴量と音源方向推定値との関係を示すグラフである。図4において、縦軸は音空間特徴量の大きさとされ、横軸は角度とされている。音空間特徴量は、図4に示すように、観測信号から得られる音源方向の確率分布に比例するものと考えることができる。そこでCPU5は、次式(11)にしたがって、時刻kにおける音源方向Θを、音空間特徴量p(Θ|x)の最大値を与えるΘとして推定する(ステップS74)。その後CPU5は、処理をメインルーチンにおける音源方向推定処理の呼び出しアドレスへリターンする。
【数10】

【0041】
次にCPU5は、ステップS7において推定された音源方向の信頼度を推定する(ステップS8)。以下、この処理について詳細に説明する。まず、有効サンプル数に基づいた2次統計量と音源方向推定値の信頼度との関係について説明する。なお、ここでいう有効サンプル数とは、パーティクルフィルタにおいてリサンプリングの必要性を判断するために提案された尺度をいう(J. S. Liu and R. Chen, "Blind deconvolution via sequential
imputations," J. Amer. Stat. Assoc., vol. 90, pp. 567-576, 1995.)。
【0042】
有効サンプル数ESSは、M個の粒子の重み{w(l)l=1を用いて以下のように定義される。
【数11】

式(12)は、1次元空間における粒子の集中度を表している。つまり、粒子がある方向に集中していればESSは大きな値をとり、粒子が分散していればESSは小さな値をとる。音源方向推定問題では、音空間特徴量が単峰性であり、しかも主ローブが鋭いほど望ましい。したがって、ESSが大きいほど音源方向推定値の信頼性は高いと考えられる。
【0043】
実際に、本願発明者は、拡散性雑音(雑音源方向が明確でない場合)に対しては、ESSにより音源方向推定値の信頼度を推定できることを確認した(M. Mizumachi and K. Niyada, "Robust direction-of-arrival
estimation by particle filtering with confidence measure based on effective
sample size under noisy environments," Proc. Joint 4th Intl. Conf. on Soft
Computing and Intelligent Systems and 9th Intl. Sympo. on advanced Intelligent
Systems (SCIS&ISIS 2008), CD-ROM, 2008.を参照。)。しかし、方向性雑音(雑音源が鋭い指向性を持つ場合)には、ESSでは音源方向推定値の信頼度を推定することができないこともわかった。一般には、方向性雑音が存在すると、音空間特徴量は目的音源方向と雑音源方向に2つの極大値を有する。本実施の形態における推定方法により推定された、耐雑音性を向上させた音空間特徴量を用いると、雑音源方向のピークは相対的に小さくなるはずであるが、雑音源方向にも多少の粒子が分配されている可能性がある。式(12)で定められるESSは、全ての粒子の重みを評価するため、本来評価すべき目的音源方向付近に存在する粒子の重みのみならず、音源方向推定結果とは無関係な雑音源方向に分配された粒子の重みの影響を受ける。したがって、方向性雑音環境下では、ESSによる音源方向推定値の信頼度推定は望ましくない。
【0044】
そこで本実施の形態においては、3次以上の高次統計量を用いて音源方向推定値の信頼度を推定する。3次統計量としては、次式(13)で示される3次モーメント(3乗の期待値)である歪度(Skewness)を利用する。つまり、CPU5は歪度を音源方向推定値の信頼度として算出する。
【数12】

ここで、wrmsは全粒子の重みの実効値であり、wmeanは、全粒子の重みの平均値であり、それぞれ以下に示される。
【数13】

【0045】
歪度は、分布の非対称性を表す尺度であり、分布が対称であるほど0に近い値をとる。音源方向推定問題では、拡散性雑音環境下では雑音があらゆる方向から到来するため、本来は目的音源方向に集中しているべき粒子が、目的音源方向を中心に対称に分散している可能性がある。従って、歪度が低い場合には、拡散性雑音の存在により音空間特徴量に歪みが生じている可能性が疑われる。また、歪度は、音空間特徴量の尖度を示す指標ということもできる。このように、音空間特徴量の尖度を示す指標を用いれば、粒子が真の目的音源方向近傍にどの程度集中しているのかがわかるという理由により音源方向推定値の信頼度を高精度に推定することが可能と考えられる。
【0046】
CPU5は、上記のステップS8の処理を終了すると、ステップS1へと処理を戻す。
【0047】
CPU5は、このようにして得られた音源方向の推定値とその信頼度とを、図示しない表示部に表示することができる。また、これと共に、又はこれに代えて、音源方向の推定値及びその信頼度をそれぞれデータとして音響信号処理装置1の外部へ出力することもできる。
【0048】
また、CPU5は、推定した音源方向を他のアプリケーションに用いることもできる。例えば、複数音源の分離、雑音除去、残響除去、及び音声区間検出等の音響処理技術に利用することができる。ここで、推定された信頼度を所定の基準値と比較して、信頼度が基準値以上の場合には推定された音源方向を前記アプリケーションに利用し、信頼度が基準値未満の場合には推定された音源方向を前記アプリケーションに利用しないことができる。また、信頼度が基準値以上の場合には推定された音源方向を中心とした狭い範囲の音響信号を抽出して、抽出された音響信号を前記アプリケーションに利用し、信頼度が基準値未満の場合には推定された音源方向を中心とした広い範囲の音響信号を抽出したり、又は音響信号の観測方向制限を施さずに、その音響信号を前記アプリケーションに利用することができる。このようにすることにより、間違った方向を音源方向としてしまうことが抑制され、従来に比してより適切な処理結果を得ることが期待できる。
【0049】
(実施の形態2)
本実施の形態においては、音源方向の信頼度の推定処理において、3次以上の高次統計量として、次式(14)で示される4次モーメント(4乗の期待値)である尖度(Kurtosis)を利用する。つまり、CPU5は尖度を音源方向推定値の信頼度として算出する。
【数14】

【0050】
尖度は、分布の集中度を表す統計量であるため、音空間特徴量の単峰性を評価するために適した尺度として期待できる。式(12)で定義したESSも粒子の分布度合いを知るために提案された指標であるが、尖度は4次モーメントであるため、つまりESSよりも次数が高いため分布の集中度をより強調することが可能である。
【0051】
本実施の形態に係る音響信号処理装置のその他の構成及び動作については、実施の形態1に係る音響信号処理装置1の構成及び動作と同様であるため、その説明を省略する。
【0052】
(実施の形態3)
本実施の形態に係る音響信号処理装置の構成は、実施の形態1に係る音響信号処理装置1の構成と同様であるので、同一構成要素については同一符号を付し、その説明を省略する。
【0053】
本実施の形態に係る音響信号処理装置の動作について説明する。図5は、本実施の形態に係る音響信号処理装置の音響信号処理の流れを示すフローチャートである。まず、マイクロホン2,2が捕捉した音響は、音響信号へ変換され、マイクロホン2,2から出力される。アナログ信号である音響信号は、増幅器3,3によりそれぞれ増幅され、増幅された音響信号がA/D変換器4,4によりデジタル信号へと変換され、変換後の音響データがA/D変換器4,4に内蔵されるレジスタに記憶される。かかる動作は所定のサンプリング周波数により繰り返し実行される。
【0054】
CPU5は、A/D変換器4,4のレジスタから音響データ(音響信号)を読み出す(ステップS301)。対象音源s(t)がΘ方向に存在するとき、2つの異なる位置で観測された音響信号x(t)≡(x(t),x(t))は以下の式(15)のように表すことができる。
【数15】

ここで、h(t)及びh(t)は対象音源からそれぞれの観測点(マイクロホン2,2)までのインパルス応答であり、n(t)及びn(t)
はそれぞれの観測点における雑音であり、対象信号s(t)がそれぞれの観測点に到来するまでの時間差τ=τ−τは音源方向Θに応じて変化する。音源方向を1次元方向に限定すれば、τは音源方向Θと1対1に対応する。つまり、音源方向推定問題は、音響信号x(t)に内在する信号到来時間差τを推定する問題とみなすことができる。
【0055】
次に、CPU5は、観測信号x(t)から音空間特徴量p(Θ|x) を計算する(ステップS302)。音空間特徴量 は、観測信号x(t)から得られる音源方向Θの確率分布に比例するものと考えることができる(図4参照)。本実施の形態においては、音空間特徴量として、2つの観測信号間の相互相関を採用する。この他にも、音源数が既知の場合には、MUSIC法を用いて音空間特徴量を求めるてもよい。
【0056】
次に、CPU5は、次式(16)にしたがって、音空間特徴量p(Θ|x)の最大値を与えるΘとして音源方向Θを推定する(ステップS303)。
【数16】

【0057】
次にCPU5は、ステップS303において推定された音源方向の信頼度を推定する(ステップS304)。この処理においては、音源方向の信頼度として、音空間特徴量p(Θ|x)の歪度(Skewness)が算出される。なお、音源方向の信頼度として、音空間特徴量p(Θ|x)の尖度(Kurtosis)を算出する構成であってもよい。
【0058】
かかる構成とすることにより、音源方向の推定値の信頼度を簡易に得ることが可能となる。
【0059】
(評価実験)
本願発明者は、上記の実施の形態1及び2に係る音響信号処理方法における音源方向推定値の信頼度評価尺度の妥当性を検証するため、拡散性雑音及び方向性雑音環境下での音源方向推定結果と各信頼度評価尺度の振る舞いとの関係を調査する実験を行った。以下、この実験結果について説明する。
【0060】
対象信号は、TI−digit音声データベースより抜粋した女性による数字読み上げ音声であり、防音室内でスピーカより放射し、間隔10cmで配置した2つのマイクロホンで再収録したものである。対象音源は、連続的かつ滑らかに移動するものとした。雑音はホワイトノイズとし、拡散性雑音としては2つのマイクロホンでの観測信号間で無相関なホワイトノイズを対象信号へそれぞれ加算し、方向性雑音としては−15°方向に配置したスピーカから放射されたホワイトノイズを2つのマイクロホンで観測したものとした。
【0061】
音源方向推定に必要なパラメータとして、粒子数は500で固定し、式(6)のシステムノイズの分散σはそれぞれの雑音環境下で最適なものを設定した。
【0062】
図6は、拡散性雑音が存在する環境下における音源方向推定結果及び関連情報を示すグラフであり、図7は、方向性雑音が存在する環境下における音源方向推定結果及び関連情報を示すグラフである。各図の上段には、音源方向の推定結果を示すグラフを示している。これらの上段のグラフには、各フレームにおいて、真の音源方向を○印で、実施の形態3の方法で推定した音源方向を+印で、実施の形態1の方法で推定した音源方向を実線で示している。図6及び図7のそれぞれの中段には、実施の形態1の方法による音源方向推定誤差として、真の音源方向(○印)と音源方向推定値(実線)との差分を示している。図6及び図7のそれぞれの下段には、各フレームにおける信号対雑音比を示している。信号対雑音比は値が小さいほど雑音のエネルギーが相対的に大きいことを意味する。本実験においては、拡散性雑音が存在する環境下(以下、「拡散性雑音環境下」という。)及び方向性雑音が存在する環境下(以下、「方向性雑音環境下」という。)のそれぞれにおいて、音源方向を推定し、推定した音源方向の信頼度として、各フレームにおけるESS、波高率(Crest factor)、歪度(Skewness)、尖度(Kurtosis)を算出した。図8は、図6に対応しており、拡散性雑音環境下での各フレームにおけるESS、波高率(Crest factor)、歪度(Skewness)、尖度(Kurtosis)の計算結果を示している。図9は、図7に対応しており、方向性雑音環境下での各フレームにおけるESS、波高率(Crest factor)、歪度(Skewness)、尖度(Kurtosis)の計算結果を示している。
【0063】
ここで、波高率について説明する。波高率(Crest factor; CF)は、次式(17)で示される音空間特徴量の最大ピーク付近での粒子に着目した2次統計量であり、実効値に対する最大値の比である。
【数17】

ここで、w(max)は全粒子のうち重みが最大の粒子の重みである。
【0064】
図6及び図7に示すように、拡散性雑音環境下及び方向性雑音環境下の両方共、フレーム番号10〜20の間、つまり音源方向の角度が大きい領域において推定した音源方向の真の音源方向からの誤差が大きくなっている。
【0065】
図8に示すように、拡散性雑音環境下では、4つの音源方向推定結果の信頼性評価尺度(信頼度推定値)が同様に振る舞っている。即ち、全ての尺度において、フレーム番号10〜15の範囲で数値が落ち込んでいる。フレーム番号10〜15の範囲は上記の誤差が大きい領域に含まれていることから、図8の結果はどの尺度も誤差が大きい領域において信頼度が低いという推定結果が出ていることを示しており、何れの尺度においても正しく信頼性推定が働いていることがわかる。各信頼性評価尺度をより詳細に比較すると、3次及び4次統計量である歪度と尖度については、信頼度のダイナミックレンジが大きい(落ち込みの度合が大きい)ことがわかる。つまり、音空間特徴量の信頼性評価尺度としては、4つの尺度のすべてを利用できるが、3次以上の高次統計量を用いること望ましい。
【0066】
一方、方向性雑音環境下では、図9に示すように、2次統計量であるESS及び波高率に対して、3次以上の統計量である歪度と尖度は、まったく異なる振る舞いを示していることがわかる。即ち、ESS及び波高率については、フレーム番号10〜13の範囲において数値が突出しており、歪度及び尖度については、フレーム番号11〜15において数値が落ち込んでいる。これらの範囲は何れも上記の誤差が大きい領域に含まれていることから、図9の結果はESS及び波高率については誤差が大きい領域において信頼度が高いという間違った推定結果が出ており、歪度及び尖度については誤差が大きい領域において信頼度が低いという正しい推定結果が出ていることを示している。つまり、2次統計量(ESS及び波高率)は信頼度推定に失敗している。特定方向から到来する雑音源に対しては、音空間特徴量を近似した全粒子のばらつき度合いを表現したESS及び最大ピークに着目した波高率は、雑音の影響を強く受けて、本来評価すべき目的音源方向付近での粒子の集中度を表現できていないと推察される。これに対し、3次以上の統計量である歪度と尖度は、方向性雑音環境下でも拡散性雑音環境下とほぼ同様に、音源方向推定結果の信頼度を正しく推定できている。以上より、音源方向推定結果の信頼性評価尺度としては、3次以上の高次統計量に基づいたものを利用することが望ましいことがわかる。
【0067】
(その他の実施の形態)
なお、上述した実施の形態1〜3においては、音空間特徴量の3次又は4次の統計量を音源方向の信頼度とする構成について述べたが、これらに限定されるものではない。5次又は6次等、3次以上の統計量であればその次数は問わない。
【0068】
また、上述した実施の形態1〜3においては、音空間特徴量の3次以上の統計量を音源方向の信頼度として算出する構成について述べたが、これに限定されるものではない。音空間特徴量の3次以上の統計量を正規化するなど、前記統計量そのものではなく、前記統計量を適宜加工することにより得られる数値を音源方向の信頼度とする構成であってもよい。但し、この音源方向の信頼度は、前記統計量の増減に対応して増減する数値である必要がある。
【0069】
また、上述した実施の形態1及び2においては、バンドパスフィルタにより、雑音の影響が少ない帯域に音響信号の帯域制限を行った後、音空間特徴量を算出する構成について述べたが、これに限定されるものではない。バンドパスフィルタによる帯域制限を行っていない音響信号から音空間特徴量を導出してもよい。
【0070】
また、上述した実施の形態1及び2においては、A/D変換器4,4から読み出した音響信号に対してバンドパスフィルタを適用し、帯域制限を行う構成について述べたが、これに限定されるものではない。雑音のパワースペクトルが既知であるか、推定できる場合には、音響信号と雑音モデルとの差分に対してバンドパスフィルタを適用し、前記差分に対して帯域制限を行うことが、より雑音の影響を排除できる点で好ましい。
【0071】
また、上述した実施の形態1〜3においては、CPU5がコンピュータプログラム51aを実行することにより音響信号処理を行う構成について述べたが、これに限定されるものではない。同等の処理を行える構成であれば、ASIC(Application Specific Integrated Circuit)又はFPGA(Field Programmable Gate Array)により、コンピュータプログラムを実行することなく、そのハードウェア自体によって、音響信号処理を実行する構成としてもよいし、汎用のパーソナルコンピュータが備えるハードディスクに音響信号処理用のコンピュータプログラムをインストールし、当該パーソナルコンピュータのCPUが前記コンピュータプログラムを実行することにより、同等の音響信号処理を実行する構成としてもよい。
【産業上の利用可能性】
【0072】
本発明の音響信号処理装置、音響信号処理方法、及びコンピュータプログラムは、観測された音響信号から推定された音源方向の信頼性を推定する音響信号処理装置及び音響信号処理方法、並びにコンピュータに音源方向の信頼性を推定させるためのコンピュータプログラムとして有用である。
【符号の説明】
【0073】
1 音響信号処理装置
2 マイクロホン
3 増幅器
4 変換器
5 CPU
6 音源
51 ROM
51a コンピュータプログラム
51b データ
52 RAM

【特許請求の範囲】
【請求項1】
音源から発せられた対象音響を含む音響を捕捉して当該音響を示す音響信号を出力する複数のマイクロホンと、
前記複数のマイクロホンから出力された音響信号に基づいて、前記音響の空間における特徴に関する音空間特徴量を取得する音空間特徴量取得手段と、
前記音空間特徴量取得手段により取得された音空間特徴量に基づいて、前記対象音響の音源方向を推定する音源方向推定手段と、
前記音空間特徴量取得手段により取得された音空間特徴量の3次以上の高次統計量を取得する高次統計量取得手段と、
前記高次統計量取得手段により取得された高次統計量に基づいて、前記音源方向推定手段により推定された音源方向の信頼度を推定する信頼度推定手段と、
を備える、
音響信号処理装置。
【請求項2】
前記高次統計量取得手段は、前記空間における前記音空間特徴量の分布状態を示すグラフにおける尖度を示す前記高次統計量を取得するように構成されている、
請求項1に記載の音響信号処理装置。
【請求項3】
前記音空間特徴量取得手段は、前記音響において雑音の影響が少ないと推定される周波数を取得し、当該取得した周波数を中心としたバンドパスフィルタによって帯域制限を行った音響信号から音空間特徴量を抽出するように構成されている、
請求項1又は2に記載の音響信号処理装置。
【請求項4】
前記音空間特徴量取得手段は、前記マイクロホンから経時的に出力された音響信号を所定時間毎にフレーム化し、前記帯域制限を行った音響信号から抽出した音空間特徴量を尤度として用い、隣り合うフレーム間における音源方向の変化を示す音空間特徴量の動特性モデルに基づくパーティクルフィルタを用いて、対象フレームの1時刻前のフレームにおける音空間特徴量の状態から対象フレームの音空間特徴量を推定するように構成されている、
請求項3に記載の音響信号処理装置。
【請求項5】
前記音空間特徴量取得手段は、
同一の重さを有する複数の粒子を空間内に一様に配置する初期粒子分布設定手段と、
式(1)によって示される動特性モデルにしたがって、式(2)によって示される重さ{w(l)l=1を有する粒子{Θ(l)l=1を生成することにより、時刻kにおける粒子の事前分布を取得する事前分布取得手段と、
前記事前分布取得手段によって取得された事前分布における粒子を、重さが所定値以上のものはその重さに応じた数に分割し、重さが所定値未満のものは0とすることにより、時刻kにおける音空間特徴量を推定する音空間特徴量推定手段と、
を具備する、
請求項4に記載の音響信号処理装置。
【数1】

但し、xは時刻kにおける音響信号を、Θは時刻kにおける真の音源方向を、νは時刻kにおける平均0で分散σのガウス分布に従う雑音を、Nはガウス分布を、lは粒子番号を、Mは粒子数を示す。
【請求項6】
前記高次統計量取得手段は、音空間特徴量として重みw(l)についての高次統計量を取得するように構成されている、
請求項5に記載の音響信号処理装置。
【請求項7】
前記高次統計量取得手段は、音空間特徴量w(l)について、式(3)に示される高次統計量Skewnessを取得するように構成されている、
請求項6に記載の音響信号処理装置。
【数2】

【請求項8】
前記高次統計量取得手段は、音空間特徴量w(l)について、式(4)に示される高次統計量Kurtosisを取得するように構成されている、
請求項6に記載の音響信号処理装置。
【数3】

【請求項9】
複数のマイクロホンにより、音源から発せられた対象音響を含む音響を捕捉して当該音響を示す音響信号へ変換するステップと、
変換された音響信号に基づいて、前記音響の空間における特徴に関する音空間特徴量を取得するステップと、
取得された音空間特徴量に基づいて、前記対象音響の音源方向を推定するステップと、
前記音空間特徴量の3次以上の高次統計量を取得するステップと、
取得された高次統計量に基づいて、推定された音源方向の信頼度を推定するステップと、
を有する、
音響信号処理方法。
【請求項10】
音源から発せられた対象音響を含む音響を捕捉して当該音響を示す音響信号へ変換する複数のマイクロホンに接続されたCPUに、前記複数のマイクロホンから出力された音響信号を処理させるためのコンピュータプログラムであって、
前記複数のマイクロホンから出力された音響信号に基づいて、前記音響の空間における特徴に関する音空間特徴量を取得するステップと、
取得された音空間特徴量に基づいて、前記対象音響の音源方向を推定するステップと、
前記音空間特徴量の3次以上の高次統計量を取得するステップと、
取得された高次統計量に基づいて、推定された音源方向の信頼度を推定するステップと、
を前記CPUに実行させるためのコンピュータプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2011−139409(P2011−139409A)
【公開日】平成23年7月14日(2011.7.14)
【国際特許分類】
【出願番号】特願2010−238(P2010−238)
【出願日】平成22年1月4日(2010.1.4)
【出願人】(510005007)
【Fターム(参考)】