説明

パラメタ推定装置、音源分離装置、方向推定装置、それらの方法、プログラム

【課題】空間的エイリアジングの問題が生じても、適切な音源分離を行うための確率分布のパラメタを推定する。
【解決手段】複数の音源それぞれからの音源信号が混合され、2個の収音手段で収音された観測信号を周波数領域に変換することで周波数観測信号を生成し(30、S102)、前記周波数観測信号の前記収音手段間の位相差を計算し(34、S104)、前記位相差の分布に当てはまり、周波数依存性のある確率分布モデルのパラメタを推定する(200、S106)。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は複数の音源信号が混合された観測信号を例えば分離するために用いる確率分布モデルのパラメタを求めるパラメタ推定装置、求められたパラメタを用いた音源分離装置、方向推定装置、それらの方法、プログラムに関する。
【背景技術】
【0002】
従来技術の音源分離装置500の機能構成例を図1に示す。この従来技術の詳細は、例えば、非特許文献1に記載されている。N個の音源10(n=1、...、N)それぞれから同時に発せられる音源信号s(t)を2個の収音手段である第1収音手段21、第2収音手段22で、ある収録時間内(例えば、5秒間)に観測する。この観測状況を状況Xとする。この状況Xの下、第1収音手段21で収音された観測信号をx(t)とし、第2収音手段22で収音された観測信号をx(t)とし、観測された観測信号をX(t)=[x(t)、x(t)]とする。収音手段とは例えばマイクロホンのことであり、「」は行列の転置を表し、tを離散時刻とし、t=0、...、T−1とする。周波数領域変換部30は、観測信号X(t)を周波数領域に変換することで、周波数毎の時系列信号である観測信号ベクトルX(f,t)=[x(f,t),x(f,t)]に変換する。X(f,t)を以下では、周波数観測信号ベクトルという。周波数領域への変換は、例えば短時間フーリエ変換を用いれば良い。fは周波数を示し、f∈{0,f/F,...,(F−1)f/F}であり、fはサンプリング周波数を示し、Fは周波数帯域の数を示す。
ここで、周波数観測信号ベクトルは、以下の式(1)で表されると仮定する。
【0003】
【数1】

【0004】
ただし、j(=1,2)は収音手段のインデックスであり、j=1が第1収音手段21について示し、j=2が第2収音手段22について示し、hjn(f)は音源10から収音手段(第1収音手段21、第2収音手段22までの周波数応答を示し、s(f,t)は音源信号s(t)を周波数領域で表現した信号であり、以後では、周波数音源信号s(f,t)という。
【0005】
音源分離を行うために、音源がスパースである、すなわち、周波数音源信号s(f,t)はまれにしか大きな値をとらず、s(f,t)とsn’(f,t)(n≠n’)は各時間周波数スロット(f,t)で互いに重ならない、ということを仮定する。これは、互いに異なる音声信号などで確認される性質である。これを仮定すると前記式(1)は、
(f,t)≒hjn(f)s(f,t) (2)
となる。ここで、周波数音源信号s(f,t)は時間周波数スロット(f,t)にて支配的な音源信号である。
【0006】
また、上記式(1)における周波数応答hjn(f)が、音源信号s(t)が収音手段に到達する間に、部屋の影響を受けない、つまり、無響モデルであると仮定すると、以下の式(3)で表される。
【0007】
【数2】

【0008】
ここで、μ(f,t)は音源10が第1収音手段21と第2収音手段22に到達する時間差である。また、図2に第1収音手段21、第2収音手段22から見た音源の方向角度φ(f,t)について示す。図2からも明らかなように、
μ(f,t)=Dcosφ(f,t)/v (4)
となる。ただし、Dは第1収音手段21、第2収音手段22との距離であり、vは音速である。
【0009】
次に、位相差計算部34は、第1収音手段21で収音された周波数観測信号x(f,t)、第2収音手段22で収音された周波数観測信号x(f,t)の位相差dftを以下の式(5)により計算する。
ft=arg[x(f,t)/x(f,t)] (5)
ここで、前記式(2)(3)より音源10が支配的な時間周波数スロット(f,t)では以下の式(6)、(7)が成り立つ。
【0010】
【数3】

【0011】
次に、分類部70は、位相差dftを用いてクラスタリング処理を行う。まず、分類部70は、以下の式(8)により位相差dftを周波数fで正規化する。
【0012】
【数4】

【0013】
分類部70は、式(8)についてクラスタリングを行う。スパース性の仮定より定められる前記式(2)より、音源10だけが支配的な時間周波数(f,t)では時間差μ(f,t)が求まっており、音源10n’だけが支配的な時間周波数(f,t)では時間差μn’(f,t)が求まっているので、音源10の方向角度φ(f,t)と音源10n’の方向角度φn7(f,t)とが異なっていれば、両者を分類(クラスタリング)できる。そして、それぞれのクラスタが各音源成分に対応する。
【0014】
音源分離部72では、音源10に対応するクラスタを形成している時間周波数(f,t)では1をとり、それ以外の時間周波数では0をとるマスクL(f,t)を生成する。このマスクL(f,t)を全ての音源10について生成する。
【0015】
そして、音源分離部72は、マスクL(f,t)を観測信号の1つ(ここではx(f,t))に乗算することで、つまり以下の式(10)を演算することで、分離信号y(f,t)を得る。
(f,t)=x(f,t)L(f,t) (10)
そして、時間領域変換部74は、分離信号y(f,t)を時間領域に変換することで、時間領域分離信号y(t)を得る。
【先行技術文献】
【非特許文献】
【0016】
【非特許文献1】S.Araki、H.Sawada、R.Mukai、and S.Makino、”Underdetermined blind sparse source separation for arbitrarily arranged multiple sensors、”Signal Processing、vol.87、pp.1833−1847、Feb.2007.
【発明の概要】
【発明が解決しようとする課題】
【0017】
従来技術では、第1収音手段21および第2収音手段22との間の収音手段間隔Dが狭く、音源信号の周波数fが低い場合には、非特許文献1に記載されているように良好に動作する。しかし、収音手段間隔Dが広い場合や、周波数fが高い場合にはクラスタリング処理がうまく動作しないため、従来技術では適切に音源分離を行うことは難しかった。図3A〜Fに音源10が2つの場合、つまり、n=1,2となる場合に、収音手段間隔Dおよびサンプリング周波数fを変えた場合のクラスタリング処理の模様を示す。図3A〜Fにおいて、実線を音源10の音源信号を示し、破線を音源10の音源信号を示し、横軸はそれぞれの音源信号s(f,t)、音源信号s(f,t)の周波数fを示す。また、図3A、Bの縦軸はそれぞれ、サンプリング周波数fを8kHz、収音手段間隔Dを4cmとした(Dが狭い)場合の、位相差dft、正規化後の位相差dft/2πfを示し、図3C、Dの縦軸はそれぞれ、サンプリング周波数fを8kHz、収音手段間隔Dを10cmとした(Dが広い)場合の、位相差dft、正規化後の位相差dft/2πfを示し、図3E、Fの縦軸はそれぞれ、サンプリング周波数fを16kHz、収音手段間隔Dを4cmとした(Dが狭い)場合の、位相差dft、正規化後の位相差dft/2πfを示す。この図3を用いて、従来技術の問題点を説明する。
【0018】
図3Bに示すように、収音手段間隔Dが狭く、周波数fが低い場合には、全ての周波数fで、位相差dft/2πfが同じ値をとっており、これをクラスタリングすると2個のクラスタが形成され、適切に音源分離を行うことができる。
【0019】
一方、図3Dに示すように収音手段間隔Dが狭い場合には、f>3000Hzの範囲では、位相差dft/2πfが一定でなくなる。このようなdft/2πfをクラスタリングしても、音源ごとのクラスタは形成されず、適切に音源分離を行うことができない。この理由は、前記式(7)の右辺が収音手段間隔Dが大きいために±πの範囲を超えてしまうにも関わらず、式(6)のarg[x(f,t)/x(f,t)]の演算が−πからπの範囲の値を算出するためである。これを具体的に説明すると、dft=arg[x(f,t)/x(f,t)]のarg演算が−πからπの間の値しか返せないため
2πfμ(f,t)=dft+2πk (11)
=arg[x(f,t)/x(f,t)]+2πk
(12)
の関係を満たす−π<dft=arg[x(f,t)/x(f,t)]<πとして返されてしまうためである。これを「空間的エイリアジングの問題」や、「2πkの不定性がある」という。ここで、kはμ(f,t)の値が既知であれば、一意に決まる整数であり、不定性係数kという。ただし、一般的には、μ(f,t)の値は未知であるため、不定性係数kは推定すべき整数である。
【0020】
この空間的エイリアジングの問題は、図3E、図3F(特に、図3F)に示すように、収音手段間隔Dが狭くても(D=4cm)、周波数(図3Fの例では、周波数fが高くなる(周波数fが6000Hz以上)場合には、生じる問題である。
【0021】
このように従来技術では、空間的エイリアジングの問題が生じるような、収音手段間隔Dが狭く、周波数fが高くなる場合には、適切なクラスタリングができないため、良好な音源分離ができなかった。
【課題を解決するための手段】
【0022】
上記の課題を解決するために、この出願のパラメタ推定装置は、周波数領域変換部と、位相差計算部と、推定部と、を有する。周波数領域変換部は、複数の音源それぞれからの音源信号が混合され、2個の収音手段で収音された観測信号を周波数領域に変換することで周波数観測信号を生成する。位相差計算部は、周波数観測信号の収音手段間の位相差を計算する。推定部は、位相差の分布に当てはまり、周波数依存性のある確率分布モデルのパラメタを推定する。
【発明の効果】
【0023】
本発明のパラメタ推定装置により推定されたパラメタθを用いて、音源分離を行うことで、空間的エイリアジングの問題が生じる場合においても、良好に音源分離を行うことができる。
【図面の簡単な説明】
【0024】
【図1】従来の音源分離装置の機能構成例を示した図。
【図2】収音手段間距離Dなどを説明した図。
【図3】従来の音源分離装置のクラスタリングの様子を示した図。
【図4】本実施例のパラメタ推定装置の機能構成例を示した図。
【図5】本実施例のパラメタ推定装置の処理フローを示した図。
【図6】位相差の分布に正規分布モデルを当てはめることを示した図。
【図7】本実施例の推定部の機能構成例を示した図。
【図8】本実施例の推定部の処理フローを示した図。
【図9】本実施例の音源分離装置の機能構成例を示した図。
【図10】本実施例の方向推定装置の機能構成例を示した図。
【図11】実験を行った部屋を示した図
【図12】実験結果を示した図。
【発明を実施するための形態】
【0025】
以下に、発明を実施するための最良の形態を示す。なお、同じ機能を持つ構成部や同じ処理を行う過程には同じ番号を付し、重複説明を省略する。上述の課題を解決する音源分離装置については実施例2で説明し、実施例1では当該音源分離装置に用いられるパラメタ推定装置について説明する。実施例3では、当該パラメタ推定装置を用いた方向推定装置について説明する。
【実施例1】
【0026】
図4に実施例1のパラメタ推定装置100の機能構成例を示し、図5に処理フローを示す。このパラメタ推定装置100を用いた音源分離装置300の機能構成例を図9および実施例2に示す。また、前記状況Xの下、第1収音手段21で収音された観測信号x(t)および第2収音手段22で収音された観測信号x(t)は、周波数領域変換部30に入力される。周波数領域変換部30は、観測信号X(t)=[x(t),x(t)]を周波数領域に変換することで周波数観測信号(ベクトル)X(f,t)=[x(f,t),x(f,t)]を生成する(ステップS102)。
【0027】
周波数観測信号X(f,t)は入力作成部33に入力される。入力作成部33は、パワー推定部32および位相差計算部34とで構成される。パワー推定部32は以下の式(13)により時間周波数スロット(f,t)ごとにパワーaftを計算する。
ft=│x(f,t)│ ただしj=1,2 (13)
位相差計算部34は時間周波数スロット(f,t)ごとに、第1収音手段21と第2収音手段22との間の位相差dftを計算する(ステップS104)。具体的には、前記式(5)により計算する。念のため式(5)を以下に示す。
ft=arg[x(f,t)/x(f,t)] (5)
【0028】
次に、推定部200は、位相差dftの分布(ヒストグラム)に当てはまり、かつ、周波数依存性のある確率分布モデルのパラメタθを推定する(ステップS106)。換言すれば、各音源に対応するクラスタを確率分布モデル(例えば、正規分布)で当てはめる(近似するまたはモデル化する)場合のパラメタ推定を行う。「周波数依存性のある確率分布モデル」については後ほど詳細に述べる。また、推定した確率分布モデルのパラメタθは、例えば、以下で説明する音源分離処理(実施例2)や方向推定処理(実施例3)で用いる。以下の説明では、確率分布モデルとして正規分布を用いた場合の説明を行うが、用いる確率分布モデルは、正規分布モデルに限らない。
【0029】
ここでは、まず、各音源に対応するクラスタを正規分布モデルで当てはめる例の説明を行う。まず、音源数が1(クラスタが1個)の場合を考える。このとき、位相差dftの分布を書くと、図6Aに示すようになる。図6Aからも理解できるように、1つの山(=クラスタ)ができる。このクラスタに以下の式(14)で示される正規分布モデルを当てはめる。
【0030】
【数5】

【0031】
ここで、μは正規分布のパラメタθのうち「平均」を示し、σは正規分布のパラメタθのうち「分散」を示す。特に、μは前記式(3)で説明した、音源からの音が第1収音手段21、第2収音手段22に到達する時間の時間差であり、後述する正規分布モデルの当てはめを行うことで推定する値である。また上述の通り、kは不定性係数であり、後述する正規分布モデルの当てはめを行うことで推定する必要がある。また。Kは不定性係数kの最大値であり、周波数fによって異なる値をとりうる。具体的には、例えば、以下の式(15)で表される。
【0032】
【数6】

【0033】
また、全ての周波数fで同じ値(ただし、十分大きな値)を用いても良い。
次に、音源数が2以上(すなわちクラスタが2つ以上)の場合を考える。図6Bに音源数が2の場合の位相差dftの分布を示す。図6Bからも理解されるように、2つの山(=クラスタ)ができることがわかる。このクラスタにそれぞれ1つの正規分布モデルを当てはめることを考える。つまり、分布全体を以下の式(16)で示される混合正規分布モデルG(GMM)で当てはめることを考える。
【0034】
【数7】

【0035】
ここで、mは正規分布のインデックスを示しつまり、(m=1,...,M)であり、図6Bの例では、M=2となり、μはm番目の正規分布の平均を示し、σはm番目の正規分布の分散を示し、特に、μは音源からの音が第1収音手段21、第2収音手段22に到達する時間の時間差の後述する正規分布モデルの当てはめを行うことで推定する値である。また、αは、m番目の正規分布の混合重みであり、Σm=1α=1であり、0≦α≦1である。また、混合正規分布を構成するM個の正規分布をΨ(m=1,...,M)とし、正規分布の数M(以下、「混合数M」という。)は、音源数Nが既知の場合には、M=Nとすることができる。また、音源数が未知の場合には、Mを十分大きな数(例えば、M=10)を用いれば良い。本実施例では、複数音源の分離などの処理を行うために、位相差dftに当てはまる前記式(16)に示す混合正規分布を用いてパラメタθを推定する。以下、推定部200のパラメタθの推定処理について詳細に説明する。
【0036】
図7に推定部200の機能構成例を示し、図8に推定部200の処理フローを示す。パラメタθを混合正規分布の平均μ、分散σ、混合重みαをまとめたものを示し、つまり、θ=(μ,σ,α)=(μ,σ,α,...,μ,σ,α,...,μ,σ,α)となる。また、rを更新回数とし、θに更新回数の概念を付与したもの、つまり、r回更新したθをθとすると、θ=(μ,σ,α,...,μ,σ,α,...,μ,σ,α)となる。また、記憶部16には予め用いる正規分布モデルのモデル数Mと混合正規分布モデルの各パラメタの初期値θが記憶されている。事前分布情報保持部110には、ハイパーパラメタω(後述する)、重みパラメタcが保持されている。
【0037】
推定部200には、パワー推定部32よりのパワーaftが重み係数aftとして入力され、位相差計算部34よりの位相差dftも入力される。または全てのaftについてaft=1としても良く、この場合は、パワー推定部32はなくてもよい。また、重み係数aftを各時間周波数(f,t)における観測信号のパワーや信号の瞬時的SN比などとすることも出来る。従って、パワー推定部32を設けない場合であっても、重み係数aftを入力部35から入力することができる。
【0038】
まず、初期設定として、r=0(つまり更新回数が0)、r=0のときの混合正規分布のパラメタθの値、用いる正規分布のモデル数M、不定性係数kの範囲であるK、更新回数閾値Rまたは差閾値Δ(後述する)を設定する(ステップS2)。更新回数閾値Rまたは差閾値Δは、後述する収束判定処理の際に用いられる。これらの初期設定は、入力部35からの入力により行われる。
【0039】
事後確率計算部12は、位相差dftと、現在の確率分布モデル(混合正規分布モデル)のパラメタθ(=(μ,σ,α m=1,...,M))から、M個の正規分布Ψごとに事後確率p(m,k│dft,θ)を計算する(ステップS6)。またパラメタ保持部18には、現在の混合正規分布のθが保持されている。事後確率計算部12は具体的には例えば、以下の式(17)(18)により計算する。
【0040】
【数8】

【0041】
次に、更新部14は、位相差dftと事後確率p(m,k│d,θ)を用いて、現在の混合正規分布の各パラメタθを更新する(ステップS8)。以下、更新処理について詳細に説明する。更新部14は更新処理の際に、ハイパーパラメタω、重みパラメタcを事前分布情報保持部110から取り出す。この実施例では、音源数Nが未知、つまり、正規分布の数Mが未知の場合であっても、適用可能にするために、正規分布のパラメタθの混合重みαに適切な事前分布を与え、例えばEMアルゴリズムにてパラメタθの更新処理を行う。この実施例1では、混合重みαの事前分布として、ディリクレ分布を考える。ディリクレ分布の詳細は、参考文献1である「C.M.ビショップ著(元田、栗田他訳) 「パターン認識と機械学習(上)」、シュプリンガー・ジャパン2007年 p.74−p.77」等に記載されている。ディリクレ分布は例えば以下の式(19)で表される。
【0042】
【数9】

【0043】
ここで、αは混合重み行列であり、α={α,...,α,...,α}で表され、Σα=1、0≦α≦1という条件を満たす。これは混合正規分布のパラメタである混合重みの条件と同じであることに注意されたい。またβ(ω)は正規化項(ベータ分布)であり、ここで、ハイパーパラメタωを1より小さい正の値(例えば、0.9)に設定すると、αのごく少数のみが十分に大きな値を持ち、残りは0に近い値をとるようになる。求められたαを前記式(16)で用いられている混合重みαの事前分布として用いることで、混合正規分布モデルGのうちの少数の正規分布のみに十分大きな混合重みがかかり、その他の正規分布モデルの混合重みは0に近くなる。結果として、なるべく少数の正規分布による当てはめが可能である。従って、1つのクラスタに複数の正規分布が当てはまるような現象を防ぐことが出来、音源数未知数の場合でも、それぞれのクラスタに1つずつ正規分布を当てはめることができる。
【0044】
次に、この事前分布を含みながら、パラメタ更新を行うためのEMアルゴリズムを導出する。ここで、正規分布のインデックスmと不定性係数kは位相差dftから推定すべき変数であるため、EMアルゴリズムにおける隠れ変数として扱う。これにより不定性係数kは隠に自動推定されるため、位相差dftにおける2πkの不定性を自動的に扱うことが可能になる。まず、最尤推定のためのコスト関数L(θ)は次のように与えられる。
【0045】
【数10】

【0046】
また、重みパラメタcは、式(22)の第1項と第2項の重みをコントロールするパラメタであり、上述のように、事前分布情報保持部110に保持される。
【0047】
【数11】

【0048】
となる。ここで、式(24)のE[H]は式Hの期待値を示し、式(25)中のp(m,k│dft,θ)は式(18)で表される事後確率分布である。
【0049】
【数12】

【0050】
図7中の更新部14中の平均更新手段142が式(26)より現在の平均μを更新することで更新後の平均μr+1を出力する。分散更新手段144が式(27)より分散(σを更新することで更新後の分散(σr+1を出力する。混合重み更新手段146が式(28)により混合重みαを更新することで更新後の混合重みαr+1を出力する。パラメタ算出手段が、更新後の平均μr+1、分散(σr+1、混合重みαr+1についての更新後のパラメタθr+1を算出する(ステップS8)。
【0051】
各パラメタの更新処理が数回行われ(ステップS4)、更新部14内の収束判定手段150は、更新されたθr+1に対して、予め定められた規則により、各パラメタ値が収束しているか否かの収束判定を行う(ステップS10)。各パラメタ値が収束していると判断した場合には、更新されたパラメタθr+1を出力する。また、各パラメタ値が収束していないと判断した場合には、更新されたパラメタθr+1を現在の確率分布モデルの平均、分散、混合重みとしてパラメタ保持部18に保持させる。を繰り返す。そして、収束判定手段150が、各パラメタ値が収束していると判断するまで、ステップS4〜ステップS10の処理(平均更新手段142、分散更新手段144、混合重み更新手段146の処理)を繰り返す。
【0052】
ここで収束判定に用いる予め定められた規則の例を説明する。更新回数閾値Rを用いる例を説明すると、更新部14内のカウント手段(図示せず)は更新回数rをカウントし、更新回数rが更新回数閾値R(例えば30)を超えた場合には、十分更新しており、収束していると判断して、パラメタ算出手段148は、更新後のパラメタθを出力する。また、差閾値Δを用いる例を説明すると、以下の式(29)の式を満たす場合には、収束していると判断して、パラメタ算出手段148は、更新後のパラメタθを出力する。
│Q(θ│θr+1)−Q(θ│θ)│<Δ (29)
このようにして、推定部200は、各音源に対応するクラスタを正規分布モデルで当てはめたときのパラメタθ=(μ,σ,α)を出力する。
【0053】
この実施例1では混合重みαのみに事前分布を導入したが、各ガウス分布の平均μと分散σに対しても事前分布を導入することで、より精度の高い混合正規分布の当てはめを実現できる。また、各ガウス分布の各パラメタである平均μ、分散σ、混合重みα、に事前分布を導入した場合の当てはめ処理には、EMアルゴリズムの他、不定性係数kを隠に自動推定するアルゴリズムであれば、何でも良い。これらの拡張は当業者であれば、上記参考文献1などを参照すれば、容易に実現できるため、ここでは省略する。
【0054】
また、音源数Nが既知であり、混合数M=Nとできれば、前記式(19)で示されるディリクレ分布を用いる必要はない。すなわち、この場合には、前記式(28)でハイパーパラメタω=1とすればよい。例えば、ユーザが入力部35から音源数Nが既知であるか未知であるかを示す情報である音源数情報を入力し、音源数情報が既知である旨の情報であれば、ディリクレ分布を用いず、音源数情報が未知である旨の情報であれば、ディリクレ分布を用いれば良い。
【0055】
図3で説明したように、空間的エイリアジングの影響は周波数毎に異なる、つまり、周波数依存性があるといえる。よって、確率分布モデルでモデル化する場合には、この周波数依存性を考えることが必要である。
【0056】
これを式(14)(16)に示す混合正規分布モデルについて検討する。特にexp項の分子の式「−(dft+2πk−2πfμ」を検討すると、まず、2πkについては、上述したように、パラメタ推定は例えばEMアルゴリズムを用いて行うが、この際、不定性係数kはEMアルゴリズムにおける隠れ変数として扱うことができる。よって不定性係数kはEMアルゴリズムでデータから(確率的に)自動推定されるため、位相差dftの2πkの不定性を自動的に扱うことができる。また、dftについては式(11)、(12)の通り、周波数領域の観測信号x(f,t)、x(f,t)の位相差であるため、周波数依存性のある値であるといえる。2πfμについても周波数fを含んでいるので、周波数依存性のある値であるといえる。つまり、式(14)(16)に示す混合正規分布モデルは、周波数依存性のあるモデルであるといえる。また、推定部200で用いる確率分布モデルは、周波数依存性があれば、式(14)(16)に限らない。
【0057】
また、式(11)において、実測値(観測された値)は式(11)の右辺に示すdft+2πkであり、当てはめ後(モデル化後)の値は、式(11)左辺の2πfμ(f,t)である。式(16)のexp項の分子「(dft+2πk−2πfμ」は、実数値とモデル化後の値との二乗誤差(モデル化誤差)を意味するとも捉えることができる。観測された位相差dftのヒストグラムに当てはまる正規分布は、このモデル化誤差を最も小さくする正規分布ということになり、前記式(26)〜(28)を用いて、当該正規分布を求めている。
【0058】
従来技術では、前記式(8)に示すように、dft/2πfのように、周波数正規化した量をクラスタリングしていた。そのため、図3D、Fに示すように、正しくクラスタリングできなかった。しかし、本実施例では、周波数依存性のあるdftの分布をそのまま前記式(16)で示す混合正規分布に当てはめる。具体的には、本実施例のパラメタ推定装置100は、前記式(11)(12)で与えられる空間的エイジアリングの問題(2πkの不定性)を陽に定式化し、位相差dftのヒストグラムに当てはまり、周波数依存性のある混合正規分布(式(14)や式(16))のパラメタを求める。この求められたパラメタを用いて例えば音源分離を行うと、周波数依存性の高い空間的エイリアジングの問題を扱うことが可能となり、適切な音源分離などを行うことができる。
【0059】
また、このパラメタ推定装置100で求められたパラメタθは、実施例2で説明する音源分離処理や、実施例3で説明する音源方向推定処理のほか、様々な観測信号処理に用いられる。
【実施例2】
【0060】
この実施例2では、実施例1で説明したパラメタ推定装置100により推定されたパラメタθを用いて、音源分離を行う音源分離装置について説明する。図9に実施例2の音源分離装置300の機能構成例を示す。またパラメタ推定装置で推定されたパラメタθを決定後パラメタという。
【0061】
パラメタ推定装置100よりの決定後パラメタθは有効音源推定部40に入力される。有効音源推定部40は、音源に該当する確率分布モデルを示す音源該当情報を求める。有効音源推定部40による音源該当情報の生成手法は以下の3つの手法により求められる。ここで、音源該当情報とは、例えば、音源に該当する確率分布モデルのインデックスmをいう。
【0062】
まず、第1の手法として、音源数Nが既知であり、パラメタ推定装置100で用いられる混合正規分布の混合数M=Nとしている場合には、混合正規分布を構成する全ての正規分布が音源に該当するので、全ての正規分布のインデックスm(=1,...,M)を出力する。また音源数Nが未知の場合には、下記の第2手法、第3の手法により求められる。
【0063】
第2の手法として、有効音源推定部40は、決定後パラメタθの混合重みα(m=1,...,M)のうち、混合重みが予め定められた第1閾値ε1(例えば10−6)よりも大きな値である正規分布を音源に該当する正規分布と判断して、当該正規分布(以下、「音源該当正規分布」という。)のインデックスm’を出力する。何故なら、パラメタ推定装置100の演算が十分収束している場合には、決定後パラメタθの中の混合重みαのうち十分大きな値を持つ個数は位相差dftのヒストグラム中の分布の山の個数と等しくなるからである。また、音源該当正規分布の数をM’(つまり、m’=1,...,M’)とする。
【0064】
また、第3の手法として、第2の手法においてパラメタ推定装置100の演算が十分に収束していない場合は、有効音源推定部40は、次のような推定処理を行うことが好ましい。有効音源推定部40は、混合重みαが第1閾値ε1よりも大きく、かつ分散σが予め定められた第2閾値ε2(例えばπ/5)よりも小さい正規分布を音源に該当する正規分布と判断して、音源該当正規分布のインデックスm’を音源該当情報として出力する。
【0065】
また、音源数Nが既知であるか未知であるかについての情報である音源数情報(つまり、第1の手法を用いるか、または第2、第3の手法を用いるか)は、ユーザに入力部47から入力させればよい。
【0066】
次に、マスク作成部42は、音源該当情報(ここでは、音源該当正規分布のインデックスm’)が示す確率分布モデル(正規分布モデル)を周辺化することでマスクΩm’(f,t)を作成する。マスクΩm’(f,t)は、各音源該当正規分布Ψm’ごとに、かつ、各時間周波数スロット(f,t)ごとに求められる。具体的には、M’個の音源該当正規分布に関する事後確率p(m’,k│dft,θ)を周辺化することで、周辺化事後確率p(m’│d,θ)(=マスクΩm’(f,t))を求める。
【0067】
【数13】

【0068】
式(30)中のp(m’,k│dft,θ)については、マスク作成部42がパラメタ推定装置100中の事後確率計算部12から前記式(18)の結果を抽出すればよい。
【0069】
そして、分離部44は、周波数観測信号にマスクΩm’(f,t)を乗算することで、分離信号ym’(f,t)を求める。具体的には以下の式(31)により分離信号ym’(f,t)を求める。例えば、分離部44は、マスクΩm’(f,t)を観測信号の1つ(ここでは、周波数観測信号x(f,t))に乗算し、分離信号ym’(f,t)を得る。つまり、以下の式(31)により求められる。
m’(f,t)=x(f,t)Ωm’(f,t) (31)
分離部44よりの分離信号ym’(f,t)は、時間領域変換部46に入力される。そして、時間領域変換部46は、分離信号ym’(f,t)を時間領域に変換して時間領域分離信号ym’(t)を求め、出力する。
【0070】
ここで、従来の音源分離装置500(図1参照)と、実施例2の音源分離装置300(図9参照)の対応関係を以下に示す。
音源分離装置500の音源分離部72
→音源分離装置300のマスク作成部42と分離部44を統合したもの
音源分離装置500の周波数領域変換部30と位相差計算部34と分類部70を統合
したもの→音源分離装置300のパラメタ推定装置100
また、従来の音源分離装置500では、音源数が既知である場合が多いため、音源分離装置500は、音源分離装置300の有効音源推定部40に対応するものを有していなかった。
【0071】
このように、実施例1で説明したパラメタ推定装置100により推定されたパラメタは周波数依存性の高い空間的エイリアジングの問題を扱うことができるパラメタである。この実施例2の音源分離装置300は、パラメタ推定装置100で推定されたパラメタθを用いて音源分離を行うことから、空間的エイリアジングの問題が生じるような条件下であっても、適切な音源分離を行うことができる。
【実施例3】
【0072】
実施例1で説明したパラメタ推定装置100により推定されたパラメタθを用いて、音源の方向を推定することもできる。この実施例3では、実施例1で説明したパラメタ推定装置100を用いた、音源の方向を推定する方向推定装置400を説明する。図10に方向推定装置400の機能構成例を示す。方向推定部60は、有効音源推定部50と方向出力部52とで構成されている。
【0073】
パラメタ推定装置100よりの決定後パラメタθは、有効音源推定部50および方向出力部52に入力される。有効音源推定部50は、実施例2で説明したように、音源に該当する確率分布モデルを示す音源該当情報(例えば、音源該当正規分布のインデックスm’)を求める。有効音源推定部50の処理が終了すると、方向出力部52は、音源該当方向情報分布モデルのインデックスm’{m’=1,...,M’}に対応する平均μ’をパラメタ推定装置100から取り出し、推定すべき音源方向として当該平均μ’を抽出する。この平均μ’は、前記式(4)の左辺のμ(f,t)に相当する。従って、方向出力部52は、前記式(4)の右辺のφを求めるために、以下の式(32)を行う。
φm’=arccos(μm’・v/D) (32)
【0074】
このように、実施例1で説明したパラメタ推定装置100により推定されたパラメタは周波数依存性の高い空間的エイリアジングの問題を扱うことができるパラメタである。この実施例3の方向推定装置400は、パラメタ推定装置100で推定されたパラメタθを用いて音源の方向推定を行うことから、空間的エイリアジングの問題が生じるような条件下であっても、適切な音源の方向推定を行うことができる。
【0075】
[実験結果]
次に、実施例2で説明した音源分離装置(以下、「本願法」という。)と従来技術で説明した音源分離装置(以下、「従来法」という。)との効果の違いを説明する。まず、図11を用いて、実験条件について説明する。長手方向4.45m(=Lb、以下、「長手辺」という。)、短手方向3.55m(=La、以下、「短手辺」という。)、高さ2.5mの室内に、第1収音手段21、第2収音手段22が部屋の短手方向に一直線上に配置されている。第1収音手段21と第2収音手段22との収音手段間隔Dは20cmである。第1収音手段21と第2収音手段22(この実験例では両方ともマイクロホン)とを結ぶ線分の中央の点をCとする。点Cから部屋の短手方向の辺までの距離Lbは2.25mとし、点Cから部屋の長手方向の辺までの距離Lcは1.75mとする。点Cを中心とし、半径0.55mの円をRとし、図11記載の円Rの円周上に3つの音源(スピーカ)を配置させる。詳細には、点Cを通り長手辺と垂直に交わる直線と、円Rとが交わる箇所を角度0度とした場合に、時計と反対周りの円周方向の様々な角度(図11では、45度、90度、135度)に配置させる。マイクロホンは高さは1.39mとし、スピーカの高さは1.35mとし、サンプリング周波数を16kHzとした。これは、音源信号の周波数が850Hz以上で空間的エイリアジング現象が起こる条件である。
【0076】
図12に従来法と本願法の音源分離性能を信号対妨害音比(Signal to interference ratio:SIR)の改善量を評価した。この実験では、3つのスピーカの配置角度や音声組み合わせを20通り変更し、それぞれの場合のSIRを求め、平均した値を評価した。図12からも明らかなように、従来法ではSIR改善平均量は5.1dBであるが、本願法では、10.6dBとなり、本願法の方がSIR改善平均量が大きく、本願法は従来法よりも制度の高い音源分離を可能とすることが理解されよう。
【0077】
<ハードウェア構成>
本発明は上述の実施の形態に限定されるものではない。また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
【0078】
また、上述の構成をコンピュータによって実現する場合、パラメタ推定装置100、音源分離装置300、方向推定装置400、が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、処理機能がコンピュータ上で実現される。
【0079】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記憶しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記憶装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよいが、具体的には、例えば、磁気記憶装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
【0080】
また、このプログラムの流通は、例えば、そのプログラムを記憶したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0081】
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記憶されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
【0082】
また、本実施例で説明したパラメタ推定装置100、音源分離装置300、方向推定装置400、は、CPU(Central Processing Unit)、入力部、出力部、補助記憶装置、RAM(Random Access Memory)、ROM(Read Only Memory)及びバスを有している(何れも図示せず)。
【0083】
CPUは、読み込まれた各種プログラムに従って様々な演算処理を実行する。補助記憶装置は、例えば、ハードディスク、MO(Magneto-Optical disc)、半導体メモリ等であり、RAMは、SRAM(Static Random Access Memory)、DRAM (Dynamic Random Access Memory)等である。また、バスは、CPU、入力部、出力部、補助記憶装置、RAM及びROMを通信可能に接続している。
【0084】
<ハードウェアとソフトウェアとの協働>
本実施例の単語追加装置は、上述のようなハードウェアに所定のプログラムが読み込まれ、CPUがそれを実行することによって構築される。以下、このように構築される各装置の機能構成を説明する。
パラメタ推定装置100、音源分離装置300、方向推定装置400、の入力部、出力部は、所定のプログラムが読み込まれたCPUの制御のもと駆動するLANカード、モデム等の通信装置である。その他の構成部は、所定のプログラムがCPUに読み込まれ、実行されることによって構築される演算部である。記憶部は前記補助記憶装置として機能する。

【特許請求の範囲】
【請求項1】
複数の音源それぞれからの音源信号が混合され、2個の収音手段で収音された観測信号を周波数領域に変換することで周波数観測信号を生成する周波数領域変換部と、
前記周波数観測信号の前記収音手段間の位相差を計算する位相差計算部と、
前記位相差の分布に当てはまり、周波数依存性のある確率分布モデルのパラメタを推定する推定部と、を有するパラメタ推定装置。
【請求項2】
請求項1記載のパラメタ推定装置であって、
前記推定部は、
現在の前記確率分布モデルの各パラメタを保持するパラメタ保持部と、
前記推定部は、前記位相差と、前記現在の確率分布モデルの各パラメタと、を用いて確率分布モデルごとに事後確率を計算する事後確率計算部と、
確率分布モデルの各パラメタ値を更新する更新部と、を有するパラメタ推定装置。
【請求項3】
請求項1または2記載のパラメタ推定装置と、
音源に該当する確率分布モデルを示す音源該当情報を求める有効音源推定部と、
前記音源該当情報が示す確率分布モデルごとのマスクを作成するマスク作成部と、
前記周波数観測信号に前記マスクを乗算することで、分離信号を求める分離部と、
前記分離信号を時間領域に変換する時間領域変換部と、を有することを特徴とする音源分離装置。
【請求項4】
請求項1または2記載のパラメタ推定装置と、
音源に該当する確率分布モデルを示す音源該当情報を求める有効音源推定部と、
前記音源該当情報が示す確率分布モデルの平均を出力する方向出力部と、を有することを特徴とする方向推定装置。
【請求項5】
複数の音源それぞれからの音源信号が混合され、2個の収音手段で収音された観測信号を周波数領域に変換することで周波数観測信号を生成する周波数領域変換過程と、
前記周波数観測信号の前記収音手段間の位相差を計算する位相差計算過程と、
前記位相差の分布に当てはまり、周波数依存性のある確率分布モデルのパラメタを推定する推定過程と、を有するパラメタ推定方法。
【請求項6】
請求項5記載のパラメタ推定方法であって、
前記推定過程は、
現在の前記確率分布モデルの各パラメタを保持するパラメタ保持過程と、
前記推定過程は、前記位相差と、前記現在の確率分布モデルの各パラメタと、を用いて確率分布モデルごとに事後確率を計算する事後確率計算過程と、
確率分布モデルの各パラメタ値を更新する更新過程と、を有するパラメタ推定方法。
【請求項7】
請求項5または6記載のパラメタ推定方法の各過程と、
音源に該当する確率分布モデルを示す音源該当情報を求める有効音源推定過程と、
前記音源該当情報が示す確率分布モデルごとのマスクを作成するマスク作成過程と、
前記周波数観測信号に前記マスクを乗算することで、分離信号を求める分離過程と、
前記分離信号を時間領域に変換する時間領域変換過程と、を有することを特徴とする音源分離方法。
【請求項8】
請求項5または6記載のパラメタ推定方法の各過程と、
音源に該当する確率分布モデルを示す音源該当情報を求める有効音源推定過程と、
前記音源該当情報が示す確率分布モデルの平均を出力する方向出力過程と、を有することを特徴とする方向推定方法。
【請求項9】
請求項5または6記載のパラメタ推定方法、または請求項7記載の音源分離方法、または請求項8記載の方向推定方法の各過程をコンピュータに実行させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate


【公開番号】特開2010−187066(P2010−187066A)
【公開日】平成22年8月26日(2010.8.26)
【国際特許分類】
【出願番号】特願2009−28270(P2009−28270)
【出願日】平成21年2月10日(2009.2.10)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】