説明

音源分離装置、音源分離方法及びプログラム

【課題】到達時間差δを効率的に推定する方法を与え全探索操作を不要とし、高速な音源分離技術を提供する。
【解決手段】周波数領域の観測信号xf,t=[xf,t,L,xf,t,Rから、到達時間差δf,kと雑音のパワースペクトルσと音源スペクトルsf,t,kと音源存在確率p(k|θ)とを推定する。観測信号xf,tが音源kに帰属する期待値を示す事後確率をmf,t,kとし、二個のマイクの間隔をDとし、原信号の速度をcとし、φ=sinc(2πfD/c)とし、ξf,t,k=[xf,t,R−φ(xt,t,L−sf,t,k)]とし、スペクトルsf,t,k及びξf,t,kの位相をそれぞれψsk及びψξkとし、到達時間差δf,k


として推定する。推定された到達時間差δf,kが内包する±πの不定性を補正する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は信号処理の技術分野に属する。特に本発明は複数の原信号がノイズとともに混合され、二個のマイクで観測される状況で、観測信号からそれぞれの原信号を推定し、分離抽出する音源分離技術に関する。特に、原信号やそれらがどのように混ざったかの情報を用いずに複数の原信号とノイズとが混在している観測信号のみから、それぞれの原信号を推定する、ブラインド音源分離技術に属する。
【背景技術】
【0002】
非特許文献1が音源分離の従来技術として知られている。非特許文献1では、音源kから発せられる原信号の、二個のマイクへの到達時間差δ
【0003】
【数1】

【0004】
として推定している。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】和泉洋介,小野順貴,嵯峨山茂樹,“スパースな混合モデルに基づく雑音・残響環境下の劣決定ブラインド音源分離”,電子情報通信学会総合大会講演論文集,2008年3月
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、従来技術では、到達時間差δの解析的な更新式は与えられていないため、多くの計算コストを要する全探索操作によって、到達時間差δを推定する必要がある。
【0007】
本発明は、到達時間差δの性質に着目し、到達時間差δを効率的に推定する方法を与え、従来技術において必要であった全探索操作を不要とし、高速な音源分離技術を提供することを目的とする。
【課題を解決するための手段】
【0008】
上記の課題を解決するために、本発明の第一の態様によれば、複数の原信号がノイズとともに混合され、二個のマイクで観測される状況で、観測信号からそれぞれの原信号を分離抽出する。原信号の音源のインデックスをkとし、周波数領域の観測信号xf,t=[xf,t,L,xf,t,Rから、二個のマイクへの原信号の到達時間差δf,kと雑音のパワースペクトルσと原信号のスペクトルsf,t,kと音源存在確率p(k|θ)とを推定する。観測信号xf,tと推定されたパラメタθ={δf,k,σ,sf,t,k,p(k|θ)}とから分離信号yf,t,kを生成する。観測信号xf,tが音源kに帰属する期待値を示す事後確率をmf,t,kとし、二個のマイクの間隔をDとし、原信号の速度をcとし、φ=sinc(2πfD/c)とし、ξf,t,k=[xf,t,R−φ(xt,t,L−sf,t,k)]とし、スペクトルsf,t,k及びξf,t,kの位相をそれぞれψsk及びψξkとし、到達時間差δf,k
【0009】
【数2】

【0010】
として推定する。推定された到達時間差δf,kが内包する±πの不定性を補正する。
【発明の効果】
【0011】
本発明は、到達時間差δを効率的に推定する方法を与え、高速な音源分離ができるという効果を奏する。
【図面の簡単な説明】
【0012】
【図1】第一実施形態に係る音源分離装置の機能ブロック図。
【図2】第一実施形態に係る音源分離装置の処理フローを示す図。
【図3】Eステップ計算部の機能ブロック図。
【図4】Mステップ計算部の機能ブロック図。
【図5】パラメタ推定部の処理フローを示す図。
【図6】シミュレーションを行った環境を示す図。
【図7】図7Aは音源数が2つの場合のシミュレーション結果を、図7Bは音源数が3つの場合のシミュレーション結果を示す図。
【図8】音源スペクトル推定部の処理を時間差推定部の処理の前に行う場合のMステップ計算部の機能ブロック図。
【発明を実施するための形態】
【0013】
以下、本発明の実施形態について説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。
【0014】
<第一実施形態に係る音源分離装置1>
図1は本実施形態に係る音源分離装置1の機能ブロック図を、図2はその処理フローを示す。
【0015】
音源分離装置1は周波数領域変換部11とパラメタ推定部12と分離信号生成部13と時間領域変換部14とを含み、さらにパラメタ推定部12はEステップ計算部121とMステップ計算部122とを含む。
【0016】
まず、観測信号について説明する。信号原(以下「音源」とも言う)がK個あり、k(k=1,2,…,K)を音源のインデックスとし、音源kから発せられる信号(以下「原信号」という)をs(t)とする。複数の原信号s(t),・・・,s(t)がノイズとともに二個のマイクL,Rで観測される状況で、マイクLで観測される時間領域の観測信号をx(t)とし、マイクRで観測される時間領域の観測信号をx(t)とし、二個のマイクL,Rで観測される時間領域の観測信号をx(t)=[x(t),x(t)]とする。「」は転置を表す。tはフレーム番号及びそのフレーム番号に対応する時刻を表す。Tを時間フレームの総数とすると、t=0,1,…,T−1である。ここで周波数領域の観測信号をxf,t=[xf,t,L,xf,t,Rと表記する。なお、fはサンプリング周波数fをF等分した離散点であり、f∈{0,f/F,…,(F−1)f/F}である。以降、断りのない場合、観測信号とは、周波数領域の観測信号xf,t=[xf,t,L,xf,t,Rを指し、時間領域の観測信号の場合はそれを明記する。
ここで、観測信号は、
【0017】
【数3】

【0018】
と表されると仮定する。ここで、sf,t,kは原信号s(t)のスペクトル(以下「音源スペクトル」ともいう)を、nf,k=[nf,k,L,nf,k,R]はマイクL,Rにおける加算的雑音を表す。またbf,k=[bf,k,L,bf,k,Rは音源kに関するステアリングベクトル(音源kの方向を特定するベクトルであり、方向ベクトルともいう)であり、原信号s(t)のマイクL、Rへの到達時間差をδとすると、
【0019】
【数4】

【0020】
である(非特許文献1参照)。本実施形態では、原信号の観測時間内においては、音源及びマイクは固定されており、またK個の音源は全て、異なる位置に配置されているとする。すなわち、ステアリングベクトルbf,kは時間tに依らず、kの値によって異なる値を取るものと仮定する。音源分離の目的は、観測信号xf,tのみを用いて、全ての音源スペクトルsf,t,kを推定することである。
【0021】
本実施形態に係る音源分離装置1は、時間領域の観測信号x(t)=[x(t),x(t)]を入力とし、時間領域の分離信号(推定された各原信号)y(t)を出力する。以下、各部の処理内容を説明する。
【0022】
<周波数領域変換部11>
まず、周波数領域変換部11は、マイクL、Rで収音した時間領域の観測信号x(t)=[x(t),x(t)]を入力とし、これを短時間フーリエ変換等により周波数領域の観測信号xf,t=[xf,t,L,xf,t,Rに変換し(s1)、パラメタ推定部12及び分離信号生成部13に出力する。
【0023】
<パラメタ推定部12>
次に、パラメタ推定部12は、観測信号xf,tから、音源分離のために必要なパラメタθを推定する(s2)。なおθ={δf,k,σ,sf,t,k,p(k|θ)}であり、δf,kは原信号の、二個のマイクへの到達時間差を表す。σは雑音のパワースペクトルを、sf,t,kは音源スペクトルを、p(k|θ)は音源存在確率(混合信号中の音源kの寄与率)を表す。
【0024】
本実施形態では、上記パラメタを推定するために、以下の2つの仮定を用いる。
【0025】
(仮定1)は、雑音nが、平均0、共分散行列σの正規分布に従う定常雑音でモデル化できるという仮定である。ここでσは周波数fにおける雑音のパワーであり、Vは例えば拡散性雑音の場合
【0026】
【数5】

【0027】
で与えられる(非特許文献1参照)。ここでcは原信号の速度(音速等)、Dは二個のマイクの間隔である。
【0028】
(仮定2)は、原信号がスパースな信号(つまり、成分のうち0でないもの(非零の成分)がまばらである信号、言い換えると、ほとんどの(または多くの)成分が0である信号)であるという仮定である。すなわち、ある時間周波数(f,t)において、たかだか1つの原信号のみが支配的であると仮定する。(仮定2)によると、式(2)は
【0029】
【数6】

【0030】
と表記できる(非特許文献1参照)。
上記(仮定1)、(仮定2)に基づけば、到達時間差δf,kとなる方向に存在する音源kから発せられる原信号が到来してxf,tが観測される尤度は、
【0031】
【数7】

【0032】
で与えられる(非特許文献1参照)。「」はエルミート転置を表す。ここでbf,kは式(3)で表される。これより、到達時間差δf,k、音源スペクトルsf,t,k及び雑音のパワースペクトルσは、対数尤度関数
【0033】
【数8】

【0034】
を最大化するパラメタとして最尤推定により求める(非特許文献1参照)。但し、上記において、p(k|δf,k,σ,sf,t,k)は音源存在確率を表し、混合信号中の音源kの寄与率であり、
【0035】
【数9】

【0036】
である(非特許文献1参照)。
具体的には、期待値最大化法(以下「EMアルゴリズム」ともいう)を適用し、Q関数
【0037】
【数10】

【0038】
を最大とするパラメタθ={δf,k,σ,sf,t,k,p(k|θ)}を、以下のEステップ及びMステップの繰り返しにより求める(非特許文献1参照)。ここでmf,t,kは後述する式(11)で、p(xf,t|k,θ’)は前述の式(6)で与えられ、θ’は、1回前の繰り返しで得られているパラメタを意味する。
【0039】
この繰り返し計算を、パラメタ推定部12にて行なう。以下、パラメタ推定部12の処理の詳細を説明する。
【0040】
図3はEステップ計算部121の機能ブロック図を、図4はMステップ計算部122の機能ブロック図を、図5はパラメタ推定部12の処理フローを示す。
【0041】
まず、パラメタ推定部12は、各パラメタを初期化する(s20)。パラメタのうちσ、δf,k、及びp(k|θ)を初期化する。例えば、σ=|xf,t=0,L,δf,k=(D/c)cosα(cは原信号の速度(音速等)、Dはマイク間隔,αは音源kの方向の初期値(−π/2〜π/2の間の適当な値)),p(k|θ)=1/Kとする。さらに、初期化したパラメタδf,kとxf,t=0とを用いて、式(3)及び後述する式(19)に基づき、sf,t,kを初期化する。更新回数n=0とする。なお、最大更新回数N及び収束判定閾値Δは、当該装置の設計者や利用者等により予め設定されているものとする。
【0042】
Eステップ計算部121は事後確率推定部1211とQ関数計算部1212とを含む(図3参照)。Mステップ計算部122は時間差推定部1221と音源スペクトル推定部1222と雑音パワー推定部1223と音源存在確率推定部1224とを含み、時間差推定部1221はさらに逆正接計算部12211と時間補正部12212とを備える(図4参照)。事後確率推定部1211とQ関数計算部1212とにおける処理を併せてEステップと呼び、時間差推定部1221と音源スペクトル推定部1222と雑音パワー推定部1223と音源存在確率推定部1224とにおける処理を併せてMステップと呼ぶ。
【0043】
(事後確率推定部1211)
Eステップ計算部121の事後確率推定部1211は、観測信号xf,tと、一回前の繰り返しで得られているパラメタθ’(但し、一回前の繰り返しで得られているパラメタθ’が存在しない場合、つまり、一回目の事後確率推定においては、前述の初期化したパラメタ)とを入力とし、これらの値を用いて事後確率mf,t,k=p(k|xf,t,θ’)を以下の式(11)により求め(s22)、Q関数計算部1212とMステップ計算部122とに出力する。
【0044】
【数11】

【0045】
なお、p(xf,t|k,θ’)は式(6)により与えられる。なお、事後確率mf,t,kは観測信号xf,tが音源kに帰属する事後確率を表す。
【0046】
(逆正接計算部12211)
Mステップ計算部122の時間差推定部1221の逆正接計算部12211は、観測信号xf,tと、事後確率mf,t,kと、一回前の繰り返しで得られているパラメタθ’(より詳しく説明するとθ’のうちの音源スペクトルsf,t,kである。但し、一回前の繰り返しで得られているパラメタθ’が存在しない場合、つまり、一回目の逆正接計算においては、前述の初期化したパラメタ)とを入力とし、これらの値を用いて、到達時間差δf,k(より詳しく言うと到達時間差δf,kに2πfを乗じた値2πfδf,k)を以下の式(13)により推定し(s25)、時間補正部12212に出力する。
【0047】
【数12】

【0048】
ψsk(但し添え字skはsを表す)及びψξk(但し添え字ξkはξを表す)は、それぞれsf,t,k及びξf,t,kの位相を表す。なお、式(13)の導出については後述する。
【0049】
なお、従来技術では式(1)に基づきδを離散全探索によって推定するため多くの計算コストを要していたが、本実施形態では式(13)に基づきδf,kを算出するため全探索を要せず計算コストを小さくできる。また、式(13)に基づき周波数f毎に到達時間差δf,kを求める点が従来技術とは異なる。
【0050】
(時間補正部12212)
Mステップ計算部122の時間差推定部1221の時間補正部12212は、観測信号xf,tと、事後確率mf,t,kと、一回前の繰り返しで得られているパラメタθ’(但し、一回前の繰り返しで得られているパラメタθ’が存在しない場合、つまり、一回目の時間補正においては、前述の初期化したパラメタ)とを入力とし、これらの値を用いて、式(13)にて推定した到達時間差δf,kが内包する±πの不定性を補正する(s26)。この補正は、式(13)の左辺2πfδf,kが−πからπの値を取るのに対し、式(13)の右辺の逆正接が−π/2からπ/2の値しか返すことができないため、2πfδf,kが−π〜−π/2及びπ/2〜πの範囲を取る場合の値を正しく求めるために必要である。式(13)で得られた値を2πfδ’f,kと記載すると、補正は以下のように行なう。
【0051】
【数13】

【0052】
ここでξf,t,k、φはそれぞれ式(14)、(15)で与えられ、ψsk(但し添え字skはsを表す)、ψξk(但し添え字ξkはξを表す)はそれぞれsf,t,k及びξf,t,kの位相を表す。なお、式(17)、(18)の導出については後述する。
【0053】
さらに、時間補正部12212は、補正した値2πfδf,kを2πfで除算し、到達時間差δf,kを求め、音源スペクトル推定部1222と雑音パワー推定部1223とQ関数計算部1212とに出力する。
【0054】
(音源スペクトル推定部1222)
Mステップ計算部122の音源スペクトル推定部1222は、到達時間差δf,kと観測信号xf,tを入力とし、これらの値を用いて、音源スペクトルsf,t,kを以下の式(19)により推定し(s27)、雑音パワー推定部1223とQ関数計算部1212とに出力する。
【0055】
【数14】

【0056】
ここで、bf,k、Vはそれぞれ式(3)、(4)で表される。
【0057】
(雑音パワー推定部1223)
Mステップ計算部122の雑音パワー推定部1223は、到達時間差δf,kと音源スペクトルsf,t,kと観測信号xf,tと事後確率mf,t,kとを入力とし、これらの値を用いて、雑音のパワースペクトルσを以下の式(20)により推定し(s28)、Q関数計算部1212に出力する。
【0058】
【数15】

【0059】
なお、Tは時間フレームの総数である。
【0060】
(音源存在確率推定部1224)
Mステップ計算部122の音源存在確率推定部1224は、事後確率mf,t,kを入力とし、音源存在確率を以下の式(21)により推定し(s29)、Q関数計算部1212に出力する。
【0061】
【数16】

【0062】
(Q関数計算部1212)
Eステップ計算部121のQ関数計算部1212は、観測信号xf,tと、パラメタθ={δf,k,σ,sf,t,k,p(k|θ)}と、事後確率mf,t,kと、を入力とし、これらの値を用いてQ関数を上述の式(10)により求める(s30)。
【0063】
s20〜s30までの処理を終えると、パラメタ推定部12は、(条件1)Q関数の値の変化量(|Q(θ|θn−1)−Q(θ|θ)|)が所定の収束判定閾値Δより小さくなるか、または、(条件2)更新回数nが所定の最大更新回数N(例えばN=20)以上か否かを判定する(s31)。
【0064】
パラメタ推定部12は、(条件1)、(条件2)の何れかを満たしたときは、パラメタ推定部12はその時点で取得している最新の事後確率mf,t,kと到達時間差δf,kを分離信号生成部13に出力する。
【0065】
パラメタ推定部12は、(条件1)、(条件2)の何れも満たさないときは、EステップとMステップを繰り返す(s31、s21)。なお、図示しない記憶部にパラメタθとQ関数の値Q(θ|θ)とを記憶しておき、次の繰り返しの際に用いる。
【0066】
<分離信号生成部13>
分離信号生成部13は、事後確率mf,t,kと到達時間差δf,kと観測信号xf,tとを入力とし、以下の式(22)により、分離信号yf,t,kを生成し(s3)、時間領域変換部14へ出力する。
【0067】
【数17】

【0068】
なお、音源スペクトルsf,t,kは、音源の発する原信号のスペクトルを推定したものであるが、この音源スペクトルを単純に時間領域の信号に変換した場合には、他の音源の発する原信号が残ることがある。上述の式(22)によって、音源kの発する原信号のみを抽出、分離することができる。
【0069】
<時間領域変換部14>
時間領域変換部14は、分離信号yf,t,kを入力とし、周波数領域変換部11において行った周波数領域変換方法に対応する時間領域変換方法(例えば短時間フーリエ逆変換)で、分離信号yf,t,kを時間領域の分離信号y(t)に変換し(s4)、音源分離装置1の出力値として出力する。
【0070】
<本実施形態のポイント>
以下、本実施形態のポイントを説明し、式(13)、(17)、(18)の導出方法を説明する。
【0071】
本実施形態では、
(性質1)到達時間差δf,kがRチャネルとLチャネルの位相差に影響を与える値であること
(性質2)位相差が周期的な値を取る量であること
という2つの性質を利用して、到着時間差δf,kを推定する。ここで(性質1)は、式(2)にてノイズnf,tが十分に小さい場合を考えれば明らかである。(性質2)は、ある2つの位相を表わす量の差Θが、−π≦Θ<πの範囲の値だけではなく、Θ±2πM(Mは任意の整数)という周期的な不定性を内包する値を取る性質を持つことを意味する。
【0072】
(性質2)について、さらに以下にて説明を行なう。式(6)
【0073】
【数18】

【0074】
の右辺における、expのカッコの中のベクトル及び行列x,b,Vを、それぞれの成分で表して整理すると、
【0075】
【数19】

【0076】
となる(Cはδf,kに依らない定数)。式(32)は、位相や角度の分布のように周期的な値を取る変数に対する分布であるVon Mises分布
【0077】
【数20】

【0078】
と同じ形をしていることが分かる(参考文献1参照)。
[参考文献1]C.M.ビショップ著,元田ら訳,“パターン認識と機械学習(上)”,シュプリンガー・ジャパン,2006.
【0079】
ここで−π<x≦π、μは分布の平均(−π<μ≦π)、κ>0は分布の集中度パラメタ(正規分布での(1/分散)に相当)、I(x)は0次の第1種ベッセル関数である。
【0080】
すなわち、式(33)の変数xが式(32)のψξk−ψskに対応し、式(33)の平均μが式(32)の2πfδf,kに対応し、式(33)の集中度κが式(32)の(|ξf,t,k||sf,t,k|)/(σ(1−φ))に対応する。
【0081】
説明をより直感的にするため、雑音のパラメタがφ=0である場合を考える(これは、雑音が式(4)に示す拡散性雑音ではなく、分散σのガウス雑音が観測x,xにそれぞれ乗ることを意味する)。このとき、式(14)によりξf,t,k=xf,t,Rとなるため、式(32)において、ψξkはψxf,t,R(但し、添え字xf,t,Rはxf,t,Rを表し、ψxf,t,RはマイクRの観測信号xf,t,Rの位相を表す)となる。また、式(3)、(5)により(但し式(5)においてnf,t=0)、sf,t,k=xf,t,Lとなるため、式(32)においてψskはψxf,t,L(但し、添え字xf,t,Lはxf,t,Lを表し、ψxf,t,LはマイクLの観測信号xf,t,Lの位相を表す)となる。また、前述の通りξf,t,k=xf,t,Rであり、式(3)、(5)よりxf,t,R=ej2πfδk,f・sf,t,k(但し、eの添え字δk,fはδk,fを表す)となるため、式(32)において、|ξf,t,k|=|ej2πfδk,f・sf,t,k|=|sf,t,k|となる。よって、式(32)は
【0082】
【数21】

【0083】
となる。これとVon Mises分布との解釈を合わせると、
(1)RチャネルとLチャネルの位相差ψxf,t,R−ψxf,t,Lという周期的な値を取る変数の分布が、平均μ=2πfδf,kを取る、
(2)Von Mises分布の集中度κが、SN比|sf,k,t/σに対応するようになる。すなわち、SN比が低い(条件が悪い)と、RチャネルとLチャネルの位相差の値の集中度が下がる(=分散が大きくなる)。これは、SN比が低い条件においては位相差の測定値がばらつく現象と対応する、
の2点が言える。
【0084】
本実施形態では、(性質1)、(性質2)を利用しており、実施の手続きとしては、RチャネルとLチャネルの位相差に関する量が、周期的な値を取る変数に対する分布であるVon Mises分布で表現できることに着目し、Von Mises分布のパラメタに対する最尤推定により、分布の平均値μ=2πfδf,kを推定することで、信号到達時間差パラメタδf,kを推定する。
【0085】
式(31)のp(xf,t|k,θ)をQ関数の式(10)に代入し、
【0086】
【数22】

【0087】
を解くことで、式(13)が得られる。
また時間補正部12212における関数Fの式(17)、(18)は、Q関数の2階微分
【0088】
【数23】

【0089】
である。時間補正部12212では、式(13)で得られた解δ’f,kがQ関数の極大値・極小値のどちらを与えるかを、F(2πfδ’f,k)の値の正負にて調べ、δ’f,kが極小値を与える場合に、上述の+πまたは−πの補正を行なう。
【0090】
<効果>
従来法においては、時間差推定部において解析的な更新式が与えられていなかったため、多くの計算コストを要する全探索操作が必要であった。よって、時間差推定部の計算コストを削減し、高速な音源分離手段を提供することが課題である。本実施形態では、到着時間差δf,kが、マイクRとマイクLの位相差に影響を与える値であることと、位相差が周期的な値を取る性質を持つことに着目し、到着時間差δf,kを推定する。これにより、従来必要であった全探索操作が不要となるため、高速な音源分離手段を提供することが可能となる。
【0091】
<シミュレーション結果>
発明の効果を示すため実験を行なった。図6に示す部屋において、音源数は2つ(70度と150度)又は3つ(30,70,150度)とした。音源は、英語話者音声を用い、音源数2及び3の場合それぞれにおいて10通りの音源組合せにて実験を行なった。
【0092】
雑音としては、平均0、共分散行列σ(Vは式(4)により与えられる)のガウスノイズをSN比約25dBにて重畳した。部屋の残響時間は130ms、サンプリング周波数は8kHz,短時間フーリエ変換の窓長及びシフト長はそれぞれ64ms,16msとした。
【0093】
従来法では到達時間差δを推定する際に、音源位置Θ(図6参照)を0度から180度まで1度きざみで変化させ、それに対応する181種類の到達時間差δの値について全探索を行なった。
【0094】
図7に、SIR(信号対雑音比、雑音には他話者音声含む)、SDR(信号対歪み比)、及びパソコン(IntelXeon(登録商標)X5650 2.67GHz(6Core)×2CPU)における計算時間を示す。図7Aは音源が二つの場合(70度と150度)を、図7Bは音源が三つの場合(30度,70度,150度)を示す。SIRとSDRは大きな値であるほど良い性能であることを示す。数字は、10通りの音源組合せの平均値である。図7A、Bに示す通り、本実施形態は、1/10程度の計算時間で、従来法とほぼ同程度の分離性能を達成できることが見てとれる。
【0095】
<その他の変形例>
本実施形態のポイントは上述の通り、到達時間差の推定方法である。従って、他の処理やパラメタの推定方法については、上記の実施形態に限定されるものではなく、他の従来技術を用いてもよい。
【0096】
本実施形態では、各部間で直接データを受け渡しているが、図示しない記憶部を介して、各データを読み書きしてもよい。
【0097】
また、本実施形態では、雑音パワー推定部1223は音源スペクトルsf,t,kを音源スペクトル推定部1222から取得しているが、到達時間差δf,kと観測信号xf,tとを用いて式(19)に基づき雑音パワー推定部1223で計算する構成としてもよい。
【0098】
本実施形態では、拡散性雑音の場合を想定しているが、他の特性を持つ雑音であってもよい。その場合、雑音の特性に応じて、式(4)や式(15)のsinc(2πfD/c)を適宜変更すればよい。
【0099】
分離信号生成部13は、事後確率mf,t,kと音源スペクトルsf,t,kとを入力とし、式(22)に代えて、以下の式により、分離信号yf,t,kを生成してもよい。
【0100】
【数24】

【0101】
この場合、パラメタ推定部12は、Q関数の値の変化量(|Q(θ|θn−1)−Q(θ|θ)|)が所定の収束判定閾値Δより小さくなったとき、または、更新回数nが所定の最大更新回数N以上になったとき(s31)に取得している最新の事後確率mf,t,kと音源スペクトルsf,t,kを分離信号生成部13に出力する。このような構成により、式(22)と同様に分離信号yf,t,kを生成することができる(式(19)参照)。
【0102】
Mステップの計算順序は、本実施形態の計算順序に限らない。例えば、時間差推定部1221と音源スペクトル推定部1222の計算順序はどちらを先に行ってもよい。図8は音源スペクトル推定部1222の音源スペクトル推定処理(s27)を行った後に、時間差推定部1221の到達時間差推定処理(s25、s26)を行う場合の機能ブロック図を示す。以下、図8を用いて説明する。
【0103】
Mステップ計算部122の音源スペクトル推定部1222は、一回前の繰り返しで得られているパラメタθ’(より詳しく説明するとθ’のうちの到達時間差δf,kである。但し、一回前の繰り返しで得られているパラメタθ’が存在しない場合、つまり、一回目の音源スペクトル計算においては、前述の初期化したパラメタ)と観測信号xf,tを入力とし、これらの値を用いて、音源スペクトルsf,t,kを式(19)により推定し、雑音パワー推定部1223とQ関数計算部1212と時間差推定部1221と時間補正部12212とに出力する。
【0104】
Mステップ計算部122の時間差推定部1221の逆正接計算部12211は、観測信号xf,tと、事後確率mf,t,kと、音源スペクトルsf,t,kとを入力とし、これらの値を用いて、到達時間差δf,kを式(13)により推定し、時間補正部12212に出力する。
【0105】
Mステップ計算部122の時間差推定部1221の時間補正部12212は、観測信号xf,tと、事後確率mf,t,kと、音源スペクトルsf,t,kと、一回前の繰り返しで得られているパラメタθ’(より詳しく説明するとθ’のうちの雑音のパワースペクトルσである。但し、一回前の繰り返しで得られているパラメタθ’が存在しない場合、つまり、一回目の時間補正においては、前述の初期化したパラメタ)とを入力とし、これらの値を用いて、式(13)にて推定した到達時間差δf,kが内包する±πの不定性を式(16)に基づき補正する。さらに、時間補正部12212は、補正した値2πfδf,kを2πfで除算し、到達時間差δf,kを求め、雑音パワー推定部1223とQ関数計算部1212とに出力する。
【0106】
上述の構成とすることで、第一実施形態と同様の効果を得ることができる。なお、同様に、一回前の繰り返しで得られているパラメタθ’のうちの到達時間差δf,kに基づき雑音パワー推定部1223の雑音パワー推定処理(s28)を行った後に、時間差推定部1221の到達時間差推定処理(s25、s26)を行ってもよい。
【0107】
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
【0108】
<プログラム及び記録媒体>
上述した音源分離装置は、コンピュータにより機能させることもできる。この場合はコンピュータに、目的とする装置(各種実施例で図に示した機能構成をもつ装置)として機能させるためのプログラム、またはその処理手順(各実施例で示したもの)の各過程をコンピュータに実行させるためのプログラムを、CD−ROM、磁気ディスク、半導体記憶装置などの記録媒体から、あるいは通信回線を介してそのコンピュータ内にダウンロードし、そのプログラムを実行させればよい。

【特許請求の範囲】
【請求項1】
複数の原信号がノイズとともに混合され、二個のマイクで観測される状況で、観測信号からそれぞれの原信号を分離抽出する音源分離装置であって、
前記原信号の音源のインデックスをkとし、周波数領域の前記観測信号xf,t=[xf,t,L,xf,t,Rから、前記二個のマイクへの前記原信号の到達時間差δf,kと雑音のパワースペクトルσと原信号のスペクトルsf,t,kと音源存在確率p(k|θ)とを推定するパラメタ推定手段と、
前記観測信号xf,tと推定されたパラメタθ={δf,k,σ,sf,t,k,p(k|θ)}とから分離信号yf,t,kを生成する分離信号生成手段とを含み、
前記パラメタ推定手段は、
観測信号xf,tが音源kに帰属する期待値を示す事後確率をmf,t,kとし、前記二個のマイクの間隔をDとし、前記原信号の速度をcとし、φ=sinc(2πfD/c)とし、ξf,t,k=[xf,t,R−φ(xt,t,L−sf,t,k)]とし、前記スペクトルsf,t,k及び前記ξf,t,kの位相をそれぞれψsk及びψξkとし、前記到達時間差δf,k
【数25】


として推定する逆正接計算手段と、
推定された前記到達時間差δf,kが内包する±πの不定性を補正する補正手段とを有する、
音源分離装置。
【請求項2】
複数の原信号がノイズとともに混合され、二個のマイクで観測される状況で、観測信号からそれぞれの原信号を分離抽出する音源分離方法であって、
前記原信号の音源のインデックスをkとし、周波数領域の前記観測信号xf,t=[xf,t,L,xf,t,Rから、前記二個のマイクへの前記原信号の到達時間差δf,kと雑音のパワースペクトルσと原信号のスペクトルsf,t,kと音源存在確率p(k|θ)とを推定するパラメタ推定ステップと、
前記観測信号xf,tと推定されたパラメタθ={δf,k,σ,sf,t,k,p(k|θ)}とから分離信号yf,t,kを生成する分離信号生成ステップとを含み、
前記パラメタ推定ステップは、
観測信号xf,tが音源kに帰属する期待値を示す事後確率をmf,t,kとし、前記二個のマイクの間隔をDとし、前記原信号の速度をcとし、φ=sinc(2πfD/c)とし、ξf,t,k=[xf,t,R−φ(xt,t,L−sf,t,k)]とし、前記スペクトルsf,t,k及び前記ξf,t,kの位相をそれぞれψsk及びψξkとし、前記到達時間差δf,k
【数26】


として推定する逆正接計算ステップと、
推定された前記到達時間差δf,kが内包する±πの不定性を補正する補正ステップとを有する、
音源分離方法。
【請求項3】
コンピュータを請求項1記載の音源分離装置として機能させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2013−97176(P2013−97176A)
【公開日】平成25年5月20日(2013.5.20)
【国際特許分類】
【出願番号】特願2011−240054(P2011−240054)
【出願日】平成23年11月1日(2011.11.1)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】