説明

周波数領域で多重経路多チャネル混合信号のブラインド分離のための方法及びその装置

本発明は、周波数領域で正規化された多チャネルブラインドデコンボリューションを用いてブラインド原信号を分離するための方法及びその装置を提供する。本発明における多チャネル混合信号は、Mサンプルのr連続ブロックからなってNサンプルのフレームを形成する。混合信号のフレームは、DFT(Discrete Fourier Transform)を用いたオーバーラップ−セーブ(overlap-save)方式によって、周波数領域で分離フィルタを用いて分離される。分離された信号は、非線形関数に適用するために逆DFTを用いて時間領域に再び変換する。分離された信号と非線形に変形された信号との間の相互電力スペクトルが計算され、分離された信号の電力スペクトル及び平らなスペクトルを有する非線形に変形された信号の電力スペクトルによって正規化される。本発明では、最初のL相互相関係数を抽出するために、時間領域の制限条件を適用した。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、信号処理に関するもので、詳しくは、混合された独立な原信号を、周波数領域で各信号に対する事前情報なしに分離する多重経路多チャネル混合信号のブラインド信号分離(Blind Source Separation)のための方法及びその装置、並びに、その方法を実現するためのプログラムを記録したコンピュータ可読の記録媒体に関するものである。
【背景技術】
【0002】
従来の音声処理においては、実際の騒音環境で多重経路を通して多数個のセンサで収集された混合信号を、音声信号を初めとする多様な信号に分離する必要があった。事前情報のない混合された原信号を分離する技術は、ブラインド信号分離(Blind Source Separation:以下、BSSと略称する)として知られている。前記BSS技法は、多数個のスピーカー及びソナーアレイなどの独立した原信号を有する前記各信号を分離するのに非常に有用である。BSS技法は、スピーカー位置追跡、音声認識、音声符号化器、3次元客体指向オーディオ信号処理、音響反響消去器、チャネルの干渉除去及び到来角の推定や、EEGやMEGなどの生体信号検出において広範囲に活用される。
【0003】
ほとんどのBSS技法は、多重混合経路の影響を無効化することで、原信号を復元しようとする。多重混合経路の影響を無効化するのに必要な理想的な多重分離には、無限長さのフィルタが必要であるが、有限長さのフィルタも充分に実用可能となっている。
【0004】
現在広く用いられている多チャネルブラインド信号分離の二つの類型としては、(1)独立した各信号の2次統計特性を用いた多重相関関係除去(Multiple Decorrelation:以下、MDと略称する)方式と、(2)非線形関数を用いた多チャネルブラインドデコンボリューション(Multichannel Blind Deconvolution:以下、MBDと略称する)方式とがある。
【0005】
前記MD方法は、対角線化した2次統計による混合信号の相関関係除去である(例えば、非特許文献1参照)。
【0006】
信号分離がうまくいくために対角線化が複数回行われるべきであり、これら方法は、非定常信号のみに適用される。また、これら方法は、非常に迅速でかつ安定的である。その反面、MBD方法は、信号の統計的分布による非線形関数によって非線形に変形された分離信号の相互情報を最小化して信号を分離する(例えば、非特許文献2参照)。
【0007】
【非特許文献1】E. Weinstein, M. Feder, and A. V. Oppenheim, Multi-channel signal separation by decorrelation, IEEE Trans. Speech Audio Processing, vol. 1, no. 4, pp. 405-413, Apr. 1993; Lucas Parra and Clay Spence, "Convolutive blind source separation of nonstationary sources", IEEE IEEE Trans. Speech Audio Processing, pp. 320-327, May, 2000; D.W.E. Schobben and P.C.W. Sommen, A frequency-domain blind signal separation method based on decorrelation, IEEE Trans. Signal Processing, vol. 50, no. 8, pp. 1855-1865, Aug. 2002; N. Murata and S. Ikeda, and A. Ziehe, An approach to blind source separation based on temporal structure of speech signal, Neurocomputing, vol. 41, no. 4, pp.1-24, 2001
【0008】
【非特許文献2】S. Amari, S.C. Douglas, A. Cichocki, H.H. Yang, "Novel on-line adaptive learning algorithm for blind deconvolution using the natural gradient approach", Proc. IEEE 11th IFAC Symposium on System Identification, Japan, 1997, pp.1057-1062; A. J. Bell and T. J. Sejnowski, An information maximization approach to blind separation and blind deconvolution, Neural Computation, 7, no. 6, pp. 1129-1159, Nov. 1995; L. Zhang, A. Cichocki, and S. Amari, Geometrical structures of FIR manifolds and their application to multichannel blind deconvolution, Proc of Int. IEEE Workshop on Neural Networks and Signal Processing, pp. 303-312, Madison, Wisconsin, USA, Aug. 23-25, 1999
【発明の開示】
【発明が解決しようとする課題】
【0009】
従来技術における分離性能は、周波数領域で各分離信号が互いに混合される現象(Frequency permutation)、白色化(whiting)現象及び採用されたフィルタタイプなどの問題点によってかなり制限されている。前記MD方法は、各分離信号が各周波数領域で異った命令を受けることで、各分離信号が混合状態で残るという問題があった。もちろん、信号が混合されるという問題の解決策があるとはいえ、分離フィルタの長さが長くなるほど分離性能は減少してしまう。その反面、MBD方法は、スペクトルが平らな分離信号には適しているが、スペクトルが傾斜した信号には不向きであるという白色化現象があった。上記のようなMBD方法の問題点を解決するために、音声信号のための線形の予測方法が提案された。[例えば S.C. Douglas, "Blind eparation of acoustic signals", in Microphone Arrays: Signal processing techniques and applications, M. Brandstein and D. Ward Eds, Springer, pp. 355-380, 2001. 参照]。この方法は、実際に一般的な混合信号環境に適してない両方向フィルタを採択している。さらに、ルーム衝撃応答(room impulse response)の一部は、人間音声信号の音声トラック応答として見なされる。
【0010】
したがって、音声信号を、高音質で迅速かつ正確に分離できるBSS技法が要求されている。
【課題を解決するための手段】
【0011】
本発明は、ブラインド信号分離のための多重経路分離回路フィルタを推定するために、周波数領域で正規化された自然接線勾配(nomalized natural gradient)を用いる方法及びその装置を提供する。
【0012】
図1は、本発明の信号分離方法を実現するためのシステム100である。このシステム100は、多重経路混合信号を提供する入力装置126と、周波数領域多チャネルブラインドデコンボリューションプログラム124を実行するコンピュータシステム108と、から構成される。入力装置126は、多様な装置を備えているが、本発明では、図1に示すように、センサアレイ102、信号処理プロセッサ104及び録音された信号源106を備えている。センサアレイ102は、マイクロフォンなどの一つ以上のセンサ102A,102B,102Cによって構成される。信号処理プロセッサ104は、混合信号をデジタル化する。
【0013】
コンピュータシステム108は、中央処理装置114、メモリ122、入出力インターフェース120及び補助回路116によって構成される。コンピュータシステム108は、一般的に入力装置110に接続されており、モニター、マウス、キーボードなどの多様な入出力装置は、入出力インターフェース120を通して接続される。補助回路116は、電源供給部、キャッシュ(Cache)、タイミング回路、通信回路、バスなどの回路を含む。メモリは、RAM(Random Access Memory)、ROM(Read Only Memory)、ディスクドライブ、テープドライブ、フラッシュメモリ及びCD、或いは、これらを組み合わせた装置である。本発明は、メモリ122に保存された周波数領域多重チャネルブラインドデコンボリューションプログラム124として実現され、中央処理装置114によって実行されて入力装置126を通して入力された混合信号を分離する。このようなコンピュータシステム108は、本発明の周波数領域多重チャネルブラインドデコンボリューションプログラム124を実行するための特殊な目的を持つコンピュータシステムである。本発明は、ソフトウェア、ハードウェアまたはASIC(Application Specific intergrated Circuit)、デジタル信号処理プロセッサ及び他のハードウェア装置などのハードウェアとソフトウェアとを組み合わせた形態で実現される。
【0014】
本発明における前記コンピュータシステム108は、本発明の混合信号から分離された信号を処理するために用いられる音声認識回路カードまたは音声認識ソフトウェアなどの音声認識プロセッサ118をさらに含む。多くの人々が集まった会議室では、人々の音声あるいは音楽、背景雑音などがマイクロフォンアレイ102を通して採音される。マイクロフォン102によって採音された音声信号は、多重経路を通して混合された多チャネル信号であり、各人の音声を分離した後、各音声を音声符号化器に印加することができる。混合信号は、信号処理プロセッサ104を通してフィルタリング及び増幅された後、デジタルに変換されてコンピュータシステム108に送られる。中央処理装置114は、周波数領域多チャネルブラインドデコンボリューションプログラム124を行うことで、混合信号をそれぞれ独立した信号に分離する。この過程で、混合信号に含まれた背景雑音が除去されるが、雑音の除去された信号は、音声認識器(あるいは音声符号化器)118に送られる。ここで、音声認識器が用いられた場合、音声認識器118で音声を解析してコンピュータ命令や文字に変換でき、音声符号化器が用いられた場合、一層きれいな音質の通話を提供できる。このように、コンピュータシステム108は、周波数領域多チャネルブラインドデコンボリューションプログラムを行うことで、音声認識器や音声符号化器に前処理器として活用される。
【0015】
図2aは、本発明の周波数領域多チャネルブラインドデコンボリューションプログラム124の一実施形態を示した構造図である。本発明の多重経路多チャネル分離装置は、分離部201、非線形変換部202及び自然接線勾配を用いた分離フィルタ係数更新演算部203を備えている。前記分離部201は、多重チャネル混合信号x(k)から信号を分離するという役割を有している。前記混合信号x(k)は、m個の独立した原信号が多重経路を通してn個のセンサから印加されたもので、次式のように定義される。
【0016】
【数1】

【0017】
上式中、xj(k)は、j番目のセンサから印加された混合信号である。x(k)を(i, j)要素のm × n行列w(z,k)の独立信号に分離するための分離フィルタは、次式のように示される。
【0018】
【数2】

【0019】
上式中、Lは、分離フィルタの長さである。分離信号u(k)は、次式のように定義される。
【0020】
【数3】

【0021】
上式中、ui(k)は、i番目の分離信号であり、次式のように定義される。
【0022】
【数4】

【0023】
図2bは、m=n=2である場合に対する分離フィルタのダイアグラムである。前記分離部201で分離された信号u(k)は、非線形変換部202に入力される。
【0024】
非線形変換部202は、メモリのない非線形関数を通して分離信号の変換を行い、よって、非線形変形信号は、均一な確率密度(probability density)を有するようになる。非線形変換は、次式のように示される。
【0025】
【数5】

【0026】
図2cは、非線形変換の一例であり、ラプラシアン(Laplacian)確率密度の信号は、均一な確率密度の信号として示される。非線形変形に用いられる関数は、確率密度と密接な関連がある。一般に、オーディオや音声信号においては、αsgn(u)またはtanh(u)が用いられる。
【0027】
非線形関数g(・)は、図2cに示すように、原信号の確率密度p(u)を均一な確率密度p(y)に変換する。非線形関数は、原信号の確率密度によって異なったものが選定される。音声やオーディオ信号の確率密度は、ガンマあるいはラプラシアンであり、この場合は非線形関数が適している。
【0028】
フィルタ更新部203は、次式を通して、自然接線勾配を示す最大勾配方式を用いて分離フィルタ係数を更新する。
【0029】
【数6】

【0030】
【数7】

【0031】
本発明において、上述した工程は、FFT(Fast Fourier Transform)の長所を用いて、オーバーラップ−セーブ(Overlap-save)方式によって周波数領域で行われる。フィルタ長さ、ブロック長さ及びフレーム長さは、それぞれL、M、Nに示される。各フレーム間のオーバーラップ程度は、r=N/Mの比によって決定される。したがって、50%のオーバーラップは、r=2と見なされ、FFTサイズは、簡単にフレーム長さと同一になったものと仮定される。
【0032】
図3は、本発明の一実施形態のフローチャートであり、正規化された周波数領域多チャネルブラインドデコンボリューションを示している。図3のフローチャートに示すように、混合信号x(k)は、ステップ301で入力される。ステップ302では、混合信号がMサンプルの二つ(r=2)の連続ブロックの現在フレームを形成し、これは、次式のようである。
【0033】
【数8】

【0034】
上式中、bは、ブロックインデックスである。ステップ303では、混合信号が分離フィルタを用いて分離される。
【0035】
【数9】

【0036】
一般に、分離フィルタは、次式のように初期化される。
【0037】
【数10a】

【0038】
【数10b】

【0039】
分離フィルタに何らの有用な情報がある場合、その情報は、分離フィルタを初期化するのに用いられる。前記分離信号は、周波数領域で循環コンボリューション(circular convolution)を用いて、次式のように計算される。
【0040】
【数11】

【0041】
【数12a】

【0042】
【数12b】

【0043】
上式中、Fは、N×NのDFT行列である。分離された信号は、エイリアス(aliased)された最初のL個を除去するために再び時間領域に変換すると、次式のように示される。
【0044】
【数13】

【0045】
上式中、P0,N-Lは、最初のLサンプルを0にするプロジェクション行列(ウィンドウ行列)であり、次式のように定義される。
【0046】
【数14】

【0047】
上式中、0Lは、L×Lの大きさの0行列であり、IN-Lは、(N−L)×(N−L)の大きさの単位行列である。
【0048】
ステップ304では、分離された信号が、時間領域で非線形関数を通して変換される。このとき、次の二つ式のうち何れか一つが用いられる。
【0049】
【数15a】

【0050】
【数15b】

【0051】
前記非線形関数の結果は、ステップ306で、相互相関関係係数(Cross−correlations)f(ui(k))uj(k-p),p=0,1,…,L-1を計算するのに用いられる。式15aが用いられる場合、相互相関関係は、バイアスされた係数となり、式15bが用いられる場合、相互相関関係は、バイアスされない係数となる。
【0052】
ステップ305では、エイリアシングが除去され、正規化された相互電力スペクトル(cross−power spectra)が計算される。前記正規化された相互電力スペクトルは、次式のように定義される。
【0053】
【数16】

【0054】
【数17】

【0055】
上式中、*は、共役複素数(complex conjugation)を意味する。
【0056】
【数18a】

【0057】
【数18b】

【0058】
ここで、式17の相互電力スペクトルは、式18a及び18bのように、現在フレームからサンプルのみを用いて計算される。ステップ307では、分離された信号の平均電力スペクトル及び非線形に変換された信号が、相互電力スペクトルを正規化するのに用いられる。信号が時間の経過とともに変化するため、平均電力スペクトルは、ブロックごとに次式のように更新される。
【0059】
【数19a】

【0060】
【数19b】

【0061】
上式中、γは、0と1との間の常数である。平均電力スペクトルは、Py1(f,0)=Pu1(f,0)=c[1,…,1]T,i=1,…,mに初期化され、ここで、cは、0<c≪1である。ステップ308では、相互電力スペクトルが、次式のように正規化される。
【0062】
【数20】

【0063】
ここで、割り算は、要素別に行われる。式20の相互電力スペクトルが時間領域に再び変換される場合、相関関係係数の結果は、エイリアシング部分を含む。さらに、最初のL個の相関関係係数のみが、式7の自然接線勾配を計算するのに必要となる。したがって、最初のL個の相関関係係数のみが抽出されるべきである。ステップ309に適用される時間領域の制限条件は、次式のようである。
【0064】
【数21】

【0065】
上式中、F-1は、N×Nの大きさの逆DFT行列であり、PL,0は、最初のL個のサンプルはそのまま残し、残りの(N−L)個のサンプル値を0にしたN×Nのプロジェクション行列であり、次式のように定義される。
【0066】
【数22】

【0067】
ステップ310は、非ホロノミック(nonholonomic)条件を適用して自然接線勾配を計算する過程であり、次式のようである。
【0068】
【数23a】

【0069】
【数23b】

【0070】
【数24】

【0071】
一般に、分離フィルタの全ての要素が知られているが、全ての対角線要素は、知られたように省略され、前記各対角線要素が非対角線要素内に含まれる。この結果、本発明では、次式のように対角線勾配を0にして容易に得られる。
【0072】
【数25】

【0073】
式24と式25とを組み合わせると、計算が減ることになる。ここで、m=n=2である場合、式21で時間領域の制限条件が不要になり、計算に対する負担が大いに軽減される。このような変更の柔軟性は、本発明の長所である。
【0074】
ステップ311では、分離フィルタが次式のように更新される。
【0075】
【数26】

【0076】
ステップ312では、分離フィルタが、周波数領域で期待値1を有するために正規化される。期待値1を有する前記分離フィルタは、反復的に行う間、信号の電力を維持する。
【0077】
ステップ313で、終了条件は、前記分離過程が終了したかどうかが判断される。
【0078】
ステップ314で収斂された分離フィルタは、分離信号を得るために混合された信号をフィルタリングするのに用いられる。ステップ302の式11も、このステップに用いられる。
【0079】
以上説明した本発明は、上述した実施形態及び図面によって限定されるものではなく、本発明の思想から逸脱しない範囲内で多様な置換、変更及び変形が可能であることは、本発明の属する技術分野で通常の知識を有する者にとって明白であり、それら実施形態は、本発明の思想及び範囲から逸脱しないものである。
【発明の効果】
【0080】
図4aは、実際の環境で混合信号を分離する例を示している。音声及び音楽信号が二つのマイクを通して一つの部屋内で録音され、前記混合信号は、本発明を通して分離された結果である。図4aは、二つの混合信号x=(x1,x2)及び二つの分離信号u=(u1,u2)を示している。ここで用いられた常数は、L=128、M=2L、N=2M、μ=0.0025である。図4bは、最終的に得られた分離フィルタを示している。
【0081】
本発明は、混合信号から所望の高音質信号を分離することができ、前記分離された信号は、音声認識器または音声符号化器に直接活用される。図5は、各チャネルの原信号s、混合信号x、分離信号uを順に示した図で、分離された音声信号が優れた音質を有することを示している。
【産業上の利用可能性】
【0082】
本発明は、デコンボリューションのための信号処理器として音声認識システムに適用されるもので、各混合信号から分離された信号は、雑音のない多様な音声信号を抽出する音声認識プロセッサに適用される。
【図面の簡単な説明】
【0083】
【図1】多チャネル多重経路混合信号のブラインド分離装置を示した構成図である。
【図2a】自然接線勾配を用いた多チャネルブラインドデコンボリューションアルゴリズムを示したブロック図である。
【図2b】多チャネル混合信号を分離するための多チャネル分離フィルタのダイヤグラムである。
【図2c】メモリのない非線形関数を用いた混合信号の確率密度を、均一な確率密度に変換する概念図である。
【図3】自然接線勾配を用いた周波数領域多チャネルブラインドデコンボリューションアルゴリズムを示したフローチャートである。
【図4a】実際の事務室環境で録音した混合された音声-音楽信号x1,x2と、本発明の方法を用いて分離した音声-音楽分離信号u1,u2を示した図である。
【図4b】実際の事務室環境で録音した混合された音声-音楽信号を、本発明の分離方法を用いて分離した結果、最終的に収斂された分離フィルタ係数を示した図である。
【図5】二人の原音声s1,s2、仮想の混合回路を通して混合された音声x1,x2、本発明の分離方法で分離した音声u1,u2の波形を比較して示した図である。

【特許請求の範囲】
【請求項1】
多重経路多チャネル混合信号を分離する分離方法において、
(a)混合信号から現在フレームを形成するステップ(302)と、
(b)前記フレームを分離して現在フレームの分離信号を形成するステップ(303)と、
(c)前記分離信号を、非線形関数を用いて非線形に変換された信号に変換するステップ(304)と、
(d)前記分離信号と前記ステップ(c)で非線形に変換された信号から、エイリアシングが除去されて正規化された相互電力スペクトルを計算するステップ(305)と、
(e)前記相互電力スペクトルを用いて自然接線勾配を計算するステップ(310)と、
(f)前記自然接線勾配を用いて分離フィルタ係数を更新するステップ(311)と、
(g)前記分離フィルタ係数を正規化するステップ(312)と、
(h)収斂条件を決定し、収斂するまで前記ステップ(a)〜(g)を繰り返して行うステップ(313)と、
(i)収斂の完了後、分離フィルタ係数を用いて多チャネル混合信号を分離するステップ(314)と、
を含むことを特徴とする多重経路混合信号のブラインド分離のための方法。
【請求項2】
前記ステップ(b)は、
(b1)前記分離フィルタ係数及び前記現在フレームの混合信号を周波数領域に変換するステップと、
(b2)周波数領域で前記分離信号を計算し、その結果を時間領域に変換するステップと、
(b3)時間領域に変換された分離信号の最初のLサンプルを0に置換して分離信号を抽出するステップと、
を含むことを特徴とする請求項1に記載の多重経路混合信号のブラインド分離のための方法。
【請求項3】
前記ステップ(d)は、
(d1)前記現在フレームの分離信号及び非線形関数変換信号を周波数領域に変換するステップと、
(d2)前記周波数領域に変換された分離信号及び非線形関数変換信号から、現在フレームの相互電力スペクトルを計算するステップ(306)と、
(d3)前記周波数領域に変換された分離信号及び非線形関数変換信号の平均電力スペクトルを計算するステップ(307)と、
(d4)前記相互電力スペクトルを正規化するステップ(308)と、
(d5)前記正規化された相互電力スペクトルを時間領域に変換した後、時間領域制約条件を加えて最初のサンプルのみを抽出し、再び周波数領域に変換するステップ(309)と、
を含むことを特徴とする請求項1に記載の多重経路混合信号のブラインド分離のための方法。
【請求項4】
前記ステップ(e)は、
(e1)前記エイリアシングが除去されて正規化された相互電力スペクトルの対角元素に対する期待値1を除去し、非ホロノミック条件を満足させるステップと、
(e2)前記分離フィルタ係数及び前記非ホロノミック条件を満足する相互電力スペクトルを用いて自然接線勾配を計算するステップと、
を含むことを特徴とする請求項1に記載の多重経路混合信号のブラインド分離のための方法。
【請求項5】
周波数領域で、請求項1乃至請求項4の正規化された多重チャネルブラインドデコンボリューション方法を用いて多重経路の混合信号を多数の分離信号に分離するための装置。
【請求項6】
周波数領域で、請求項1乃至請求項4の正規化された多重チャネルブラインドデコンボリューション方法を用いて多重経路の混合信号を多数の分離信号に分離するためのプログラムが保存されたコンピュータシステムの保存媒体。

【図1】
image rotate

【図2a】
image rotate

【図2b】
image rotate

【図2c】
image rotate

【図3】
image rotate

【図4a】
image rotate

【図4b】
image rotate

【図5】
image rotate


【公表番号】特表2007−526511(P2007−526511A)
【公表日】平成19年9月13日(2007.9.13)
【国際特許分類】
【出願番号】特願2007−500683(P2007−500683)
【出願日】平成17年2月26日(2005.2.26)
【国際出願番号】PCT/KR2005/000526
【国際公開番号】WO2005/083706
【国際公開日】平成17年9月9日(2005.9.9)
【出願人】(506290213)
【氏名又は名称原語表記】NAM Seung Hyon
【住所又は居所原語表記】#7−1503 Hatnim Apartment,Dunsan−dong,Seo−gu,Daejon 302−737(KR)