説明

音源分離装置,音源分離プログラム及び音源分離方法

【課題】 複数の音源信号が重畳された混合音声信号における各音源信号の定位の状態にかかわらず高い音源分離性能が得られ,さらに,処理負荷を軽減できること。
【解決手段】 出力信号yi(t)を求めるFDICA音源分離処理部11により,L及びRの各チャンネルの信号x1(t),x2(t)を予め周波数領域に離散フーリエ変換した信号x1(f),x2(f)に対して音源分離処理を行うFDICA法に基づく音源分離処理を行う。また,離散フーリエ変換後の周波数領域における複数の各チャンネルの信号x1(t),x2(t)を2分岐してその一方を用いて分離行列W(f)の逐次更新計算(学習計算)を行い,これと並行して,その他方を遅延させた信号x1'(t),x2'(t)に対して前記逐次更新計算により求められた前記分離行列W(f)に基づく分離処理を行う。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は,複数の音源からの音源信号が各々重畳された複数の混合音声信号からその音源信号のいずれかに対応する分離信号を生成(同定)して出力信号とする音源分離装置,音源分離プログラム及び音源分離方法に関するものである。
【背景技術】
【0002】
一般に,ステレオ信号におけるLチャンネル信号及びRチャンネル信号の各々は,楽器の音と歌手の声,或いは二人のデュエット歌手各々の声のように,複数の音源信号が重畳された混合音声信号となっている。
従来,このようなLチャンネル信号及びRチャンネル信号に基づいていずれかの音源信号に対応する音声信号(分離信号)を得たい場合,例えば,歌手の声の信号(ボーカル信号)を除いて楽器の音の信号のみをカラオケ信号として出力(ボーカルキャンセル)したい,或いはボーカル信号のみを抽出したい場合,Lチャンネル信号とRチャンネル信号の中央(センター)に定位している信号をボーカル信号として除去する,或いは強調する処理が採用されてきた。
しかしながら,そのような処理では,ボーカル信号の定位がLチャンネル若しくはRチャンネルのいずれかにずれている場合,得られた音声信号が不自然な音声信号となる。これに対し,特許文献1には,ボーカル信号のわずかな定位のずれの調整を,適応フィルタによる処理やボーカル信号とは全く異なる周波数帯域(例えば,低周波数帯域)の信号成分を周波数選択フィルタ等により素通りさせる処理により,不自然さのない音声信号を生成する技術が示されている。
【0003】
一方,所定の音響空間に複数の音源と複数のマイク(音声入力手段)とが存在する場合,その複数のマイクごとに,複数の音源各々からの個別の音声信号(以下,音源信号という)が重畳された音声信号(以下,混合音声信号という)が取得される。このようにして取得(入力)された複数の前記混合音声信号のみに基づいて,前記音源信号各々を同定(分離)する音源分離処理の方式は,ブラインド音源分離方式(Blind Source Separation方式,以下,BSS方式という)と呼ばれる。
さらに,BSS方式の音源分離処理の1つに,独立成分分析法(Independent Component Analysis,以下,ICA法という)に基づくBSS方式の音源分離処理がある。このICA法に基づくBSS方式は,複数のマイクを通じて入力される複数の前記混合音声信号(時系列の音声信号)において,前記音源信号どうしが統計的に独立であることを利用して所定の分離行列(逆混合行列)を最適化し,入力された複数の前記混合音声信号に対して最適化された分離行列によるフィルタ処理を施すことによって前記音源信号の同定(音源分離)を行う処理方式である。その際,分離行列の最適化は,ある時点で設定されている分離行列を用いたフィルタ処理により同定(分離)された信号(分離信号)に基づいて,逐次更新計算(学習計算)により以降に用いる分離行列を計算することによって行われる。このようなICA法に基づくBSS方式の音源分離処理は,例えば,非特許文献1や非特許文献2等に詳説されている。
【0004】
【特許文献1】実開平5−15400号公報
【非特許文献1】猿渡洋「アレー信号処理を用いたブラインド音源分離の基礎」電子情報通信学会技術報告,vol.EA2001-7,pp.49-56,April 2001.
【非特許文献2】高谷智哉他「SIMOモデルに基づくICAを用いた高忠実度なブラインド音源分離」電子情報通信学会技術報告,vol.US2002-87,EA2002-108,January 2003.
【発明の開示】
【発明が解決しようとする課題】
【0005】
しかしながら,特許文献1に示される技術によっても,二人のデュエット歌手各々を音源とする場合のように,除去或いは強調(抽出)したい音源信号がLチャンネルとRチャンネルとの中央付近に定位しているとは限らない場合には,いずれかの音源信号のみを抽出する(他の音源信号を除去する)ことができないという問題点があった。
また,非特許文献1や非特許文献2等に示されるように,音源信号の独立性に着目したICA法に基づくBSS方式による音源分離処理は,時間領域の混合音声信号を時間領域のままで処理すると,その処理に要する演算負荷が非常に高いという問題点があった。
また,ICA法に基づくBSS方式による音源分離処理は,分離行列の収束状態(学習状態)が十分でない状況では,音源分離性能が劣るという問題点もあった。
従って,本発明は上記事情に鑑みてなされたものであり,その目的とするところは,複数の音源信号が重畳された混合音声信号における各音源信号の定位の状態にかかわらず高い音源分離性能が得られ,さらに,処理負荷を軽減できる音源分離装置,音源分離プログラム及び音源分離方法を提供することにある。
【課題を解決するための手段】
【0006】
上記目的を達成するために本発明は,複数の音源からの音源信号が各々重畳された複数の混合音声信号から前記音源信号のいずれかに対応する分離信号を生成して出力信号とする音源分離装置や音源分離方法,或いはそのような処理をコンピュータに実行させるための音源分離プログラムに適用されるものであり,時間領域における複数の前記混合音声信号に離散フーリエ変換処理を施して周波数領域における複数の混合音声信号へ変換し,その周波数領域における複数の混合音声信号に対し所定の分離行列に基づく分離処理を施すことにより前記混合音声信号ごとに前記音源信号のいずれかに対応する前記分離信号を生成するとともに,その分離信号に基づいて前記分離行列の逐次更新計算を行う独立成分分析法(ICA法)に基づくブラインド音源分離方式(BSS方式)の音源分離処理(以下,FDICA音源分離処理という)を行い,その音源分離処理において前記逐次更新計算で求められた前記分離行列に基づく分離処理を行うことにより生成された前記分離信号のいずれかを選択するとともに,その選択した前記分離信号に逆離散フーリエ変換を施して前記出力信号とするものである。ここで,前記混合音声信号は,例えば,ステレオ音声信号におけるLチャンネル信号とRチャンネル信号である。
このように,ICA法に基づくBSS方式の音源分離処理(以下,ICA−BSS音源分離処理という)を行うことにより,混合音声信号における各音源信号の定位の状態にかかわらず高い音源分離性能が得られる。さらに,前記混合音声信号を予め周波数領域に変換した上でICA−BSS音源分離処理を行うことにより,時間領域における前記混合音声信号に対して同処理を行う場合に比べてはるかに処理負荷を軽減できる。
【0007】
ここで,前記FDICA音源分離処理における前記分離行列の初期値(初期行列)を設定する際,その初期値に基づいて前記混合音声信号に対する分離処理を施した場合に,前記分離信号として前記Lチャンネル信号及び前記Rチャンネル信号の和信号と差信号とが得られるように初期行列を設定すれば有効である。これにより,多くの場合に,各チャンネルの主となる音源は各チャンネルに対応するマイクロホンの前方(正面)にあるため,その前方にある音源からの音声とその他の音声との分離性能をある程度確保でき,前記分離行列の初期値を全くランダムな値にする場合に比べれば,前記分離行列を早く(少ない逐次計算回数で)収束させることができる。また,このことは,各チャンネルの主となる音源が,各チャンネルに対応するマイクロホンの前方中心(正面)から少し外れた位置にある場合であっても同様にいえることである。
また,前記周波数領域における複数の混合音声信号を2分岐した分岐信号の一方を所定時間遅延させ,前記FDICA音源分離処理において,前記出力信号としての選択対象とならない分離信号(第1の分離信号)を生成しつつ,その分離信号に基づいて前記分離行列を逐次更新計算する処理(分離行列逐次更新計算処理)を行い,その一方で,前記分岐信号の一方について前記遅延がなされた信号に対し,前記第1の分離信号を生成しつつ計算された前記分離行列に基づく分離処理を施すことにより前記出力信号として選択する対象となる分離信号(第2の分離信号)を生成する処理(選択対象分離信号生成処理)を行うことが考えられる。
これにより,遅延処理中の前記混合音声信号(前記分岐信号の一方)と同じ信号(前記分岐信号の他方)を用いて前記分離行列の逐次更新計算(学習計算)がなされ,そのような学習済みの(十分に収束した)前記分離行列を用いて,その学習(逐次更新計算)に用いた前記混合音声信号と同じ信号(前記分岐信号の一方が遅延された信号)について音源分離処理が行われる。その結果,処理を開始してからしばらくの間や,音響環境が大きく変化した場合等の非定常な状態においても,学習の進んだ前記分離行列に基づく分離処理が行われるので,常に高い分離性能が得られる。しかも,過去の信号(前記分岐信号の一方の遅延信号)に対する学習済みの前記分離行列に基づく音源分離処理と,新たな信号(前記分岐信号の他方)に基づく前記分離行列の逐次更新計算(学習計算)とを並行して行うことが可能となる。その結果,処理開始時に出力信号が発生するまで遅延時間が生じるものの,その後は高い音源分離性能を確保しつつリアルタイム処理が可能となる。
【発明の効果】
【0008】
本発明によれば,出力する音源分離信号(出力信号)を求める処理として,分離行列が十分に学習されていれば高い音源分離性能を発揮するICA−BSS音源分離処理を採用することにより,混合音声信号における各音源信号の定位の状態にかかわらず高い音源分離性能が得られる。しかも,前記混合音声信号を予め周波数領域に離散フーリエ変換した上でICA−BSS音源分離処理を行うことにより,時間領域における前記混合音声信号に対して同処理を行う場合に比べてはるかに処理負荷を軽減できる。
また,離散フーリエ変換後の周波数領域における複数の混合音声信号を2分岐してその一方を用いて前記分離行列の逐次更新計算(学習計算)を行い,その他方を遅延させた信号に対して前記逐次更新計算により求められた前記分離行列に基づく分離処理を行うことにより,処理を開始してからしばらくの間や,音響環境が大きく変化した場合等の非定常な状態においても,学習の進んだ前記分離行列に基づく分離処理が行われるので,常に高い分離性能が得られる。しかも,過去の信号(前記分岐信号の一方について遅延された信号)に対する学習済みの前記分離行列に基づく音源分離処理と,新たな信号(前記分岐信号の他方)に基づく前記分離行列の逐次更新計算(学習計算)とを並行して行うことができるので,高い音源分離性能を確保しつつリアルタイム処理が可能となる。
【発明を実施するための最良の形態】
【0009】
以下添付図面を参照しながら,本発明の実施の形態について説明し,本発明の理解に供する。尚,以下の実施の形態は,本発明を具体化した一例であって,本発明の技術的範囲を限定する性格のものではない。
ここに,図1は本発明の実施形態に係る音源分離装置Xの概略構成を表すブロック図,図2はTDICA法に基づくBSS方式の音源分離処理を行う音源分離手段Z1の概略構成を表すブロック図,図3はFDICA法に基づく音源分離処理を行う音源分離手段Z2の概略構成を表すブロック図である。
【0010】
まず,本発明の実施形態について説明する前に,図2及び図3に示すブロック図を用いて,時間領域ICA法に基づくブラインド音源分離方式(以下,ICA−BSS方式という)の音源分離手段と,前記音源分離装置Xを構成する周波数領域ICA法に基づくブラインド音源分離方式との各々について説明する。
なお,以下に示す音源分離処理或いはその処理を行う装置等は,いずれも所定の音響空間に複数の音源と複数のマイクロホン(音声入力手段)とが存在する状態で,そのマイクロホン各々を通じて入力される前記音源各々からの個別の音声信号(以下,音源信号という)が重畳された複数の混合音声信号から,各音源信号を分離(同定)した分離信号を生成して出力信号とする音源分離処理或いはその処理を行う装置等に関するものである。
【0011】
図2は,時間領域独立成分分析法(time-domain independent component analysis法,以下,TDICA法という)に基づくBSS方式の音源分離処理を行う従来の音源分離手段Z1の概略構成を表すブロック図である。なお,本処理の詳細は,非特許文献1や非特許文献2等に示されている。
音源分離手段Z1は,分離フィルタ処理部11tにより,2つの音源1,2からの音源信号S1(t),S2(t)(音源ごとの音声信号)を2つのマイクロホン(音声入力手段)111,112で入力した2チャンネル(マイクロホンの数)の混合音声信号x1(t),x2(t)について,分離行列W(z)によりフィルタ処理を施すことによって音源分離を行う。
図2には,2つの音源1,2からの音源信号S1(t),S2(t)(個別音声信号)を2つのマイクロホン(音声入力手段)111,112で入力した2チャンネル(マイクロホンの数)の混合音声信号x1(t),x2(t)に基づいて音源分離を行う例について示しているが,2チャンネル以上であっても同様である。ICA法に基づくBSS方式による音源分離の場合,(入力される混合音声信号のチャンネル数n(即ち,マイクロホンの数))≧(音源の数m)であればよい。
複数のマイクロホン111,112各々で集音された各混合音声信号x1(t),x2(t)には,複数音源からの音源信号が重畳されている。以下,各混合音声信号x1(t),x2(t)を総称してx(t)と表す。この混合音声信号x(t)は音源信号S(t)の時間的空間的な畳み込み信号として表現され,次の(1)式のように表される。
【数1】

TDICAによる音源分離の理論は,この音源信号S(t)のそれぞれの音源同士が統計的に独立であることを利用すると,x(t)が分かればS(t)を推測することができ,従って,音源を分離することができるという発想に基づく理論である。
ここで,当該音源分離処理に用いる分離行列をW(z)とすれば,分離信号(即ち,同定信号)y(t)は,次の(2)式で表される。
【数2】

ここで,W(z)は,出力y(t)から逐次更新計算(学習計算)により求められる。また,分離信号は,チャンネルの数だけ得られる。
なお,音源合成処理はこのW(z)に関する情報により,逆演算処理に相当する配列を形成し,これを用いて逆演算を行えばよい。また,分離行列W(z)の逐次更新計算を行う際の分離行列の初期値(初期行列)は,予め定められたものが設定される。
このようなICA法に基づくBSS方式による音源分離を行うことにより,例えば,人の歌声とギター等の楽器の音とが混合した複数チャンネル分の混合音声信号から,歌声の音源信号と楽器の音源信号とが分離(同定)される。
ここで,(2)式は,次の(3)式のように書き換えて表現できる。
【数3】

そして,(3)式における分離フィルタ(分離行列)W(n)は,次の(4)式により逐次更新計算される。即ち,前回(j)の出力y(t)を(4)式に逐次適用することより,今回(j+1)のW(n)を求める。
【数4】

【0012】
次に,図3に示すブロック図を用いて,FDICA法(Frequency-Domain ICA)に基づく音源分離処理を行う従来の音源分離手段Z2について説明する。
FDICA法では,まず,入力された混合音声信号x(t)各々について,DFT処理部21,22によって所定の周期ごとに区分された信号毎,例えばフレーム毎に離散フーリエ変換(Discrete Fourier Transform,以下,DFT処理という)を行い,観測信号の時間分析を行う。そして,そのDFT処理後の各チャンネルの信号(各周波数成分の信号)について,分離フィルタ処理部11fにより分離行列W(f)に基づく分離フィルタ処理を施すことによって音源分離(音源信号の同定)を行う。ここでfを周波数ビン,mを分析フレーム番号とすると,分離信号(同定信号)y(f,m)は,次の(5)式のように表すことができる。
【数5】

ここで,分離フィルタW(f)の更新式は,例えば次の(6)式のように表すことができる。
【数6】

このFDICA法によれば,音源分離処理が各狭帯域における瞬時混合問題として取り扱われ,比較的低い処理負荷(演算負荷)で,かつ安定に分離フィルタ(分離行列)W(f)を更新することができる。
なお,前記分離行列Wの収束度合いを表す評価値ε(指標)としては,例えば,次の(7)式により表される評価値εを用いることが考えられる。この評価値εは,分離行列Wの更新に用いる前述した(4)式における右辺第2項で,W[j](d)に乗算されている係数である。
【数7】

この評価値εは,学習計算の進行度合い(収束度合い)を表すスカラ量としてよく用いられ,0に近づくほど分離行列の収束度合い(学習度合い)が進んでいると評価できる指標である。
【0013】
以下,図1に示すブロック図を用いて,本発明の実施形態に係る音源分離装置Xについて説明する。
音源分離装置Xは,ステレオ音声信号におけるLチャンネル信号x1(t)及びRチャンネル信号x2(t)から,Lチャンネル信号及びRチャンネル信号各々(混合音声信号の一例)に重畳されている複数の音源信号(図3におけるS1(t)及びS2(t)に相当)のいずれかに対応する分離信号を生成して出力信号yi(t)とするものである。
ここで,Lチャンネル信号及びRチャンネル信号は,2つの音源からの音源信号(例えば,歌手の声の信号と楽器の信号等)が各々重畳された混合音声信号である。
図1に示すように,音源分離装置Xは,前記DFT処理部21,22と,FDICA音源分離処理部11と,信号遅延バッファ部30と,信号選択部40と,IDFT処理部50とを備えている。
音源分離装置Xにおける各構成要素11,21,22,30,40,50は,それぞれDSP(Digital Signal Processor)又はCPU及びその周辺装置(ROM,RAM等)と,そのDSP若しくはCPUにより実行されるプログラムとにより構成されたものや,或いは,1つのCPU及びその周辺装置を有するコンピュータにより,各構成要素が行う処理に対応するプログラムモジュールを実行するよう構成されたもの等が考えられる。また,所定のコンピュータに各構成要素の処理を実行させる音源分離プログラムとして提供することも考えられる。
【0014】
前記DFT処理部21,22は,時間領域における混合音声信号である2つのLチャンネル信号x1(t)及びRチャンネル信号x2(t)各々に離散フーリエ変換処理を施して周波数領域におけるLチャンネル信号x1(f)及びRチャンネル信号x2(f)へ変換するものである(離散フーリエ変換処理手段の一例)。
前記FDICA音源分離処理部11は,独立成分分析法(ICA法)に基づくブラインド音源分離方式(BSS方式)の音源分離処理を行うものであり,前記周波数領域におけるL及びRの各チャンネル信号x1(f),x2(f)に対し,所定の分離行列W(f)に基づく分離処理を施すことにより,各チャンネルについて(混合音声信号ごとに)前記音源信号のいずれかに対応する前記分離信号y1'(f),y2'(f)を生成するとともに,その分離信号y1'(f),y2'(f)に基づいて前記分離行列の逐次更新計算を行う。
前記信号遅延バッファ30は,前記DFT処理部21,22による離散フーリエ変換処理により周波数領域における信号に変換されたL及びRの各チャンネル信号x1(f),x2(f)を2分岐した分岐信号の一方をバッファリングすることにより所定時間遅延させるものである(遅延手段の一例)。
【0015】
ここで,前記FDICA音源分離処理部11は,分離行列逐次更新計算部11faと選択対象分離信号生成部11fbとを備えている。
前記分離行列逐次更新計算部11faは,前記信号遅延バッファ30による遅延がなされないL及びRの各チャンネル信号x1(f),x2(f)(分岐信号の他方)に対し,前記分離行列W(f)に基づく分離処理により前記分離信号y1'(f),y2'(f)を生成しつつ,その分離信号y1'(f),y2'(f)に基づいて前記分離行列W(f)の逐次更新計算(学習計算)を行うものである。その内容は,図3に示した前記FDICA法に基づくBSS方式の音源分離手段Z2と同じである。この分離処理により生成される前記分離信号y1'(f),y2'(f)は,後段の前記信号選択部40(信号選択手段の一例)による選択対象とならない(第1の分離信号の一例)。ここで,前記分離行列逐次更新計算部11faにおける前記分離行列W(f)の初期値(初期分離行列)は,予め定められたものを用いる。
一方,前記選択対象分離信号生成部11fbは,周波数領域におけるL及びRの各チャンネル信号x1(f),x2(f)(分岐信号の一方)を前記信号遅延バッファ(遅延手段)により遅延された信号x1'(f),x2'(f)に対し,前記分離行列逐次更新計算部11faにより計算された前記分離行列W(f)に基づく分離処理を施すことにより,後段の前記信号選択部40による選択対象となる第2の分離信号y1(f),y2(f)を生成するものである。その内容は,図3に示した前記FDICA法に基づくBSS方式の音源分離手段Z2から,前記分離行列の逐次更新計算を行う部分を除いた残りの部分と同じである。
【0016】
前記信号選択部40は,前記FDICA音源分離処理部11において,前記選択対象分離信号生成部11fbにより生成された前記分離信号,即ち,前記分離行列逐次更新計算部11faによる逐次更新計算で求められた前記分離行列W(f)に基づく分離処理を行うことにより生成された前記分離信号y1(f),y2(f)のいずれかを選択するものである。
前記IDFT処理部50は,前記信号選択部40により選択された前記分離信号(yi(f)=y1(f)又はy2(f))に逆離散フーリエ変換を施して時間領域の信号に戻し,これを出力信号yi(t)とするものである(逆離散フーリエ変換手段の一例)。
ここで,前記信号遅延バッファ30による信号の遅延時間は,前記分離行列逐次更新計算部11faにより,十分に収束した前記分離行列W(f)を得るために必要な回数の逐次更新計算を行うのに要する時間とする。
また,前記FDICA音源分離処理部11は,処理を開始してから前記信号遅延バッファ30による遅延時間が経過した後は,過去の各チャンネルの信号x1'(f),x2'(f)に対する学習済みの前記分離行列に基づく音源分離処理,即ち,前記選択対象分離信号生成部11fbの処理と,新たな信号x1(f),x2(f)に基づく前記分離行列の逐次更新計算,即ち,前記分離行列逐次更新計算部11faの処理とを並行して実行する。
【0017】
以上示したように,音源分離装置Xにおいて,出力信号yi(t)を求める前記FDICA音源分離処理部11は,分離行列W(f)が十分に学習されていれば高い音源分離性能を発揮するICA−BSS音源分離処理を行うものであるので,ステレオ音声信号のLチャンネル信号及びRチャンネル信号(混合音声信号)における各音源信号の定位の状態にかかわらず高い音源分離性能が得られる。しかも,前記FDICA音源分離処理部11は,各チャンネルの信号を予め周波数領域に離散フーリエ変換した上で音源分離処理を行うFDICA法に基づく音源分離処理を行うものであるので,時間領域における音声信号に対する音源分離処理を行う従来のTDICA法に基づく音源分離処理に比べてはるかに処理負荷を軽減できる。
また,離散フーリエ変換後の周波数領域における複数の混合音声信号を2分岐してその一方を用いて前記分離行列W(f)の逐次更新計算(学習計算)を行い,その他方を遅延させた信号に対して前記逐次更新計算により求められた前記分離行列W(f)に基づく分離処理を行うことにより,処理を開始してからしばらくの間や,音響環境が大きく変化した場合等の非定常な状態においても,学習の進んだ前記分離行列W(f)に基づく分離処理が行われる。その結果,常に高い分離性能が得られる。しかも,前記FDICA音源分離処理部11は,過去の信号に対する学習済みの前記分離行列に基づく音源分離処理と,新たな信号に基づく前記分離行列の逐次更新計算(学習計算)とを並行して行うので,高い音源分離性能を確保しつつリアルタイム処理が可能となる。
【0018】
以上示した実施形態では,チャンネル数が2つであるステレオ信号のLチャンネル信号及びRチャンネル信号を混合音声信号の例として示したが,(入力される混合音声信号のチャンネル数n)≧(音源の数m)であれば,3チャンネル以上であっても同様の構成により実現できる。
また,図1に示した前記FDICA音源分離処理部11は,前記選択対象分離信号生成部11fbと,前記分離行列逐次更新計算部11faの処理とを備えるものであるが,特にリアルタイム処理を望まない場合等においては,前記選択対象分離信号生成部11fbと前記信号遅延バッファ部30とを省略し,前記分離行列逐次更新計算部11faにより生成された前記分離信号y1'(f),y2'(f)を,前記信号選択部40による選択対象とするよう構成されたものも考えられる。
また,前記分離行列逐次更新計算部11faにおける前記分離行列W(f)の初期値(初期分離行列)としては,予め定められたものを用いる他,L及びRの各チャンネル信号x1(f),x2(f)に基づいて初期分離行列を設定する所定の初期分離行列設定部を設けることも考えられる。この場合,例えば,その初期分離行列に基づいて処理開始後の一定期間に入力されるL及びRの各チャンネル信号x1(f),x2(f)(混合音声信号)に対する分離処理を施したときに,前記分離信号y1'(f),y2'(f)としてL及びRの各チャンネル信号x1(f),x2(f)の和信号と差信号とが得られるように前記初期分離行列を設定すること等が考えられる(初期分離行列設定手段の一例)。
【産業上の利用可能性】
【0019】
本発明は,音源分離装置への利用が可能である。
【図面の簡単な説明】
【0020】
【図1】本発明の実施形態に係る音源分離装置Xの概略構成を表すブロック図。
【図2】TDICA法に基づくBSS方式の音源分離処理を行う音源分離手段Z1の概略構成を表すブロック図。
【図3】FDICA法に基づく音源分離処理を行う音源分離手段Z2の概略構成を表すブロック図。
【符号の説明】
【0021】
X…本発明の実施形態に係る音源分離装置
1,2…音源
11…FDICA音源分離処理部
11t,11f…分離フィルタ処理部
11fa…分離行列逐次更新計算部
11fb…選択対象分離信号生成部
21,22…DFT処理部
30…信号遅延バッファ
40…信号選択部
50…IDFT処理部

【特許請求の範囲】
【請求項1】
複数の音源からの音源信号が各々重畳された複数の混合音声信号から前記音源信号のいずれかに対応する分離信号を生成して出力信号とする音源分離装置であって,
時間領域における複数の前記混合音声信号に離散フーリエ変換処理を施して周波数領域における複数の混合音声信号へ変換する離散フーリエ変換手段と,
独立成分分析法に基づくブラインド音源分離方式の音源分離処理を行うものであって前記周波数領域における複数の混合音声信号に対し所定の分離行列に基づく分離処理を施すことにより前記混合音声信号ごとに前記音源信号のいずれかに対応する前記分離信号を生成するとともに,該分離信号に基づいて前記分離行列の逐次更新計算を行うFDICA音源分離手段と,
前記FDICA音源分離手段において前記逐次更新計算で求められた前記分離行列に基づく分離処理を行うことにより生成された前記分離信号のいずれかを選択する信号選択手段と,
前記信号選択手段により選択された前記分離信号に逆離散フーリエ変換を施して前記出力信号とする逆離散フーリエ変換手段と,
を具備してなることを特徴とする音源分離装置。
【請求項2】
前記混合音声信号が,ステレオ音声信号におけるLチャンネル信号とRチャンネル信号である請求項1に記載の音源分離装置。
【請求項3】
前記FDICA音源分離手段における前記分離行列の初期値を,該初期値に基づいて前記混合音声信号に対する分離処理を施した場合に前記分離信号として前記Lチャンネル信号及び前記Rチャンネル信号の和信号と差信号とが得られるよう設定する初期分離行列設定手段を具備してなる請求項2に記載の音源分離装置。
【請求項4】
前記周波数領域における複数の混合音声信号を2分岐した分岐信号の一方を所定時間遅延させる遅延手段を具備し,
前記FDICA音源分離手段が,
前記遅延手段による遅延がなされない前記分岐信号の他方に対し前記分離行列に基づく分離処理により前記信号選択手段による選択対象とならない第1の分離信号を生成しつつ該第1の分離信号に基づいて前記分離行列の逐次更新計算を行う分離行列逐次更新計算手段と,
前記分岐信号の一方を前記遅延手段により遅延された信号に対し前記分離行列逐次更新計算手段により計算された前記分離行列に基づく分離処理を施すことにより前記信号選択手段による選択対象となる第2の分離信号を生成する選択対象分離信号生成手段と,
を備えてなることを特徴とする請求項1〜3のいずれかに記載の音源分離装置。
【請求項5】
複数の音源からの音源信号が各々重畳された複数の混合音声信号から前記音源信号のいずれかに対応する分離信号を生成して出力信号とする音源分離処理をコンピュータに実行させるための音源分離プログラムであって,
時間領域における複数の前記混合音声信号に離散フーリエ変換処理を施して周波数領域における複数の混合音声信号へ変換する離散フーリエ変換処理と,
独立成分分析法に基づくブラインド音源分離方式の音源分離処理を行うものであって前記周波数領域における複数の混合音声信号に対し所定の分離行列に基づく分離処理を施すことにより前記混合音声信号ごとに前記音源信号のいずれかに対応する前記分離信号を生成するとともに,該分離信号に基づいて前記分離行列の逐次更新計算を行うFDICA音源分離処理と,
前記FDICA音源分離処理において前記逐次更新計算で求められた前記分離行列に基づく分離処理を行うことにより生成された前記分離信号のいずれかを選択する信号選択処理と,
前記信号選択処理により選択された前記分離信号に逆離散フーリエ変換を施して前記出力信号とする逆離散フーリエ変換処理と,
をコンピュータに実行させるための音源分離プログラム。
【請求項6】
複数の音源からの音源信号が各々重畳された複数の混合音声信号から前記音源信号のいずれかに対応する分離信号を生成して出力信号とする音源分離方法であって,
時間領域における複数の前記混合音声信号に離散フーリエ変換処理を施して周波数領域における複数の混合音声信号へ変換する離散フーリエ変換工程と,
独立成分分析法に基づくブラインド音源分離方式の音源分離処理を行うものであって前記周波数領域における複数の混合音声信号に対し所定の分離行列に基づく分離処理を施すことにより前記混合音声信号ごとに前記音源信号のいずれかに対応する前記分離信号を生成するとともに,該分離信号に基づいて前記分離行列の逐次更新計算を行うFDICA音源分離工程と,
前記FDICA音源分離工程において前記逐次更新計算で求められた前記分離行列に基づく分離処理を行うことにより生成された前記分離信号のいずれかを選択する信号選択工程と,
前記信号選択工程により選択された前記分離信号に逆離散フーリエ変換を施して前記出力信号とする逆離散フーリエ変換工程と,
を有してなることを特徴とする音源分離方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate


【公開番号】特開2007−33804(P2007−33804A)
【公開日】平成19年2月8日(2007.2.8)
【国際特許分類】
【出願番号】特願2005−216132(P2005−216132)
【出願日】平成17年7月26日(2005.7.26)
【出願人】(000001199)株式会社神戸製鋼所 (5,860)
【Fターム(参考)】