説明

複数の音響源が生成した複数の音響信号を分離する方法及びシステム

【課題】本方法により、複数の音響源が生成した音響信号(例えば同じ室内の何人かの話者が同時に話した混合音声)を分離する。
【解決手段】各音源について、音響信号は結合されて、各音源に少なくとも1本ずつ設けられる複数のマイクによって取得される混合信号となる。混合信号をフィルタリングし、フィルタリングされた信号を総和して1つの信号にし、この信号から特徴を抽出する。因子HMM全体のターゲットシーケンスを推測し、それに従ってフィルタパラメータを最適化する。これらのステップは、フィルタパラメータが最適なフィルタリングパラメータに収束するまで繰り返し、次にこの最適なフィルタリングパラメータを用いて混合信号をもう一度フィルタリングし、この最後のフィルリングの総和出力が特定の音響源の音響信号となる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、包括的には混合音響信号の分離に関し、特に複数のチャネルが複数の音響源(話者など)から取得した混合音響信号の分離に関する。
【背景技術】
【0002】
しばしば、複数の話者によって複数の音声信号が同時に生成されるため、録音物において音声信号が互いに混ざり合う。その場合、それらの音声信号を分離することが必要になる。言い換えれば、2人以上の人が同時に話す場合、同時音声の録音物から個々の話者の音声を分離することが望ましい。これは話者分離問題と呼ばれる。
【0003】
一方法において、同時音声は1チャネル録音により受信され、混合信号は時変フィルタにより分離される。Roweis著「One Microphone Source Separation」(Proc. Conference on Advances in Neural Information Processing Systems, pp. 793-799, 2000)およびHershey等著「Audio Visual Sound Separation Via Hidden Markov Models」(Proc. Conference on Advances in Neural Information Processing Systems, 2001)を参照。この方法は、通常は隠れマルコフモデル(HMM)等の動的モデルによって表される、異なる話者の音声の統計的な性質に関する広範な先験的(a priori)情報を用いて、時変フィルタを求める。
【0004】
別の方法は、複数のマイクを用いて同時音声を録音する。この方法は通常、少なくとも話者の人数と同数のマイクを必要とし、音源分離問題はブラインド音源分離(BSS)の1つとして処理される。BSSは独立成分解析(ICA)によって行うことができる。この方法では信号の先験的知識は前提とされない。その代わりに、混合信号の複数の録音物から取り出した現在および過去のサンプルの重み付き結合(combination)として成分信号が推定される。推定重みは、推定成分信号の独立性を測定する目的関数を最適化する。Hyvaearinen著「Survey on Independent Component Analysis」(Neural Computing Surveys, Vol. 2., pp. 94-128, 1999)を参照。
【0005】
両方法には欠点がある。既知の信号の統計を用いる時変フィルタ法は、混合信号の1チャネル録音物に基づいている。1チャネル録音物に存在する情報の量は通常、効果的な話者分離を行うには不十分である。ブラインド音源分離法は、話者に関する全ての先験的情報を無視する。その結果、この方法は多くの状況(信号が残響環境で録音された場合等)において失敗する。
【発明の開示】
【発明が解決しようとする課題】
【0006】
したがって、従来技術を改良した混合音声信号の分離方法を提供することが望ましい。
【課題を解決するための手段】
【0007】
本発明による方法は、分離する音響音声信号(例えば音声)に関する詳細な先の統計情報を用いる。この情報は隠れマルコフモデル(HMM)で表される。信号分離問題は、ビーム形成の1つとして処理される。ビーム形成では、推定フィルタ和(filter-and-sum)アレーを用いて各信号を抽出する。
【0008】
推定フィルタは、所望の信号のHMMについて測定した、フィルタ和処理した出力の尤度を最大にする。これは、因子(factorial)HMM(FHMM)を用いた因子処理によって行われる。FHMMは複数の信号のHMMの外積である。因子処理は、現在のアレー出力を用いて全ての同時信号のFHMMからその信号のHMM全体の最適状態シーケンスを繰り返し推定するとともに、その状態シーケンスの尤度を最大にするフィルタを推定する。
【0009】
音響信号の2音源混合物において、本発明による方法は、信号のHMMが音響信号から構築されている場合、前景音響信号よりも20dB低い背景音響信号を抽出することができる。
【発明を実施するための最良の形態】
【0010】
システム構造
図1は、本発明によるマルチチャネル音響信号分離システム100の基本的な構造を示す。この例では、混合音響信号(例えば音声103)を生成する2つの音源(例えば話者101〜102)がある。これより多い数の音源も可能である。本発明の目的は、取得した混合信号から1つの音源の信号190を分離することである。
【0011】
本システムは複数のマイク110を、各話者または他の音源に少なくとも1本ずつ含む。これらの複数のマイク110には、複数のフィルタセット120が接続されている。各話者に1つのフィルタセット120があり、各セット120のフィルタの数はマイク110の本数に等しい。
【0012】
各フィルタセット120出力121は対応する加算器130に接続される。加算器130は、総和信号131を特徴抽出モジュール140に供給する。
【0013】
抽出した特徴141は因子処理モジュール150に供給される。因子処理モジュール150の出力は最適化モジュール160に接続されている。特徴は最適化モジュール160にも直接供給される。最適化モジュール160の出力は対応するフィルタセット120に戻される。各話者のトランスクリプション(transcription)隠れマルコフモデル(HMM)170も因子処理モジュール150に入力を供給する。HMMは、トランスクリプションに基づく必要はなく、例えば、いかなる形態または音源の音響内容、音楽、機械音、自然音、動物の声(animal sound)等から直接導出されてもよいことに留意すべきである。
【0014】
システム動作
動作時には、取得した混合音響信号111をまずフィルタリングする(120)。初期のフィルタパラメータセットを用いることができる。フィルタリングした信号121を総和し、特徴141を抽出する(140)。HMM170を用いてターゲットシーケンス151を抽出する(150)。次に、共役勾配降下法を用いた最適化160により、1つの音源(例えば話者)の信号190の分離に用いることができる最適なフィルタパラメータ161を導出する。
【0015】
次に、本発明によるシステムおよび方法の構造および動作を詳細に説明する。
【0016】
フィルタ和
音源の数は既知であると仮定する。音源毎に別個のフィルタ和アレーを設ける。各マイク110からの混合信号111をマイク固有のフィルタによってフィルタリングする(120)。様々なフィルタリングされた信号121を総和して(130)合成131信号を得る。したがって、音源iの合成出力信号y[n]131は次のように表される。
【0017】
【数1】

【0018】
ここで、Lはマイク110の本数であり、x[n]はj番目のマイクにおける信号111であり、hij[n]は話者i用のj番目のフィルタに適用するフィルタである。フィルタインパルス応答hij[n]は、結果として得られる出力y[n]190がi番目の音源からの分離信号となるように、最適なフィルタパラメータ161によって最適化される。
【0019】
音源用のフィルタの最適化
特定の音源からの信号用のフィルタ120は、音響信号に関する入手可能な情報(例えば話者の音声のトランスクリプション)を用いて最適化される。
【0020】
音声信号の40次元のメルスペクトル(Mel-spectral)表現で訓練した、話者に依存しない隠れマルコフモデル(HMM)に基づく音声認識システムを用いることができる。この認識システムは、音響信号中の様々な音単位のHMMを含む。
【0021】
上記と、おそらくはその話者の発声の既知のトランスクリプションとから、その発声のHMM170を構築する。これに続いて、話者用のフィルタ120のパラメータ161を推定して、発声HMM170に関してフィルタ和アレーの出力141から求めた40次元のメルスペクトルベクトルのシーケンスの尤度を最大にする。
【0022】
最適化のために、メルスペクトルベクトルをフィルタパラメータの関数として次のように表現する。
【0023】
まず、i番目の音源のフィルタパラメータを全てのチャネルについて連結し、1つのベクトルhにする。パラメータzが、i番目の音源用のアレーの出力131から抽出したメルスペクトルベクトルのシーケンス141を表す。パラメータzitはZにおけるt番目のスペクトルベクトルである。パラメータzitは次式によってベクトルhと関連付けられる。
【0024】
【数2】

【0025】
ここで、yitは、zitを求めるために用いられるy[n]からのサンプルのシーケンスを表すベクトルであり、Mはメルフィルタの重み係数行列であり、Fはフーリエ変換行列であり、Xはチャネル入力とそれをシフトしたものによって形成される超行列(super matrix)である。
【0026】
Λはi番目の音源のHMMのパラメータセットを表すものとする。i番目の音源用のフィルタを最適化するために、その音源のHMMに対するZの対数尤度であるL(Z)=log(P(Z|Λ))を最大にする。パラメータL(Z)はHMM170全体で可能な状態シーケンス全てにわたって求める。
【0027】
最適化を簡略化するために、Zの全体的な尤度は、HMM全体で最も尤度の高い状態シーケンスの尤度、すなわちP(Z|Λ)≒P(Z,S|Λ)によって大まかに表されるものとみなす。ここでSはHMM全体で最も尤度の高い状態シーケンスを表す。この仮定に基づいて次式が得られる。
【0028】
【数3】

【0029】
ここで、TはZにおけるベクトルの総数を表し、sitはi番目の音源の最も尤度の高い状態シーケンスの時間tにおける状態を表す。総和における2番目の対数項は、zitすなわちフィルタパラメータに依存しないため、最適化には影響を与えない。したがって、式3を最大にすることは1番目の対数項を最大にすることに等しい。
【0030】
簡略化のために、これは、Zと状態シーケンスSのベクトルの最も尤度の高いベクトルシーケンスとの間の距離を最小にすることに等しいものとみなす。
【0031】
HMMにおける状態出力の分布を単一ガウス(single Gaussian)でモデル化する場合、最も尤度の高いベクトルシーケンスが単純に、その最も尤度の高いシーケンスにおける状態の平均のシーケンスとなる。
【0032】
以下において、この平均のシーケンスをその話者のターゲットシーケンス151と呼ぶ。最適化ステップ160においてフィルタパラメータ161について最適化される目的関数は次式によって定義される。
【0033】
【数4】

【0034】
ここで、ターゲットシーケンスmsitのt番目のベクトルは、最も尤度の高い状態シーケンスSのt番目の状態であるsitの平均である。
【0035】
式2および式4は、Qがhの関数であることを示す。しかしながら、Qをhに関して直接最適化することは、両者間の関係が非常に非線形であるため不可能である。したがって、共役勾配降下法等の最適化方法を用いてQを最適化する。
【0036】
図2は、本発明による方法200のステップを示す。
【0037】
第1に、フィルタパラメータをh[0]=1/N、ならびにk≠0についてh[k]=0に初期化し(201)、式1を用いて各話者の混合信号111をフィルタ和処理する。
【0038】
第2に、特徴ベクトル141を抽出する(202)。
【0039】
第3に、状態シーケンスおよび最適化用の対応するターゲットシーケンス151を求める(203)。
【0040】
第4に、式4を最適化するために共役勾配降下法等の最適化方法を用いて最適なフィルタパラメータ161を推定する(204)。
【0041】
第5に、最適化されたフィルタパラメータを用いて信号を再度フィルタ和処理する。新たな目的関数が集束しない場合(206)、完了する(207)まで第3および第4のステップ203を繰り返す。
【0042】
本プロセスは抽出した特徴141とターゲットシーケンス151の間の距離を最小にするため、よいターゲット選択が重要である。
【0043】
ターゲットの推定
理想的なターゲットは、雑音や破損のない(clean uncorrupted)音響信号録音物から得られるメルスペクトルベクトルのシーケンスである。他のターゲットはすべて理想的なターゲットの近似値に過ぎない。この理想的なターゲットの近似値を求めるには、その話者の発声のHMM170からターゲット151を導出する。これは、現在の音源信号推定値からHMM全体の最適状態シーケンスを求めることによって行う。
【0044】
直接的な手法では、信号のメルスペクトルベクトルのシーケンスについて最も尤度の高い状態シーケンスを求める。残念ながら、フィルタ120が完全に最適化される前のプロセスの初期の繰り返しでは、どの話者のフィルタ和アレーの出力131も他の話者からの信号を同様に大きな割合で含む。その結果、出力を単純にHMMと合わせてみてもターゲットの推定は粗悪な結果となる。
【0045】
したがって、アレーの出力が全ての音源からの信号の混合であるという事実も考慮する。この信号を表現するHMMは、様々な音源のそれぞれのHMMの外積である因子HMM(FHMM)である。FHMMにおいて、各状態は音源の各々のHMMの1状態の複合(composition)であり、個々の音源の信号はそのそれぞれの状態のいずれかにあり、最終的な出力はこれらの状態からの出力の結合であるという事実を反映している。
【0046】
図3は、話者が2人、HMMチェインが2つ(301〜302)(各話者につき1つ)である例のFHMMのダイナミクスを示す。HMMは特徴ベクトル141とともに動作する。
【0047】
はk番目の話者のHMMのi番目の状態を表すものとし、ここでk∈[1,2]である。Sklijは、k番目の話者のHMMが状態iにあり、l番目の話者のHMMが状態jにある場合に得られる因子状態を表す。Sklijの出力密度はその成分状態の出力密度の関数である。
【0048】
【数5】

【0049】
関数f()の厳密な性質は、所望の話者の信号の現在の推定値における複数の話者の信号103の混合比率に依存する。この混合比率はまた、様々な話者の原信号レベル、および現在のフィルタセットによってもたらされる所望の話者の分離度を含むいくつかの因子に依存する。これらを教師なし(unsupervised)で求めるのは困難であるので、f()を正確に求めることはできない。
【0050】
f()を推定することはしない。その代わりに、個々の音源のHMMを構築して単純なガウス状態出力密度を得る。FHMMの任意の状態の状態出力密度は、成分状態の状態出力密度の平均の線形結合を平均とするガウスでもあるとみなす。
【0051】
klijのガウス状態出力密度の平均であるmklijを次のように定義する。
【0052】
【数6】

【0053】
ここで、mはSのD次元の平均ベクトルを表し、AはD×Dの重み行列である。
【0054】
因子状態Sklijの共分散に関して3つのオプションを検討する。全ての因子状態が共通の対角共分散行列Cを有する、すなわち、任意の因子状態Sklijの共分散はCklij=Cによって与えられる。Sklijの共分散はCklij=B(C+C)によって与えられ、ここで、CはSの共分散行列であり、Bは対角行列である。Cklij=B+Bによって与えられ、ここでBは対角行列B=diag(b)である。
【0055】
1番目の手法をグローバル共分散法、後の2つの手法を複合(composed)共分散法と呼ぶ。よって因子状態Sklijの状態出力密度は次式によって与えられる。
【0056】
【数7】

【0057】
様々なAの値および共分散パラメータ値(検討中の共分散のオプションに応じてC、B、またはB)の値は未知であり、その話者の信号の現在の推定値から推定される。この推定は期待値最大化(EM)プロセスを用いて行われる。
【0058】
このプロセスの期待(E)ステップでは、様々な因子状態の帰納的(a posteriori)確率、よって話者のHMMの状態の帰納的確率を求める。因子HMMはその成分HMMの状態数の積と同数の状態を有する。よって(E)ステップにおける直接的な計算は禁止される。
【0059】
したがって、変形手法を採用する。Ghahramani等著「Factorial Hidden Markov Models」(Machine Learning, Vol. 29, pp. 245-275, Kluwer Academic Publishers, Boston 1997)を参照。本プロセスの最大化(M)ステップでは、計算した帰納的確率を用いてAを次のように推定する。
【0060】
【数8】

【0061】
ここで、AはAおよびAによりA=[A,A]として構成される行列であり、Pij(t)はi番目および(N+j)番目の値がP(Z|S)およびP(Z|S)に等しいベクトルであり、Mは、ブロックが個々の状態出力分布の平均により構成される行列で形成されるブロック行列である。
【0062】
klij=B+Bである複合分散法では、行列Bの対角成分bはEMアルゴリズムのn回目の繰り返しにおいて次のように推測される。
【0063】
【数9】

【0064】
ここでpij(t)=P(Z|Sklij)である。
【0065】
グローバル共分散法の共通の共分散Cおよび第1の複合共分散法のBは同様に計算することができる。
【0066】
EMプロセスが集束し、As、共分散パラメータ(必要に応じてC、B、またはB)を求めた後、所望の話者の最適状態シーケンスもFHMMから、同様に変分近似を用いて得ることができる。
【0067】
ある音源のターゲットシーケンス151を求めるためのシステム全般は次のように動作する。未処理信号からの特徴ベクトル141と、トランスクリプションを用いて求めたHMMとを用いて、式8および式9を用いてパラメータAおよび共分散パラメータ(必要に応じてC、B、またはB)を、全(total)対数尤度が収束するまで繰り返し更新する。
【0068】
その後、所望の話者のHMM全体で最も尤度の高い状態シーケンスを求める。ターゲット151を得た後、フィルタ120を最適化し、フィルタ和アレーの出力131を用いてターゲットを再度推測する。本システムは、ターゲットが連続した繰り返しにおいて変化しなくなったときに集束する。最終的に得られたフィルタセットを用いて、その音源の音響信号を分離する。
【0069】
発明の効果
本発明は、複数の話者からの音響信号の既知の統計特性を使用して音響信号を分類する新規のマルチチャネル話者分離システムとその方法を提供する。
【0070】
2人の話者のシステム例の場合、本発明によるシステムおよび方法は、信号分離比(signal separation ratio:SSR)を従来技術の単純な遅延和と比べて20dB改善する。話者の信号レベルが異なる場合、結果はより劇的になる(すなわち38dB改善される)。
【0071】
図4Aは混合信号を示し、図4Bおよび図4Cは、本発明による方法によって得られた2つの分離信号を示す。FHMMに基づく本方法により得られる信号分離は、フィルタ最適化の理想的なターゲットを用いて得られる信号分離に匹敵する。複合分散FHMM法は、全てのFHMM状態にグローバル共分散を用いる方法よりも少ない繰り返し回数で最終的なフィルタに集束する。
【0072】
本発明を好適な実施の形態の例として説明してきたが、本発明の精神および範囲内で様々な他の適応形態および変更形態を実施できることが理解されるべきである。したがって、添付の特許請求の範囲の目的は、本発明の真の精神および範囲内に入る変形形態および変更形態をすべて網羅することである。
【図面の簡単な説明】
【0073】
【図1】本発明に係る混合音響信号を分離するシステムのブロック図である。
【図2】本発明に係る混合音響信号を分離する方法のブロック図である。
【図3】本発明が用いる因子HMMのフロー図である。
【図4A】分離すべき混合音声信号のグラフである。
【図4B】本発明に従って分離した音声信号のグラフである。
【図4C】本発明に従って分離した音声信号のグラフである。

【特許請求の範囲】
【請求項1】
複数の音響源が生成した複数の音響信号を分離する方法であって、前記複数の音響信号は結合されて、複数のマイクによって取得される混合信号となり、前記音響源の各々について、
前記混合信号をフィルタリングしてフィルタリングされた信号にすること、
前記フィルタリングされた信号を総和して合成信号にすること、
前記合成信号から特徴を抽出すること、
前記抽出した特徴に基づいて前記合成信号中のターゲットシーケンスを推測すること、
前記ターゲットシーケンスのフィルタパラメータを最適化すること、
前記フィルタパラメータが最適なフィルタリングパラメータに収束するまで前記推測するステップと前記最適化するステップとを繰り返すこと、および
前記最適なフィルタパラメータを用いて前記混合信号をもう一度フィルタリングし、前記最適にフィルタリングされた混合信号を総和して前記音響源の音響信号を得ること
を含む、複数の音響源が生成した複数の音響信号を分離する方法。
【請求項2】
前記音響源は話者であり、前記音響信号は音声である、
請求項1記載の複数の音響源が生成した複数の音響信号を分離する方法。
【請求項3】
前記音響源の各々に少なくとも1本のマイクがあり、マイクの各々に1つのフィルタセットがあり、セットの各々のフィルタの数は前記音響源の数に等しい、
請求項1記載の複数の音響源が生成した複数の音響信号を分離する方法。
【請求項4】
前記フィルタパラメータは勾配降下法により最適化される、
請求項1記載の複数の音響源が生成した複数の音響信号を分離する方法。
【請求項5】
前記ターゲットシーケンスは隠れマルコフモデルから推定される、
請求項1記載の複数の音響源が生成した複数の音響信号を分離する方法。
【請求項6】
前記ターゲットシーケンスは、前記隠れマルコフモデルの最も尤度の高い状態シーケンスにおける状態の平均のシーケンスである、
請求項5記載の複数の音響源が生成した複数の音響信号を分離する方法。
【請求項7】
前記隠れマルコフモデルは前記音響源と独立している、
請求項5記載の複数の音響源が生成した複数の音響信号を分離する方法。
【請求項8】
前記音響信号は音声であり、前記隠れマルコフモデルは前記音声のトランスクリプションに基づいている、
請求項5記載の複数の音響源が生成した複数の音響信号を分離する方法。
【請求項9】
前記音響源全ての個々の隠れマルコフモデルの外積である因子隠れマルコフモデルにより前記混合信号を表現すること
をさらに含む請求項5記載の複数の音響源が生成した複数の音響信号を分離する方法。
【請求項10】
複数の音響源が生成した複数の音響信号を分離するシステムであって、前記複数の音響信号は結合されて、複数のマイクによって取得される混合信号となり、前記音響源の各々について、
前記混合信号をフィルタリングしてフィルタリングされた信号にする複数のフィルタと、
前記フィルタリングされた信号を総和して合成信号にする加算器と、
前記合成信号から特徴を抽出する手段と、
前記抽出した特徴に基づいて前記合成信号中のターゲットシーケンスを推測する手段と、
前記ターゲットシーケンスのフィルタパラメータを最適化する手段と、
前記フィルタパラメータが最適なフィルタリングパラメータに収束するまで前記推測および前記最適化を繰り返し、次に前記最適なフィルタパラメータを用いて前記混合信号をフィルタリングし、最適にフィルタリングされた混合信号を総和して前記音響源の音響信号を得る手段と
を備える、複数の音響源が生成した複数の音響信号を分離するシステム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4A】
image rotate

【図4B】
image rotate

【図4C】
image rotate


【公表番号】特表2006−510060(P2006−510060A)
【公表日】平成18年3月23日(2006.3.23)
【国際特許分類】
【出願番号】特願2004−560622(P2004−560622)
【出願日】平成15年12月11日(2003.12.11)
【国際出願番号】PCT/JP2003/015877
【国際公開番号】WO2004/055782
【国際公開日】平成16年7月1日(2004.7.1)
【出願人】(000006013)三菱電機株式会社 (33,312)