説明

信号分離装置、信号分離方法

【課題】内部ノイズ源を有する場合でも、計算負荷が少なくかつ正確にユーザー音声を認識できる信号分離システムを提供する。
【解決手段】信号分離システムは、ユーザー音声を集音することを目的とした外部マイクと、システム内部ノイズ源からの内部ノイズだけを検知する内部センサと、を有する。独立成分分析部は、分離フィルタ行列の最適化により、内部ノイズを出力する分離信号とそれを含まない信号群に分離する。パーミュテーション解決部は、内部ノイズを含まない分離信号群に対してパーミュテーション解決を実行する。パーミュテーション解決部では、分離信号をラプラス分布でフィッティングした際のラプラス分布のスケールパラメータの値を求め、そのパラメータの最大値をもつ分離信号をユーザー音声とする。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複数の信号が空間内で混合された状態において、特定の信号を抽出する信号分離装置および信号分離方法に関し、特に、パーミュテーション解決技術に関する。
【背景技術】
【0002】
複数の原信号が未知の係数によって線形に混合されているときに、統計的独立性を用いて原信号を分離・復元する独立成分分析(Independent Component Analysis; ICA)が知られている(特許文献1)。
【0003】
複数の原信号s(t)を複数のマイクロフォンで観測した観測信号をx(t)とする。
【0004】

【0005】
ICAにおいては、観測信号x(t)を短時間離散フーリエ変換によって時間周波数領域の信号(X(f, t))に変換した信号を用い、周波数領域の独立成分分析によってS(f、t)を推定する。
ここで、原信号s(t)および観測信号x(t)を短時間フーリエ変換したものをそれぞれS(f、t)、X(f、t)とする。
時間周波数領域でS(f,t)を推定するには、先ず、下記式のような式を考える。
この式において、Y(f,t)はk番目の出力Y(t)を要素とする列ベクトルを表す。
W(f)はwij(f)を要素とするn×nの行列(分離行列)を表す。
【0006】

【0007】
次に、周波数ビンfを固定してtを変化させたときにY1(f,t)〜Yn(f,t)が統計的に独立となる(実際には、独立性が最大となる)ようなW(f)を求める。
統計的に独立となるY1(f,t)〜Yn(f,t)が全てのfについて得られたら、それらを逆フーリエ変換することで、時間領域の分離信号y(t)を得ることができる。
【0008】
しかしながら、時間周波数領域の独立成分分析では、信号の分離処理を周波数binごとに行っており、周波数binの間の関係は考慮していない。
そのため、分離自体は成功しても、周波数binの間で分離先の不統一が発生する可能性がある。
分離先の不統一とは、例えばf=1ではY1にS1由来の信号が現れるのに対してf=2ではY1にS2由来の信号が現れる、というような現象のことであり、パーミュテーション(置換)の問題と呼ばれている。
【0009】
特許文献1では、信号の到来方向を推定し、各信号の方位情報に基づいて信号にラベル付けを行うことでパーミュテーション問題を解決する手法が開示されている。
しかしながら、実際にはすべての音源が点音源であるとは限らないので、信号の到来方向を正しく推定できるとは限らない。
たとえば拡散性ノイズの場合にはノイズの方位を特定することができず、ラベル付けの間違いが発生してしまう。
【0010】
また、特許文献2、非特許文献1には、分離した信号の結合確率密度分布を求め、この結合確率密度分布の形状に基づいて分離した信号を音声とノイズとに振り分ける手法を開示している。この手法では、たとえば、結合確率密度分布が非ガウス分布である信号を特定の音声信号と判定し、ガウス分布である信号をノイズ信号と判定する。
この手法によれば、雑音(拡散性ノイズ)に対しても正確にラベル付けを行い、高い精度で信号の分離先を決定することができる。
【先行技術文献】
【特許文献】
【0011】
【特許文献1】特開2004-145172号公報
【特許文献2】WO/2009/113192
【非特許文献】
【0012】
【非特許文献1】Jani Even, Hiroshi Saruwatari, Kiyohiro Shikano, ``An Improved permutation solver for blind signal separation based front-ends in robot audition,'' IEEE/RSJ International Conference on Intelligent Robotics and Systems (IROS2008), Nice, France, pp. 2172--2177, September 2008.
【発明の概要】
【発明が解決しようとする課題】
【0013】
ここで、実際に信号分離装置を利用する環境としては次のような場合が想定される。
図5は、音声認識機能を有するロボット10を示す図である。
このロボット10は、複数のマイク11からなるマイクアレイ12と、マイクアレイ12からの観測信号を信号処理する信号分離装置20と、を備えている。
この構成において、マイクアレイ12には、ユーザー音声S1とともに周辺ノイズS2が入る。
さらに、ロボット自身がノイズ発生源となる。
すなわち、ロボット10はモーターなどの動力源30を備えているので、この動力源30からのノイズ音S3もマイク11に入ってしまうことになる。
【0014】
したがって、観測信号x(t)には動力源30からのノイズS3が含まれることになる。
このようにユーザーの音声S1(f、t)、周辺ノイズS2(f、t)、および、動力ノイズS3(f、t)を含んだ信号を独立成分分析して、統計的に独立となるY1(f,t)〜Yn(f,t)を求めることとなる。
そのうえで各分離信号Y1(f,t)〜Yn(f,t)にラベル付けを行うことになる。
しかしながら、上記のように結合確率密度分布が非ガウス分布である信号を単純にユーザーの音声であると判定すると、ラベル付けに間違いが生じる恐れがある。
これは、動力源30のノイズS3も高い尖度を有する非ガウス分布の結合確率密度を示すからである。
【0015】
このように特許文献2、非特許文献1に開示された従来の手法を実際の環境に適用した場合、分離信号のラベル付けを間違えてしまう恐れがある。
さらに、結合確率密度分布を求める演算は計算量が非常に多く、ユーザーの音声、周辺ノイズに加えて動力ノイズについても結合確率密度分布の形状を求めるとなると、その計算負荷が大きすぎる。
【課題を解決するための手段】
【0016】
本発明の信号分離システムは、
複数の信号が混合された時間領域の観測信号を独立成分分析を用いて信号ごとに分離し、分離した信号のうちから特定のユーザー音声を抽出する信号分離システムであって、
外部に向けて設けられた外部マイクと、
システム内に存在する内部ノイズ源からの内部ノイズのみを検知する内部センサと、
前記外部マイクおよび前記内部センサからの信号を離散フーリエ変換する離散フーリエ変換部と、
独立成分分析により互いに独立した分離信号を取り出す独立成分分析部と、
独立成分分析の結果に対してパーミュテーション解決を実行するパーミュテーション解決部と、を備え、
前記独立成分分析部は、前記内部センサからの検知信号を用いて特定の内部ノイズ分離信号が前記内部ノイズ源からのノイズだけを含むようにし、この内部ノイズ分離信号と独立になるように調整することにより前記内部ノイズを含まない分離信号を取り出し、
前記パーミュテーション解決部は、前記内部ノイズを含まない前記分離信号についてパーミュテーション解決を実行する
ことを特徴とする。
【0017】
本発明では、
前記パーミュテーション解決部は、
前記分離信号の確率密度分布の尖り度であるスパイクドネスを算出するスパイクドネス算出部と、
前記スパイクドネスに基づいて前記分離信号にユーザー音声または周辺ノイズのラベル付けを実行するクラスタリング部と、を備え、
前記スパイクドネス算出部は、前記スパイクドネスとして、分離信号をラプラス分布でフィッティングしたときのラプラス分布のスケールパラメータを求める
ことが好ましい。
【0018】
本発明では、
前記クラスタリング部は、前記スパイクドネスが最も大きい分離信号をユーザー音声とする
ことが好ましい。
【図面の簡単な説明】
【0019】
【図1】第1実施形態に係る信号分離装置を搭載したロボットを示す図。
【図2】信号分離装置のブロック図。
【図3】パーミュテーション解決部340のブロック図。
【図4】観測信号x1(t)、x2(t)からスパイクドネス(スケールパラメータαi(f))を求めるまでの流れの概略を示す図。
【図5】音声認識機能を有するロボット10を示す図。
【発明を実施するための形態】
【0020】
本発明の実施の形態を図示するとともに図中の各要素に付した符号を参照して説明する。
(第1実施形態)
本発明に係る第1実施形態について説明する。
図1は、第1実施形態に係る信号分離装置を搭載したロボットを示す図である。
ロボット100には、外部マイク110と、内部センサ120と、信号分離装置200と、が設けられている。
【0021】
外部マイク110はロボット100の体表面に設置された集音マイクである。
ここでは説明のため、第1外部マイク111と、第2外部マイク112と、が設けられているとする。
このとき、外部マイク110には、ユーザーからの音声S1および周辺からのノイズS2が入る。
加えて、外部マイク110には、動力源30からのノイズS3も入る。
【0022】
内部センサ120は、動力源30からのノイズS3を限定的に検知するセンサである。
内部センサ120は、動力源30からのノイズを検知する一方、外部からの音信号(S1、S2)は検知しないようになっている。内部センサ120は、たとえば、外部マイク110の裏など、外部マイクに近接した位置に配設されることが好ましい。
このように動力源30からノイズS3を限定的に検知するセンサとしては、たとえば加速度センサあるいは指向性の高いマイクが例として挙げられる。
【0023】
なお、外部マイク110および内部センサ120の数は限定されず、必要に応じて増減されるものである。
たとえば、外部マイク110が複数ある場合、外部マイクごとに内部センサを設けるようにしてもよい。
【0024】
ここで、ユーザー音声をS1(f、t)とし、周辺ノイズをS2(f、t)とし、動力ノイズをS3(f、t)として表す。
また、第1外部マイク111による観測信号をX1(f、t)、第2外部マイク112による観測信号をX2(f、t)、内部センサ120による観測信号をR1(f、t)、として表す。
このとき、未知の係数行列A(f)を用いて、原信号と観測信号との関係は次のようになる。
【0025】

【0026】
ここで、第1外部マイク111および第2外部マイク112にはユーザー音声S1(f、t)、周辺ノイズS2(f、t)および動力ノイズS3(f、t)が入るので、X1(f、t)、X2(f、t)に対応する係数行列Aの成分(A11(f)、A12(f)、A13(f)、A21(f)、A22(f)、A23(f))は0ではない係数がはいる。
これに対し、内部センサ120には、ユーザー音声S1(f、t)および周辺ノイズS2(f、t)が入らないので、R1(f、t)に対応する係数行列Aの成分(0、0、A33(f))としては動力ノイズ30に対応する係数A33(f)の他は0になる。
【0027】
図2は、信号分離装置のブロック図である。
信号分離装置200は、アナログ/デジタル(A/D)変換部210と、雑音抑圧処理部300と、音声認識部220を備えている。
【0028】
A/D変換部210は、外部マイク110および内部センサ120から入力されたそれぞれの信号をデジタル信号に変換して雑音抑圧処理部300に出力する。
【0029】
雑音抑圧処理部300は、入力されたデジタル信号に含まれるノイズを抑圧する処理を実行する。
雑音抑圧処理部300は、短時間離散フーリエ変換部310、独立成分分析部320、利得補正部330、パーミュテーション解決部340、逆離散フーリエ変換部350を備えている。
【0030】
短時間離散フーリエ変換部310は、AD変換部210からの各デジタルデータに対して短時間離散フーリエ変換を実行する。
【0031】
独立成分分析部320は、短時間離散フーリエ変換部310で得られた時間−周波数領域表現された観測信号に対して独立成分分析(ICA:Independent Component Analysis)を行い、各周波数ビンごとに分離行列を算出する。
独立成分分析の具体的な処理については、例えば、特許文献1に詳細に開示されている。
【0032】
ここで、観測信号x1(t)、x2(t)、r1(t)、をそれぞれ短時間離散フーリエ変換したものをX1 (f, t)、X2 (f, t)、R1 (f, t)として表す。
そして、分離行列W(f)を用いて、統計的に独立な分離信号Y1 (f, t)、Y2 (f, t)、Q1 (f, t)が取り出されるとする。
【0033】

【0034】
本実施形態では、動力ノイズS3 (f, t)だけを含むR1(f, t)に係数(W33(f))を乗算した分離信号Q1(f、t)(内部ノイズ分離信号)を生成する。
ICAは、このQ1(f、t)と分離信号Y1(f、t)、Y2(f、t)とが互いに独立になるように分離フィルタ行列W(f)を適応学習するので、動力ノイズを含まない分離信号Y1(f、t)、Y2(f、t)が取り出される(セミブラインド信号分離)。
すなわち、Y1(f、t)、Y2(f、t)は、動力ノイズ以外の成分、すなわち、ユーザー音声および周辺ノイズのいずれかである。
【0035】
利得補正部330は、独立成分分析部320によって算出された各周波数での分離行列に対して利得補正処理を実行する。
【0036】
パーミュテーション解決部340は、パーミュテーション問題を解決するための処理を実行する。
図3は、パーミュテーション解決部340のブロック図である。
ここで、本実施形態においては、独立成分分析部320において分離されたY1(f、t)、Y2(f、t)、Q1(f、t)のうち、すでに、Y1(f、t)とY2(f、t)とが、動力ノイズ以外の成分、すなわち、ユーザー音声か周辺ノイズのいずれかであることがわかっている。
したがって、パーミュテーションの対象となるのは、Y1(f、t)とY2(f、t)である。
パーミュテーション解決部340には、分離信号Y1(f、t)、Y2(f、t)が入力され、分離信号Q1(f、t)については次段の逆フーリエ変換部350に直接送られる。
【0037】
そして、本実施形態のパーミュテーション解決においては、ユーザー音声の確率密度分布が周辺ノイズの確率密度分布に比べてより鋭く尖った形状(spiker)であることを利用する。
さらに、確率密度分布のスパイクドネス(尖り度)を見積もるために、ラプラス分布のスケールパラメータαi(f)を用いる。
ここで、ラプラス分布のスケールパラメータαi(f)を推定するにあたっては、分離信号Y(f, t)の絶対値の期待値を利用する。
以下、順に説明する。
【0038】
パーミュテーション解決部340は、スパイクドネス(Spikedness)算出部341と、クラスタリング決定部342と、を備える。
【0039】
スパイクドネス算出部341は、分離信号Y1、Y2の確率密度分布のスパイクドネス(分布の尖り度)を求める。
スパイクドネスとしては、分離信号Yi(f、t)をラプラス分布でフィッティングしたときのラプラス分布のスケールパラメータαi(f)を用いる。
そして、スケールパラメータαi(f)は最尤推定法を用いることで、次式により算出ができる。
【0040】

【0041】
ここで、Y(f、t)は複素スペクトルであるので、|Y(f、t)|は複素数の絶対値を意味する。
また、ε{|Y(f、t)|}は、所定フレーム数における|Y(f、t)|の平均を意味する。
【0042】
ここで、図4は、観測信号x1(t)、x2(t)、r1(t)からスパイクドネス(スケールパラメータαi(f))を求めるまでの流れの概略を示す図である。
第1外部マイク111で集音された音声信号がx1(t)、第2外部マイク112で集音された音声信号がx2(t)、内部センサ120によって検知された信号がr1(t)である。
これを、所定時間幅の窓(フレーム)で離散フーリエ変換した結果がX1(f、t)、X2(f、t)、R1(f、t)である。
X1(f、t)、X2(f、t)、R1(f、t)に対する独立成分分析の結果がY1(f、t)、Y2(f、t)、Q1(f、t)である。
このとき、周波数ビン(bin)f=fkのときのスパイクドネス(スケールパラメータαi(fk))は、たとえば、t0−t2の時間幅を用いて次のように表わされる。
【0043】

【0044】
クラスタリング決定部342は、前記のように求められたスパイクドネス(スケールパラメータαi(fk))を用いてY1(fk、t)、Y2(fk、t)のラベル付けを行い、必要があればY1(fk、t)、Y2(fk、t)の入れ替え作業を実行する。
すなわち、Y1(fk、t)、Y2(fk、t)のうちの一方をユーザー音声と判定し、他方を周辺ノイズと判定し、すべての周波数ビンにおいてユーザー音声と周辺ノイズとの振り分けが統一されるようにする。
具体的には、スパイクドネス(スケールパラメータαi(fk))が最も大きいものをユーザー音声であると判定する。
【0045】
たとえば、インデックス番号1にユーザー音声を振り分け、インデックス番号2に周辺ノイズを振り分けるとすると、次のような処理になる。
(ケース1)
ケース1として、α1(fk)≧α2(fk)のときを考える。
この場合、Y1(fk, t)がユーザー音声となっており、Y2(fk, t)が周辺ノイズとなっていると判断できる。
この場合、入れ替え作業は必要ない。
【0046】
(ケース2)
ケース2として、α1(fk)<α2(fk)のときを考える。
この場合、Y2(fk, t)がユーザー音声となっており、Y1(fk, t)が周辺ノイズとなっていると判断できる。
この場合、この周波数ビンfkでは入れ替え作業を実行する。
【0047】
このようなクラスタリングをすべての周波数ビンで実行する。
【0048】
最後に、逆離散フーリエ変換部350は、逆離散フーリエ変換を実行し、周波数領域のデータY1(f, t)、Y2(f, t)、Q1(f, t)を時間領域のデータに変換して出力する。
【0049】
このような構成によれば、次の効果を奏することができる。
(1)内部ノイズ源(動力源)30からのノイズだけを限定的に検知する内部センサ120を設けている。
そして、独立成分分析にあたっては、内部ノイズを推定するQ1(f、t)とそれ以外の分離信号Y1(f、t)、Y2(f、t)間が互いに独立になるように最適化される。
Q1(f、t)は内部センサ120からの信号R1(f、t)だけから生成されるのでQ1(f、t)に内部ノイズが必ず出力される。
仮に、分離信号Y1(f、t)、Y2(f、t)に内部ノイズが含まれた場合、相関が生じるので、その成分はICAの最適化により除去されることになる。
従って、内部ノイズはQ1(f、t)だけに出力される。
これにより、Q1(f、t)以外の分離信号Y1(f、t)、Y2(f、t)のどれかがユーザー音声となる。
すなわち、Q1(f、t)以外の分離信号Y1(f、t)、Y2(f、t)に対してパーミュテーション問題を解決すればよい。
したがって、パーミュテーション解決の計算負荷を減少させることができる。
【0050】
(2)内部ノイズ源(動力源)30からのノイズは、確率密度分布の尖度が大きいなどユーザー音声とよく似ており、内部ノイズとユーザー音声との間ではパーミュテーション問題を解決しにくい場合がある。
この点、本実施形態では、内部ノイズだけを検知するセンサを利用し、かつ、分離フィルタ行列W(f)の成分W31(f)、W32(f)を0としてモデル化することで分離信号Q1(f、t)に内部ノイズを集約させ、残りの分離信号Y1(f、t)、Y2(f、t)に含まれないようにしている。
したがって、ユーザー音声を分離して取り出す正確さを向上させることができる。
【0051】
(3)本実施形態では、ラベル付けにあたっては、分離信号Y1(f、t)、Y2(f、t)の確率密度分布のスパイクドネス(分布の尖り度)を用い、さらに、スパイクドネスとしては、分離信号Yi(f、t)をラプラス分布でフィッティングしたときのラプラス分布のスケールパラメータαi(f)を用いる。
この手法によれば、計算量を格段に少なくすることができる。
【0052】
なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。
【符号の説明】
【0053】
10…ロボット、11…マイク、12…マイクアレイ、20…信号分離装置、30…動力源、100…ロボット、110…外部マイク、111…外部マイク、112…外部マイク、120…内部センサ、200…信号分離装置、210…AD変換部、220…音声認識部、300…雑音抑圧処理部、310…離散フーリエ変換部、320…独立成分分析部、330…利得補正部、340…パーミュテーション解決部、341…スパイクドネス算出部、342…クラスタリング決定部、350…逆離散フーリエ変換部。

【特許請求の範囲】
【請求項1】
複数の信号が混合された時間領域の観測信号を独立成分分析を用いて信号ごとに分離し、分離した信号のうちから特定のユーザー音声を抽出する信号分離システムであって、
外部に向けて設けられた外部マイクと、
システム内に存在する内部ノイズ源からの内部ノイズのみを検知する内部センサと、
前記外部マイクおよび前記内部センサからの信号を離散フーリエ変換する離散フーリエ変換部と、
独立成分分析により互いに独立した分離信号を取り出す独立成分分析部と、
独立成分分析の結果に対してパーミュテーション解決を実行するパーミュテーション解決部と、を備え、
前記独立成分分析部は、前記内部センサからの検知信号を用いて特定の内部ノイズ分離信号が前記内部ノイズ源からのノイズだけを含むようにし、この内部ノイズ分離信号と独立になるように調整することにより前記内部ノイズを含まない分離信号を取り出し、
前記パーミュテーション解決部は、前記内部ノイズを含まない前記分離信号についてパーミュテーション解決を実行する
ことを特徴とする信号分離システム。
【請求項2】
請求項1に記載の信号分離システムにおいて、
前記パーミュテーション解決部は、
前記分離信号の確率密度分布の尖り度であるスパイクドネスを算出するスパイクドネス算出部と、
前記スパイクドネスに基づいて前記分離信号にユーザー音声または周辺ノイズのラベル付けを実行するクラスタリング部と、を備え、
前記スパイクドネス算出部は、前記スパイクドネスとして、分離信号をラプラス分布でフィッティングしたときのラプラス分布のスケールパラメータを求める
ことを特徴とする信号分離システム。
【請求項3】
請求項2に記載の信号分離システムにおいて、
前記スパイクドネス算出部は、
前記スケールパラメータの最尤推定値として、前記分離信号の絶対値の期待値を用いる
ことを特徴とする信号分離システム。
【請求項4】
請求項2または請求項3に記載の信号分離システムにおいて、
前記スパイクドネス算出部は、
分離信号をY(f、t)で表わすとき、
前記スケールパラメータαi(f)を次式で求める
ことを特徴とする信号分離システム。

ここで、ε{|Y(f、t)|}は所定フレーム数における|Y(f、t)|の平均である。
【請求項5】
請求項2から請求項4のいずれかに記載の信号分離システムにおいて、
前記クラスタリング部は、前記スパイクドネスが最も大きい分離信号をユーザー音声とする
ことを特徴とする信号分離システム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2011−81293(P2011−81293A)
【公開日】平成23年4月21日(2011.4.21)
【国際特許分類】
【出願番号】特願2009−234978(P2009−234978)
【出願日】平成21年10月9日(2009.10.9)
【出願人】(000003207)トヨタ自動車株式会社 (59,920)
【出願人】(504143441)国立大学法人 奈良先端科学技術大学院大学 (226)
【Fターム(参考)】