説明

複数の独立したプロセスによって作り出された信号のスペクトログラムの次元を削減するための方法およびシステム

【課題】スペクトログラム行列の次元を削減するためのシステム及び方法を提供する。
【解決手段】中間時間基底行列311及び中間周波数基底行列315を構成し、終了条件320に達するまで、これらの中間時間基底行列及び中間周波数基底行列に非負値行列因子分解(NMF)を反復的に適用する。NMFは、独立正則化項に対する制約317を受け、この制約は、その項の勾配の形態である。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、包括的には、時変信号のスペクトログラムの次元を削減するための方法に関し、より詳細には、独立した基底行列としてスペクトログラムを表すことに関する。
【背景技術】
【0002】
経時的に変化する信号の一般的な例は、音声等の音響信号、機械的振動、及び電磁信号である。信号処理では、このような信号は、「プロセス」によって生成され、信号は、「時系列」データと呼ばれることが多い。時変信号は、マグニチュードスペクトログラム(magnitude spectrogram:振幅スペクトログラム)として表すことができる。マグニチュードスペクトログラムのすべての値は非負値である。
【0003】
多くの用途では、特に、スペクトログラムが複数の独立したプロセスによって同時に生成されるとき、マグニチュードスペクトログラムを少数の独立した成分に分解することが役立つ。
【0004】
この分解は、マグニチュードスペクトログラムを因子分解することによって実行することができる。因子分解によって、スペクトログラムは基底行列に縮小される。これらの基底行列は、スペクトログラムの低次元の表現である。その後、基底行列を、分類、ノイズ除去、又は発生源分別に使用することができる。
【発明の概要】
【発明が解決しようとする課題】
【0005】
したがって、時変信号のスペクトログラムを少数の独立した非負値基底行列の凸結合として表すことが望まれている。
【課題を解決するための手段】
【0006】
この発明の実施の形態は、スペクトログラム行列の次元を削減するためのシステム及び方法を開示する。これらの実施の形態は、中間時間基底行列及び中間周波数基底行列を構成し、終了条件に達するまで、これらの中間時間基底行列及び中間周波数基底行列に非負値行列因子分解(NMF)を反復的に適用する。NMFは、独立正則化(independence regularization)項に対する制約を受け、この制約は、その項の勾配の形態である。
【0007】
一実施の形態は、複数の独立したプロセスによって作り出された信号のスペクトログラムの次元を削減するための方法を開示し、このスペクトログラムは、周波数基底行列と時間基底行列との結合に因子分解されるようなスペクトログラム行列によって表される。時間基底行列の行の値は、実質的に独立している。この方法は、この方法のステップを実行するためのプロセッサを備え、以下のステップを含む。
【0008】
この方法は、独立したプロセスの個数に等しい個数の列及びスペクトログラム行列の行数に等しい個数の行を有する中間周波数基底行列、独立したプロセスの個数に等しい個数の行及びスペクトログラム行列の列数に等しい個数の列を有する中間時間基底行列、並びに独立正則化要件の勾配を取得する。
【0009】
次に、この方法は、独立正則化要件の勾配を用いて、非負値行列因子分解(NMF)に従って中間周波数基底行列及び中間時間基底行列を更新し、終了条件に達した場合には、中間周波数基底行列を周波数基底行列として選択し、中間時間基底行列を時間基底行列として選択する。そうでない場合には、更新が繰り返される。
【発明の効果】
【0010】
この発明は、スペクトログラム行列の次元を削減するためのシステム及び方法を提供する。
【図面の簡単な説明】
【0011】
【図1】スペクトログラムを行列として表す模式図である。
【図2】スペクトログラム行列を独立した基底行列として表す模式図である。
【図3】この発明の実施の形態による正則化非負値行列因子分解(regularized non-negative matrix factorization)(RNMF)のブロック図である。
【発明を実施するための形態】
【0012】
この発明は、時間基底行列が無相関の行を有するような独立制約を記述する特定の正則化項を有する正則化非負値行列因子分解(RNMF)を使用して、行列により表されたスペクトログラムを周波数基底行列と時間基底行列とに因子分解できるという認識に基づいている。
【0013】
図1は、スペクトログラム110の一例を示す。このスペクトログラム110は、例えば人々の会話といった複数の独立した音響源102又はプロセスから取得された信号101から生成される。スペクトログラムは、スペクトログラム行列V 120として表すことができる(150)。
【0014】
行列Vの行は、スペクトログラムの異なる周波数F 130を表し、列は、時間T 140を表す。したがって、スペクトログラム110の値、すなわち特定の時間における特定の周波数の振幅が、スペクトログラム行列の要素v 125を形成する。したがって、スペクトログラム行列Vは、サイズF*Tの非負値行列である。
【0015】
図2に示すように、この発明の実施の形態は、因子分解することによって、行列Vを2つの行列、すなわち周波数基底行列W 230と時間基底行列H 240とに分解する。これらの行列W及びHは、それぞれサイズF*n及びn*Tの非負値行列である。ここで、nは、スペクトログラム110を生成する独立したプロセスの個数である。個数nは、F及びTの最小値よりも小さな正の整数であり、例えば、このスペクトログラム110では、n=3である。周波数基底行列Wの列は、各独立したプロセスによって作り出された信号のスペクトル形状を表す。時間基底行列Hの行は、各独立したプロセスの、時間に依存した活性化レベルを表す。
【0016】
スペクトログラムを形成するプロセスは独立しているので、時間基底行列は、無相関の要素を有する。すなわち、行は、互いに独立している。したがって、分解
V=WH
は、
ab≧0 ∀a,b
bc≧0 ∀b,c
ac≧0 ∀a,c
E(HH)≒diag(E(HH)) (1)
によって制約される。ここで、Wab 235及びHbc 245は、それぞれ行列Wの要素及び行列Hの要素であり、関数E()は、行列H内のベクトルのすべてにわたる期待値である。関数diag()は、その関数の引数と同じ対角要素を有する対角行列である。
【0017】
この発明の実施の形態は、
D(W,H)=1/2(||V−WH||+αJ(H) (2)
に従って、RNMFの最小化に基づき、式(1)の解を求める。ここで、||V−WH||は、再構成誤差、すなわち、スペクトログラム行列Vと因子分解された近似WHとの間の差のフロベニウスノルムである。理想的には、再構成誤差は0であるべきである。J(H)は、時間基底行列Hの独立正則化要件を表し、αは、最適化プロセス中の独立正則化要件のためのスカラー重みである。
【0018】
独立正則化要件J(H)は、該要件が最小化されるときに、時間基底行列Hの行間の相関も最小化されるように選択される。
【0019】
一実施の形態では、
J(H)=||C(H)|| (3)
C(H)=P−1/2HH−1/2 (4)
に従って、行列Hの経験的相関のフロベニウスノルムが使用される。ここで、C(H)は、Hのエネルギー正規化相関行列(energy-normalized correlation matrix)であり、Pは、時間基底行列Hの行の、例えば二乗和といったエネルギーの対角行列である。行列C(H)の対角要素は1である。したがって、フロベニウスノルムの最小化によって、非対角要素は強制的に0にされる。
【0020】
RNMFは、
ab←Wab・[VH]ab/[WHH]ab
bc←Wbc・[[WV]bc−αφ(Hbc)]ε/([WWH]bc+ε)
(5)
に従って、行列Hの独立正則化要件で更新される。ここで、εは、小さな正の定数であり、[]εは、非負値制約の違反を防止するために、εよりも小さな括弧内のいずれの値もεに置き換えられることを示す。時間基底行列Hに関する独立正則化要件J(H)の勾配は、φ(H)であり、
【0021】
【数1】

【0022】
である。ここで、変数A及びBは、
A=HH (9)
B=NN (10)
=||H|| (11)
∂Aij/∂Hbc=1+H (12)
∂Bij/∂Hbc=Hbc(U1+1) (13)
及び
U=N(N−1) (14)
に従って規定される。ここで、1は、1であるb番目の要素を除くすべての要素が0の値を有するインジケータベクトルである。Nは、その要素が時間基底行列Hの行のノルムであるベクトルであり、Uは、それら要素が反転されたベクトルNの外積である。
【0023】
勾配φ(H)は、時間基底行列Hの行に対して独立制約を課す。所望の分解によって、スペクトログラムを生成するプロセスの、時間に依存した活性化レベルが達成される。したがって、或るプロセスに関する活性化レベル、すなわち行列H内の或る行の要素は、別のプロセスに関する活性化レベル、すなわち行列Hの別の行内の要素についての情報を提供しない。
【0024】
したがって、この発明の実施の形態は、独立正則化要件の新規な勾配制約を提供し、これによって、行列Hの行の要素の実質的な独立がもたらされ、行は、互いに独立又はほぼ独立となる。
【0025】
スペクトログラムの非線形次元削減のための方法
図3は、スペクトログラムの次元を削減するための方法300を示す。この方法300のステップは、メモリ及び入出力インターフェースを備えるプロセッサ301が実行することができる。この方法は、正則化非負値行列因子分解(RNMF)310を含む。このRNMF310は、終了条件320が充足されるまで、反復的に実行される。
【0026】
この方法への入力は、スペクトログラム行列120、スペクトログラムを生成する独立したプロセスの個数n 313、中間時間基底行列Hin 311、中間周波数基底行列Win 315、独立正則化要件の勾配φ(H)317、及びしきい値T 340を含む。
【0027】
スペクトログラム行列は、n個の独立したプロセスから取得されたスペクトログラムを表す。独立したプロセスの個数は、スペクトログラム行列120の行数よりも少ない。すなわち、スペクトログラム110の周波数帯域の個数130よりも少ない。中間時間基底行列Hinは、個数nに等しい個数の行及びスペクトログラム行列120の列数に等しい個数の列でランダムに構成される。中間周波数基底行列Win 315は、個数nに等しい個数の列及びスペクトログラム行列120の行数に等しい個数の行でランダムに構成される。しきい値340は、反復回数を示すこともできるし、現在の反復と前の反復との間の値の差を示すこともできる。
【0028】
各反復において、RNMF310は、式(6)〜(14)に従って定義された勾配φ(H)で、式(5)に従って周波数基底行列W及び時間基底行列H 320を求める。
【0029】
終了条件を充足していることがチェックされる(330)。この条件が偽である場合、RNMFは、更新された因子W、H320を用いて繰り返される。そうではなく、真である場合、行列W 230及び行列H 240が出力される。
【0030】
この発明を、好ましい実施の形態の例として説明してきたが、この発明の精神及び範囲内で他のさまざまな適合及び変更を行えることが理解されるべきである。したがって、この発明の真の精神及び範囲内に入るすべての変形及び変更を包含することが、添付の特許請求の範囲の目的である。

【特許請求の範囲】
【請求項1】
複数の独立したプロセスによって作り出された信号のスペクトログラムの次元を削減するための方法であって、前記スペクトログラムは、周波数基底行列と時間基底行列との結合に因子分解されるようなスペクトログラム行列によって表され、前記時間基底行列の行の値は、実質的に独立しており、該方法は、該方法のステップを実行するためのプロセッサを使用し、該方法は、
独立したプロセスの個数に等しい個数の列及び前記スペクトログラム行列の行数に等しい個数の行を有する中間周波数基底行列を取得するステップと、
独立したプロセスの個数に等しい個数の行及び前記スペクトログラム行列の列数に等しい個数の列を有する中間時間基底行列を取得するステップと、
独立正則化要件の勾配を取得するステップと、
前記独立正則化要件の前記勾配を用いて、非負値行列因子分解(NMF)に従って前記中間周波数基底行列及び前記中間時間基底行列を更新するステップと、
終了条件に達した場合には、前記中間周波数基底行列を前記周波数基底行列として選択すると共に、前記中間時間基底行列を前記時間基底行列として選択するステップと、
そうでない場合には、前記更新することを繰り返すステップと、
を含む、方法。
【請求項2】
前記独立したプロセスの個数が前記スペクトログラム行列の行数よりも少なくなるような前記複数の独立したプロセスを選択することをさらに含む、請求項1に記載の方法。
【請求項3】
前記独立したプロセスの個数が前記スペクトログラム行列の列数よりも少なくなるような前記複数の独立したプロセスを選択することをさらに含む、請求項1に記載の方法。
【請求項4】
前記中間周波数基底行列を前記取得するステップは、
前記中間周波数基底行列をランダムに構成することをさらに含む、請求項1に記載の方法。
【請求項5】
前記中間時間基底行列を前記取得するステップは、
前記中間時間基底行列をランダムに構成することをさらに含む、請求項1に記載の方法。
【請求項6】
前記勾配は、
【数1】

に従っており、ここで、φ(H)は、前記時間基底行列Hに関する前記独立正則化要件J(H)の勾配であり、変数A及びBは、
A=HH
B=NN
=||H||
∂Aij/∂Hbc=1+H
∂Bij/∂Hbc=Hbc(U1+1)
U=N(N−1)
に従って規定され、ここで、1は、b番目の要素の値が1であることを除いて、すべての要素が0の値を有するインジケータベクトルであり、Nは、その要素が前記時間基底行列Hの前記行のノルムであるベクトルであり、Uは、前記要素が反転された前記ベクトルNの外積である、請求項1に記載の方法。
【請求項7】
複数の独立したプロセスによって作り出された信号のスペクトログラムの次元を削減するための方法であって、該方法は、該方法のステップを実行するためのプロセッサを使用し、
前記スペクトログラムをスペクトログラム行列によって表すステップであって、該スペクトログラム行列の各列の要素は、前記スペクトログラムの特定の時間における周波数振幅を表すものと、
中間時間基底行列を構成するステップであって、行数は、前記独立したプロセスの個数に等しく、列数は、前記スペクトログラム行列の列数に等しいものと、
中間周波数基底行列を構成するステップであって、列数は、前記独立したプロセスの前記個数に等しく、行数は、前記スペクトログラム行列の行数に等しいものと、
終了条件に達するまで、前記中間時間基底行列及び前記中間周波数基底行列に非負値行列因子分解(NMF)を反復的に適用するステップであって、該NMFは、独立正則化項に対する制約を受け、該制約は、前記項の勾配の形態であるものと、
を含む、方法。
【請求項8】
前記NMFの結果に基づいて前記中間時間基底行列及び前記中間周波数基底行列を更新することをさらに含む、請求項7に記載の方法。
【請求項9】
前記複数の独立したプロセスを取得することであって、前記独立したプロセスの個数は前記スペクトログラム行列の行数よりも少ないものをさらに含む、請求項7に記載の方法。
【請求項10】
前記複数の独立したプロセスを取得することであって、前記独立したプロセスの個数は前記スペクトログラム行列の列数よりも少ないものをさらに含む、請求項7に記載の方法。
【請求項11】
前記中間周波数基底行列を構成するステップは、
前記中間周波数基底行列をランダムに構成することをさらに含む、請求項7に記載の方法。
【請求項12】
前記中間時間基底行列を構成するステップは、
前記中間時間基底行列をランダムに構成することをさらに含む、請求項7に記載の方法。
【請求項13】
複数の独立したプロセスによって作り出された信号のスペクトログラムの次元を削減するためのシステムであって、前記スペクトログラムは、周波数基底行列と時間基底行列との結合に因子分解されるようなスペクトログラム行列によって表され、前記時間基底行列の行の値は、実質的に独立しており、該システムは、
中間時間基底行列をランダムに構成する手段であって、該中間時間基底行列の行数は、前記独立したプロセスの個数に等しく、該中間時間基底行列の列数は、前記スペクトログラム行列の列数に等しいものと、
中間周波数基底行列を構成する手段であって、該中間周波数基底行列の列数は、前記独立したプロセスの前記個数に等しく、該中間周波数基底行列の行数は、前記スペクトログラム行列の行数に等しいものと、
終了条件に達するまで、前記中間時間基底行列及び前記中間周波数基底行列に非負値行列因子分解(NMF)を反復的に適用する手段であって、該NMFは、独立正則化項に対する制約を受け、該制約は、前記項の勾配の形態であり、該NMFは、前記中間時間基底行列及び前記中間周波数基底行列を更新するものと、
を備える、システム。
【請求項14】
前記独立したプロセスの個数は、ランダムに選択される、請求項13に記載のシステム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate


【公開番号】特開2011−76068(P2011−76068A)
【公開日】平成23年4月14日(2011.4.14)
【国際特許分類】
【外国語出願】
【出願番号】特願2010−165122(P2010−165122)
【出願日】平成22年7月22日(2010.7.22)
【出願人】(597067574)ミツビシ・エレクトリック・リサーチ・ラボラトリーズ・インコーポレイテッド (484)
【住所又は居所原語表記】201 BROADWAY, CAMBRIDGE, MASSACHUSETTS 02139, U.S.A.