説明

マイクロホンアレイにおけるマイクロホンの感度を補正する装置、この装置を含んだマイクロホンアレイシステム、およびプログラム

【課題】マイクロホンアレイを構成する各マイクロホンの感度のばらつきを適切に補正するための条件が揃っているか否かについて特段の注意を払うことなく、感度補正を適切に行うことを可能にする。
【解決手段】 各々異なる音源から放射される2つの音の混合音を2つのマイクロホンの各々で収音して得られる2つの観測信号に対する音源分離を行うための分離行列をその1行目についてはアレイ面の法線方向に死角を有し、その2行目についてはマイクロホンの配列方向に死角を有するように生成する。そして、この分離行列の1行目の行列要素により抑圧される音の到来方向を推定し、その到来方向がアレイ面の法線方向から大きく外れていない場合に、当該1行目の行列要素の絶対値の比に応じて何れか一方のマイクロホンの出力信号の信号レベルを補正する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、マイクロホンアレイを構成する各マイクロホンの感度のばらつきを補正する技術に関する。
【背景技術】
【0002】
特定の方向から到来する音のみを収音することができるように指向性パターンの設定が可能な収音システムの一例として、マイクロホンアレイシステムが挙げられる。マイクロホンアレイシステムは、複数のマイクロホンを1次元或いは2次元的に配列したマイクロホンアレイを含んでおり、マイクロホンアレイを構成する各マイクロホンから出力されるオーディオ信号にFIR(Finite Impulse Response)フィルタ処理などのフィルタ処理を施し、フィルタ処理済みのオーディオ信号をミキシングして出力する構成となっている。そして、上記フィルタ処理のフィルタ係数を調整することで指向性パターンの調整が行われる。
【0003】
この種の収音システムでは、各マイクロホンの感度が揃っている必要がある。何故ならば、各マイクロホンの感度にばらつきがあると、指向性パターンの調整に支障が生じ得るからである。しかし、マイクロホンは機械部品であるため製造ばらつきを避けることはできず、製造段階では±4デシベル若しくはそれ以上の感度のばらつきが生じる可能性がある。マイクロホンアレイを構成する各マイクロホンの感度に±4デシベル程度のばらつきがあると、指向性能の劣化は避けられない。そこで、マイクロホンアレイを構成する各マイクロホンの感度のばらつきを補正する技術が種々提案されている(特許文献1や特許文献2など)。特許文献1には、マイクロホンアレイを構成する複数のマイクロホンの何れか一つを基準マイクロホンとし、他のマイクロホンの出力信号の信号レベルが基準マイクロホンの出力信号のレベルと等しくなるようにゲインを調整することで、感度のばらつきを補正する技術が開示されている。一方、特許文献2には、マイクロホンアレイを構成する複数のマイクロホンのうち、一定周波数かつ一定音圧の音響信号が所定時間以上入力されているマイクロホンを基準マイクロホンとして他のマイクロホンの感度を補正する技術が開示されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開平7−131886号公報
【特許文献2】特開2007−24618号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかし、マイクロホンアレイを構成する複数のマイクロホンの何れか1つを基準として他のマイクロホンの出力信号のレベル調整を行うことで感度のばらつきを補正する技術には、マイクロホンアレイに対して音源が正対していない場合(アレイ面の中心を通り、かつアレイ面に垂直な方向(以下、アレイ面の法線方向)に音源が位置していない場合)に適切な感度補正をすることができないといった問題がある。これは、遠隔音源からの音波は平面波となって空間を伝搬するため、マイクロホンアレイに対して音源が正対していない場合には各マイクロホンと音源との距離の差により、各マイクロホンの位置で観測される音波の音圧が各々異なったものになるからである。したがって、特許文献1等に開示された技術によりマイクロホンの感度を補正する場合は、感度補正を適切に行い得る条件(音源がマイクロホンアレイに正対している等)が揃っているか否かについて十分に注意を払う必要があり、煩わしいといった問題があった。なお、このような問題を解決するには、各マイクロホンの出力信号に基づいて音の到来方向を推定し、その到来方向を加味して感度補正を行うようにすることが考えられる。しかし、ステアリングベクトルを用いた方法(MVDRやMUSICを含む)など音の到来方向を推定するための従来技術では、マイクロホンアレイを構成する各マイクロホンの感度が揃っていることを前提としている。このため、この種の到来方向推定技術を、マイクロホンアレイを構成する各マイクロホンの感度のばらつきの補正の前提として用いることはできない。
【0006】
本発明は上記課題に鑑みて為されたものであり、マイクロホンアレイを構成する各マイクロホンの感度のばらつきを適切に補正するための条件が揃っているか否かについて特段の注意を払うことなく、感度補正を適切に行うことを可能にする技術を提供することを目的とする。
【課題を解決するための手段】
【0007】
上記課題を解決するため、本発明は、各々異なる音源から放射されるM(Mは2以上の自然数)種類の音の混合音をマイクロホンアレイを構成するM個のマイクロホンの各々で収音して得られるM個の観測信号の各々に周波数分析を施し、複数の周波数の各々における信号強度を示す時系列の観測データをマイクロホン毎に算出する周波数分析部と、前記複数の周波数のうちの少なくとも1つを選択し、当該周波数成分についての音源分離を行うためのM行M列の複素数値行列である分離行列を当該周波数成分の観測データに対する独立成分分析により生成する分離行列生成部と、前記分離行列生成部により生成される分離行列の各行について、各行の行列要素の偏角の差から、当該行の行列要素により抑圧される音の到来方向を推定する方向推定部と、前記方向推定部により推定される音の到来方向が前記マイクロホンアレイの法線方向から大きくはずれてはいない前記分離行列の行がある場合に、当該行の行列要素の絶対値の比に応じて前記各マイクロホンの出力信号の信号レベルのばらつきを補正する感度補正部とを有することを特徴とするマイクロホンアレイを構成するマイクロホンの感度補正装置、およびコンピュータを上記各部として機能させることを特徴とするプログラム、を提供する。
【0008】
このような感度補正装置およびプログラムによれば、まず、マイクロホンアレイを構成するM個のマイクロホンの各々から出力されるM個の観測信号を用いた独立成分分析により、M種類の音の音源分離を行うためのM行M列の分離行列が算出され、この分離行列の行毎に、行列要素の偏角の差に基づいてその行により抑圧される音の到来方向が推定される。そして、上記のようにして推定される音の到来方向が前記マイクロホンアレイの法線方向から大きくはずれてはいない行が分離行列に含まれている場合に、当該行の行列要素の絶対値の比に応じて各マイクロホンの出力信号の信号レベルのばらつきが補正される。詳細については後述するが、M=2である場合、アレイ面の法線方向に死角を形成する(すなわち、アレイ面の法線方向から到来する音を抑圧する)行の行列要素の絶対値の比は、2つのマイクロホンの出力信号の信号レベルの比(すなわち、2つのマイクロホンの感度の比)に等しくなる。このため、本発明によれば、マイクロホンアレイを構成する各マイクロホンの感度のばらつきを適切に補正するための条件(独立成分分析により生成される分離行列のM個の行に、前記マイクロホンアレイの法線方向から到来する音を抑圧するものが含まれているという条件、換言すれば、アレイ面の法線方向に何れかの音源が位置しているという条件)を満たしているか否かについて特段の注意を払わなくとも、その条件が満たされたときに、マイクロホンアレイを構成する各マイクロホンの感度のばらつきが自動的に補正される。
【0009】
M=2である場合、前記感度補正装置の分離行列生成部は、前記独立成分分析の出発点となる初期分離行列を、一方の行の行列要素に関しては前記マイクロホンアレイのアレイ面の法線方向から到来する音を抑圧するように値を設定し、かつ他方の行の行列要素についてはアレイ面におけるマイクロホンの配列方向から到来する音を抑圧するように値を設定することを特徴とする。M=2の場合に独立成分分析の出発点となる初期分離行列を上記のように設定するのは、このような初期分離行列を用いて逐次学習を行えば、アレイ面の法線方向およびアレイ面におけるマイクロホンの配列方向に死角を有する分離行列を得やすくなることが一般に知られているからである。
【0010】
また、上記課題を解決するために本発明は、N(Nは2以上の自然数)のマイクロホンで構成されるマイクロホンアレイと、M=2である場合の上記感度補正装置をN−1個備え、前記N個のマイクロホンのうちの何れか1つを基準マイクロホンとするとともに、他のN−1個のマイクロホンの各々を感度補正対象のマイクロホンとし、前記N−1個の感度補正装置の各々を前記N−1個の感度補正対象のマイクロホンの各々に一つずつ接続するとともに、当該N−1個の感度補正装置の各々を前記基準マイクロホンに接続し、当該N−1個の感度補正装置の各々により前記N−1個の補正対象マイクロホンの各々の出力信号の信号レベルを補正することを特徴とするマイクロホンアレイシステムを提供する。このような態様によれば、上記基準マイクロホンの出力信号の信号レベルを基準として、他のN−1個のマイクロホンの感度を補正する処理が上記N−1個の感度補正装置の各々によって実行される。これにより、マイクロホンアレイを構成するN個のマイクロホンの感度のばらつきが補正される。
【図面の簡単な説明】
【0011】
【図1】この発明の第1実施形態であるマイクロホンアレイシステム100Aの構成例を示す図である。
【図2】同システムに含まれる感度補正装置20の周波数分析部22が実行する処理を説明するための図である。
【図3】同感度補正装置20の分離行列生成部40Aの構成例を示す図である。
【図4】同感度補正装置20の感度補正制御部28の構成例を示す図である。
【図5】同感度補正制御部28の補正量算定部76が実行する処理の流れを示すフローチャートである。
【図6】同実施形態における音の混合系および分離系を説明するための図である。
【図7】本発明の第2実施形態であるマイクロホンアレイシステム100Bの構成例を示す図である。
【図8】本発明の第3実施形態であるマイクロホンアレイシステム100の構成例を示す図である。
【図9】同マイクロホンアレイシステム100に含まれる演算装置12の信号処理部24の構成例を示すブロック図である。
【図10】同演算装置12の分離行列生成部40の構成例を示すブロック図である。
【発明を実施するための形態】
【0012】
以下、図面を参照しつつ本発明の実施形態について説明する。
<A:第1実施形態>
図1は、本発明の第1実施形態であるマイクロホンアレイシステム100Aの構成例を示すブロック図である。マイクロホンアレイシステム100Aは、n個(nは2以上の自然数)のマイクロホンにより構成されるマイクロホンアレイ10Aを含んでいる。本実施形態では、図1に示すように、マイクロホンM1およびマイクロホンM2の2個でマイクロホンアレイ10Aが構成されている場合(n=2)を想定する。マイクロホンM1およびマイクロホンM2の各々は、収音軸が平行になるように相互に間隔をあけて平面PLに沿って配置されている。このため、マイクロホンアレイ10Aのアレイ面は平面PLと平行になる。マイクロホンM1およびマイクロホンM2の周囲の相異なる位置には、上記各マイクロホンの収音軸およびマイクロホンアレイ10Aのアレイ面の法線を含む平面内にn個の音源S(S1,S2)が存在する。音源S1は、マイクロホンアレイ10Aのアレイ面の法線Lnに対して角度θ1の方向に位置し、音源S2は、法線Lnに対して角度θ2(θ2≠θ1)の方向に位置する。
【0013】
音源S1から放射された音SV1と音源S2から放射された音SV2はマイクロホンM1およびマイクロホンM2の両方に到達する。マイクロホンM1は、音源S1からの音SV1と音源S2からの音SV2との混合音の波形を表す観測信号V1を生成する。同様に、マイクロホンM2は、音源S1からの音SV1と音源S2からの音SV2との混合音の波形を表す観測信号V2を生成する。図1に示すようにマイクロホンM2から出力される観測信号V2はアンプG2による信号レベルの増幅を経て信号処理部30に与えられる一方、マイクロホンM1から出力される観測信号V1はそのまま(アンプによる増幅を経ることなく)信号処理部30に与えられる。
【0014】
信号処理部30は、指向性収話のためのフィルタ処理を観測信号V1および観測信号V2に施すフィルタ部と、各々フィルタ処理を経た観測信号V1および観測信号V2をミキシングして出力する加算器を含んでいる(何れも図示省略)。マイクロホンアレイシステム100Aでは、上記フィルタ処理にて使用するフィルタ係数を調整することで指向パターンの設定が行われる。そして、信号処理部30から出力される信号は、放音機器(例えばスピーカやヘッドホン)に供給されることで音響として再生される。なお、観測信号V1および観測信号V2をデジタル信号に変換するA/D変換器や、信号処理部30の出力信号をアナログ信号に変換するD/A変換器の図示は省略されている。
【0015】
感度補正装置20は、観測信号SV1の信号レベルを基準として観測信号SV2の信号レベルを調整することでマイクロホンM1およびマイクロホンM2の感度のばらつきを補正する。詳細については後述するが、感度補正装置20は、観測信号V1および観測信号V2から本実施形態の特徴を顕著に示す手法で感度補正量Rを算出し、この感度補正量Rに応じたゲインをアンプG2に設定する。これにより、観測信号V1と観測信号V2の信号レベルが略揃い、マイクロホンM1とマイクロホンM2の感度のばらつきが補正されるのである。
【0016】
感度補正装置20は、例えばパーソナルコンピュータなどのコンピュータ装置である。この感度補正装置20のCPU(Central Processing Unit:図示略)は、記憶装置14に格納されているプログラムを実行することにより、本実施形態の特徴を顕著に示す感度補正処理を実行する。記憶装置14には、上記プログラム(以下、感度補正支援プログラム)や各種のデータが格納されている。この記憶装置14としては、半導体記録媒体や磁気記録媒体などの公知の記録媒体が採用される。
【0017】
感度補正装置20のCPUは感度補正支援プログラムを実行し、図1に示す周波数分析部22、分離行列生成部40A、および感度補正制御部28として機能する。なお、本実施形態では、周波数分析部22、分離行列生成部40Aおよび感度補正制御部28の各々をソフトウェアで実現したが、DSPなどの信号処理専用の電子回路で周波数分析部22、分離行列生成部40Aおよび感度補正制御部28を実現しても良く、これら各部を複数の集積回路に分散的に搭載した構成でも良い。
【0018】
周波数分析部22は、観測信号V(V1,V2)を時間軸上で区分した複数のフレームの各々について周波数スペクトルQ(観測信号V1の周波数スペクトルQ1および観測信号V2の周波数スペクトルQ2)を算定する。周波数スペクトルQの算定には、例えば短時間フーリエ変換が利用される。図2に示すように、番号(時刻)tで識別される1個のフレームの周波数スペクトルQ1は、周波数軸上に設定されたK個の周波数f1〜fKの各々における強度x1(t,f1)〜x1(t,fK)として算定される。同様に、周波数スペクトルQ2は、K個の周波数f1〜fKの各々における強度x2(t,f1)〜x2(t,fK)として算定される。
【0019】
周波数分析部22は、K個の周波数f1〜fKについてフレーム毎に観測ベクトルX(t,f1)〜X(t,fK)を生成する。第k番目(k=1〜K)の周波数fkの観測ベクトルX(t,fK)は、図2に示すように、周波数スペクトルQ1のうち周波数fkでの強度x1(t,fk)と、共通のフレームの周波数スペクトルQ2のうち周波数fkでの強度x2(t,fk)とを要素とするベクトル(X(t,fk)=[x1(t,fk)x2(t,fk)である。記号*は複素共役を意味し、記号Hは行列の転置(エルミート転置)を意味する。周波数分析部22がフレーム毎に生成した観測ベクトルX(t,f1)〜X(t,fK)は記憶装置14に格納される。記憶装置14に格納された観測ベクトルX(t,f1)〜X(t,fK)は、図2に示すように、所定個(例えば50個)のフレームで構成される単位区間TU毎に観測データD(f1)〜D(fK)に区分される。周波数fkの観測データD(fk)は、単位区間TU内の各フレームについて算定された周波数fkの観測ベクトルX(t,fk)の時系列である。
【0020】
分離行列生成部40Aは、観測データD(fk)から所謂独立成分分析により分離行列W(f1)〜W(fK)を生成する。ここで、分離行列とは、本来的には、観測信号V1および観測信号V2から音SV1または音SV2(或いは両者)を分離するための信号処理演算に用いられる2行2列(n行n列)の複素数値行列である。しかし、本実施形態では、この分離行列を用いてマイクロホンM1とマイクロホンM2の感度のばらつきを補正することに特徴がある。
【0021】
図3は、分離行列生成部40Aのブロック図である。
図3に示すように、分離行列生成部40Aは、初期値生成部42、周波数選択部54、および学習処理部44を含んでいる。初期値生成部42は、K個の周波数f1〜fKの各々について初期的な分離行列(以下「初期分離行列」という)W(f1)〜W(fK)を生成する。周波数fkに対応する初期分離行列W(fk)は、記憶装置14に格納された観測データD(fk)を利用して単位区間TU毎に生成される。初期分離行列W(f1)〜W(fK)の生成手法としては公知の手法を適宜採用すれば良い。ここで、初期分離行列W(f1)〜W(fK)としてどのようなものを生成するのかについては、種々の態様が考えられるが、本実施形態では、所謂死角型ビームフォーマを採用する。より詳細に説明すると、周波数f1〜fKの各々について初期分離行列を観測信号V1およびV2に乗算したとした場合に、これら2つの観測信号と当該分離行列の1行目の行列要素(すなわち、(1,1)成分および(1,2)成分)との乗算により得られる信号においてはマイクロホンアレイ10Aのアレイ面の法線方向から到来する音が抑圧され(すなわち、同法線方向が死角となり)、これら2つの観測信号と当該初期分離行列の2行目の行列要素(すなわち、(2,1)成分および(2,2)成分)との乗算により得られる信号においてはマイクロホンアレイ10Aにおける各マイクロホンの配列方向から到来する音が抑圧される(すなわち、同配列方向が死角となる)ように初期分離行列を設定する。本実施形態では上記のように初期分離行列を設定するため、死角型ビームフォーマの分離行列、すなわち、分離行列の行毎にその死角方向から到来する音を抑圧する(換言すれば、死角以外の方向から到来する音を強調する)ことで音源分離を行う分離行列が生成されることになる。
【0022】
周波数選択部54は、K種類の周波数f1〜fKのうちから、独立成分分析による分離行列の学習対象とする1または複数の周波数をマイクロホンアレイ10AにおけるマイクロホンM1およびマイクロホンM2の配置間隔の大きさに応じて選択する。より詳細に説明すると、周波数選択部54は、マイクロホンM1およびマイクロホンM2の配置間隔との関係でアレイゲインが高く、かつ折り返し雑音の少ない1または複数の周波数をK種類の周波数f1〜fKのうちから選択する。以下、周波数選択部54により選択される周波数のことを「選択周波数」と呼ぶ。つまり、本実施形態では、K種類の周波数f1〜fKのうち周波数選択部54により選択された周波数に関してのみ、独立成分分析を用いた分離行列の学習が行われる。その理由は以下の通りである。
【0023】
音源分離を目的として分離行列の学習を行う場合には、K種類の周波数f1〜fKの全てについて分離行列を算出することが理想的である。しかし、本実施形態では、音源分離を目的としている訳ではなく、音の到来方向の推定と各マイクロホンの感度補正を目的としているため、その目的が達せられる範囲で分離行列を算定することができれば十分である。そこで、第1実施形態においては、K個の周波数f1〜fKのうち、アレイゲインが高くかつ折り返し雑音のない1または複数の周波数をマイクロホンアレイ10AにおけるマイクロホンM1およびマイクロホンM2の配置間隔に基づいて選択し、それら周波数についてのみ観測データD(fk)を使用した分離行列W(fk)の逐次学習を実行することとして、感度補正に要する演算量を削減しているのである。
【0024】
学習処理部44は、周波数選択部54により選択された選択周波数fkの各々について、初期分離行列W(fk)を初期値とした逐次的な学習で分離行列W(fk)を生成する。分離行列W(fk)の学習には、記憶装置14に格納された周波数fkの観測データD(fk)が使用される。例えば、観測データD(fk)に分離行列W(fk)を乗算して得られる分離信号U1(数1で定義される強度u1(t,fk)の時系列)と分離信号U2(数2で定義される強度u2(t,fk)の時系列)とが統計的に相互に独立となるように分離行列W(fk)の更新を反復する独立成分分析(例えば高次ICA)が、分離行列W(fk)の生成に好適に採用される。なお、以下の数1および数2において、wij(fk)は分離行列W(fk)のi行j列成分である。
【数1】

【数2】

以上が分離行列生成部40Aの構成である。
【0025】
次いで、感度補正制御部28の構成について説明する。
図4は感度補正制御部28の構成を示すブロック図である。図4に示すように感度補正制御部28は、方向推定部72と補正量算定部76を含んでいる。
【0026】
方向推定部72には、選択周波数fkを示すデータと、学習処理部44による学習後の分離行列W(fk)とが供給される。方向推定部72は、選択周波数fkに関し学習後の各分離行列W(fk)から、この分離行列W(fk)の各行により抑圧される音の到来方向(具体的には、アレイ面の法線Lnと音の到来方向とがなす角度)を推定する。より詳細に説明すると、方向推定部72は、学習処理部44による学習後の分離行列W(fk)の1行目の行列要素の偏角の差(すなわち、w11(fk)の偏角とw12(fk)の偏角の差)から当該1行目の行列要素により抑圧される音の到来方向θ1(fk)を推定し、同2行目の行列要素の偏角の差(すなわち、w21(fk)の偏角とw22(fk)の偏角の差)から当該2行目の行列要素により抑圧される音の到来方向θ2(fk)を推定する。分離行列W(fk)の行列要素を利用した到来方向θ1(fk)および到来方向θ2(fk)の推定には、H. Saruwatari, et. al., "Blind Source Separation Combining
Independent Component Analysis and Beamforming", EURASIP Journal on
Applied Signal Processing Vol.2003, No.11, pp.1135-1146, 2003に開示された方法などを用いることができる。例えば、w11(fk)の偏角とw12(fk)の偏角の差がゼロであれば、分離行列の1行目の行列要素により抑圧される音の到来方向θ1(fk)はマイクロホンアレイ10Aのアレイ面の法線方向であると推定される。
【0027】
補正量算定部76は、学習処理部44による学習後の分離行列W(fk)からマイクロホンM2についての感度の補正量Rを算出し、その補正量Rに応じたゲインをアンプG2に設定する処理を実行する。図5は、補正量算定部76が実行する処理の流れを示すフローチャートである。図5に示すように補正量算定部76は、選択周波数fkの各々に関して方向推定部72により推定される音の到来方向θ1(fk)(すなわち、分離行列W(fk)の1行目により抑圧される音の到来方向)がアレイ面の法線方向から大幅にはずれているか否かを判定し、大幅にはずれていると判定される周波数fkを選択周波数から除外する(ステップSA100)。例えば、補正量算定部76は、到来方向を示す角度(すなわち、θ1(fk)やθ2(fk))の絶対値が所定の閾値を超えている場合に、その到来方向はアレイ面の法線方向から大幅に外れていると判定する。ここで、到来方向θ1(fk)がアレイ面の法線方向から大幅にはずれている周波数を除外するのは、そのような周波数に対応する分離行列に対してステップSA120以降の演算を行っても、感度補正の精度向上を望めないからである。
【0028】
次いで、補正量算定部76は、ステップSA100にて選択周波数の全てが除外されたか否かを判定し(ステップSA110)、その判定結果が“No”である場合(すなわち、選択周波数fkのうち除外されなかったものがあった場合)にのみ、ステップSA120以降の処理を実行する。このステップSA120では、補正量算定部76は、ステップSA100にて除外されなかった周波数(すなわち、到来方向θ1(fk)がアレイ面の法線方向から大幅にはずれてはいないと判定された周波数)fkの各々についての分離行列w(fk)の1行目の行列要素(すなわち、w11(fk)およびw12(fk))から以下の数3にしたがってマイクロホンM2についての感度の補正量R(fk)を算定する。この数3において||は絶対値を意味する。
【数3】

【0029】
ここで、マイクロホンM2についての感度の補正量R(fk)を前掲数3にしたがって算出することができる理由は以下の通りである。音源S1から放射される音SV1と音源S2から放射される音SV2の混合系が図6に示すように表され、マイクロホンM1とマイクロホンM2の感度が揃っておらず、あたかもマイクロホンM1側にのみゲインpが入っているかのように観測信号V1の信号レベルと観測信号V2の信号レベルに差がある場合(図6参照)、音SV1および音SV2から観測信号V1および観測信号V2を以下の数4にしたがって生成する混合行列Aは、以下の数5で表される。なお、以下の数5においてaijは音源SjからマイクロホンMiへ至る音の伝搬経路の伝達関数である。
【数4】

【数5】

【0030】
この場合、観測信号V1および観測信号V2から音SV1および音SV2を分離するための分離行列Wの候補の一つとしては混合行列Aの逆行列A−1が挙げられる。この場合の分離行列Wは以下の数6で与えられる。この分離行列Wは、その1行目の行列要素によって音源S2から放射された音を抑圧し、同2行目の行列要素によって音源S1から放射された音を抑圧する。
【数6】

【0031】
分離行列Wの1行目の行列要素がアレイ面の法線方向に死角を形成している場合(分離行列W(fk)の1行目により抑圧される音がマイクロホンアレイ10Aのアレイ面の法線方向から到来している場合、すなわち、音源S2がアレイ面に正対している場合)、音源S2からマイクロホンM1へ至る距離と音源S2からマイクロホンM2へ至る距離は等しくなり、a12=a22となる。したがって、分離行列Wの1行目の行列要素がアレイ面の法線方向に死角を形成している場合、分離行列Wの1行目の行列要素W11およびW12の比Rは以下の数7で算定され、この数7にしたがって算定される値Rの大きさは、マイクロホンM1とマイクロホンM2の感度比pに等しくなる。
【数7】

【0032】
したがって、分離行列W(fk)の1行目がアレイ面の法線方向に死角を形成している場合には、前掲数3にしたがって算出されるR(fk)に応じたゲインをアンプG2に設定することで、マイクロホンM1とマイクロホンM2の感度のばらつきを補正することができるのである。
【0033】
そして、補正量算定部76は、ステップSA100にて除外されなかった周波数fkの各々に関して数3にしたがって算出される補正量R(fk)を代表する値R(選択周波数fkが複数の残っている場合には、それら選択周波数fkの各々について算出されるR(fk)の相加平均や中央値など、選択周波数fkが1つしか残っていない場合には、その選択周波数fkについて算出されるR(fk))を求める(ステップSA130)。そして、補正量算定部76は、ステップSA130で算出したRに応じたゲインをアンプG2に設定し(ステップSA140)、感度補正を完了する。
以上が補正量算定部76が実行する処理の流れである。
【0034】
以上説明しように、マイクロホンアレイシステム100Aにおいては、マイクロホンアレイ10Aを構成する各マイクロホンの感度の補正を適切に行うための条件が揃ったこと(アレイ面の法線方向に音源が位置していること)を自動的に検出し、マイクロホンM1およびマイクロホンM2の感度のばらつきを補正する処理が感度補正装置20によって実行される。これにより、上記条件に特段の注意を払わなくとも、各マイクロホンの感度のばらつきが自動的に補正されるのである。
【0035】
なお、マイクロホンアレイ10Aを構成する各マイクロホンの感度の補正は、工場出荷時或いは運用開始直後に一回だけ行えば良いから、感度補正を実行済みであるか否かを示すフラグ(値が0ならば感度補正を未実行、値が1ならば感度補正済み)に初期値“0”をセットして記憶装置14に書き込んでおき、このフラグの値が0である間は定期的に感度補正支援プログラムを感度補正装置20のCPUに実行させ、上記ステップSA140の処理の実行を契機として上記フラグを1に更新する処理を上記CPUに実行させるようにしても良い。また、本実施形態では、分離行列W(fk)の1行目の行列要素の絶対値の比(数3にしたがって算出される値R(fk)または、複数の選択周波数fkについてのR(fk)を代表する値)に応じて、マイクロホンM2の出力信号の信号レベルを調整することでマイクロホンM1およびマイクロホンM2の感度のばらつきを補正したが、マイクロホンM1の出力信号の信号レベルを上記R(fk)の逆数(或いはR(fk)を代表する値の逆数)に応じて調整することで、両マイクロホンの感度のばらつきを補正しても勿論良い。
【0036】
<B:第2実施形態>
次いで本発明の第2実施形態について説明する。第1実施形態においては2個のマイクロホンM(M1、M2)からなるマイクロホンアレイ10Aを用いてマイクロホンアレイシステム100Aを構成した。これに対して、第2実施形態では、3個以上のマイクロホンM(M1、M2…MN:Nは3以上の自然数)からなるマイクロホンアレイ10Bを用いてマイクロホンアレイシステム100Bが構成されている。図7は、マイクロホンアレイシステム100Bの構成例を示すブロック図である。図7に示すように、マイクロホンアレイシステム100Bにおいて、マイクロホンM1以外の(N−1)個のマイクロホンMk(k=2〜N)は、各々アンプGk(k=2〜N)を介して信号処理部30に接続されている。そして、マイクロホンM1とマイクロホンMk(k=2〜N)とは、感度補正装置20−k(k=2〜N)に接続されており、この感度補正装置20−kによってアンプGkのゲインの調整が行われる。これら感度補正装置20−k(k=2〜N)の各々は、図1の感度補正装置20と同一の構成を有している。
【0037】
つまり、マイクロホンアレイシステム100Bにおいては、マイクロホンM1を基準マイクロホンとし、他の(N−1)個のマイクロホンMk(k=2〜N)の感度補正が感度補正装置20−k(k=2〜N)の各々によって行われる。これによりマイクロホンアレイ10Bを構成する各マイクロホンMkの感度を補正するための条件が揃ったときに、各マイクロホンMkの感度の補正が順次実行される。このように本実施形態によれば、マイクロホンアレイが3個以上のマイクロホンで構成されている場合であっても、マイクロホンアレイシステム100Bの利用者に特段の注意を払わせることなく自動的に、マイクロホンアレイ10Bを構成する各マイクロホンの感度のばらつきを補正することができる。
【0038】
ここで、図7に示すようにマイクロホンアレイがN個のマイクロホンで構成されている場合には、Nチャネルの独立成分分析を行って各マイクロホンの感度のばらつきを補正することも考えられる。具体的には、
各々異なる音源から放射されるN種類の音の混合音をマイクロホンアレイを構成するN個のマイクロホンの各々で収音して得られるN個の観測信号の各々に周波数分析を施し、複数の周波数の各々における信号強度を示す時系列の観測データをマイクロホン毎に算出する周波数分析部と、
前記複数の周波数のうちの少なくとも1つを選択し、当該周波数成分についての音源分離を行うためのN行N列の複素数値行列である分離行列を当該周波数成分の観測データに対する独立成分分析により生成する分離行列生成部と、
前記分離行列生成部により生成される分離行列の各行について、各行の行列要素の偏角の差から、当該行の行列要素により抑圧される音の到来方向を推定する方向推定部と、
前記方向推定部により推定される音の到来方向が前記マイクロホンアレイの法線方向から大きくはずれてはいない前記分離行列の行がある場合に、当該行の行列要素の絶対値の比に応じて前記各マイクロホンの出力信号の信号レベルのばらつきを補正する感度補正部と、を組み合わせて感度補正装置を構成し、この感度補正装置に上記N個のマイクロホンとN−1個のアンプを接続してマイクロホンアレイシステムを構成しても勿論良い。
【0039】
Nチャネルの独立成分分析を行う態様と、本実施形態のように2チャンネルの独立成分分析を行う感度補正装置をN−1個組み合わせる態様の何れを採用してマイクロホンアレイシステムを構成するのかについては、マイクロホンアレイシステムの構成が簡潔になることが好ましいのか、それとも、分離行列の演算に要する演算量が少なくなることが好ましいのかに応じて定めるようにすれば良い。Nチャネルの独立成分分析を行う態様では、感度補正装置が1つで済むため、マイクロホンアレイシステムの構成は簡潔になる。これに対して、本実施形態のように2チャンネルの独立成分分析を行う感度補正装置をN−1個組み合わせてマイクロホンアレイシステムを構成する態様では、Nチャネルの独立成分分析を行う態様に比較して演算量が少なくなるといった特徴がある。Nチャネルの独立成分分析では、分離行列の逐次学習に要する演算量がNに比例するのに対し、2チャンネルの独立成分分析を行う感度補正装置をN−1個組み合わせる態様では、同演算量は2×(N−1)に比例するからである。
【0040】
<C:第3実施形態>
上述した第1および第2実施形態では、分離行列生成部40Aにより生成された分離行列W(fk)を用いて、マイクロホンアレイを構成する各マイクロホンの感度のばらつきを補正した。しかし、分離行列W(fk)を用いて音源分離を行っても良いことは勿論である。図8は、観測信号V1および観測信号V2にフィルタ処理(音源分離)を施して分離信号U1およびU2を生成するマイクロホンアレイシステム100の構成例を示すブロック図である。図8に示すマイクロホンアレイシステム100は、マイクロホンM1およびマイクロホンM2からなるマイクロホンアレイと、観測信号V1および観測信号V2から分離信号U1および分離信号U2を生成する演算を実行する演算装置12と、記憶装置14とを含んでいる。図8においては、図1と同一の構成要素には同一の符号が付されている。以下、図1に示すシステムとの相違点を中心に説明する。
【0041】
図8に示すように演算装置12は、周波数分析部22、信号処理部24、信号合成部26および分離行列生成部40を含んでいる。この演算装置12は、前述した第1実施形態における感度補正装置20と同様にコンピュータ装置であり、記憶装置14に格納されているプログラムをCPUに実行させることで周波数分析部22、信号処理部24、信号合成部26および分離行列生成部40として機能する。
【0042】
図8の信号処理部24は、周波数分析部22が算定した強度x1(t,fk)と強度x2(t,fk)とにフィルタ処理(音源分離)を実行することでフレーム毎に順次に強度u1(t,fk)および強度u2(t,fk)を生成する。信号合成部26は、信号処理部24が生成した強度u1(t,f1)〜u1(t,fK)を時間領域の信号に変換するとともに前後のフレームで連結して分離信号U1を生成する。同様に、信号合成部26は、強度u2(t,f1)〜u2(t,fK)を時間領域の信号に変換するとともに前後のフレームで連結して分離信号U2を生成する。
【0043】
図9は、信号処理部24のブロック図である。図9に示すように、信号処理部24は、K個の周波数f1〜fKの各々に対応するK個の処理部P1〜PKで構成される。周波数fkに対応する処理部Pkは、強度x1(t,fk)および強度x2(t,fk)から強度u1(t,fk)を生成するフィルタ32と、強度x1(t,fk)および強度x2(t,fk)から強度u2(t,fk)を生成するフィルタ34とを含んでいる。
【0044】
フィルタ32およびフィルタ34には遅延加算型(DS(delay-sum)型)のビームフォーマが利用される。すなわち、処理部Pkのフィルタ32は、前掲数1で定義されるように、係数w11(fk)に応じた遅延を強度x1(t,fk)に付加する遅延素子321と、係数w12(fk)に応じた遅延を強度x2(t,fk)に付加する遅延素子323と、遅延素子321の出力と遅延素子323の出力とを加算して分離信号U1の強度u1(t,fk)を生成する加算部325とを含んでいる。同様に、フィルタ34は、前掲数2で定義されるように、係数w21(fk)に応じた遅延を強度x1(t,fk)に付加する遅延素子341と、係数w22(fk)に応じた遅延を強度x2(t,fk)に付加する遅延素子343と、遅延素子341の出力と遅延素子343の出力とを加算して分離信号U2の強度u2(t,fk)を生成する加算部345とを含む。
【0045】
図10は、分離行列生成部40の構成例を示すブロック図である。この分離行列生成部40は、前述した第1実施形態における分離行列生成部40Aと同様に観測データD(fk)を用いて独立成分分析を行うことにより分離行列を生成する。図10に示すように分離行列生成部40は、初期値生成部42、学習処理部44および周波数選択部54を含んでいる。そして、分離行列生成部40は、選択周波数fkに関して学習処理部44による学習処理で生成される分離行列W(fk)の各行列要素を信号処理部24の処理部Pkのフィルタ32およびフィルタ34に各々設定する。
【0046】
加えて、分離行列生成部40は、図10に示すように方向推定部72と行列補充部74とを有している。方向推定部72は、選択周波数fkの各々に関して学習処理部44により生成された分離行列W(fk)の各行により分離される音の到来方向θ1(fk)およびθ2(fk)を推定し、それらθ1(fk)を代表する値θ1(θ1(fk)の相加平均や中央値)およびθ2(fk)を代表する値θ2を算出し、θ1およびθ2を示すデータを行列補充部74に与える。図10の行列補充部74は、周波数f1〜fKのK種類の周波数のうち、周波数選択部54により選択されなかった周波数(以下、非選択周波数)についての分離行列を以下の要領で生成し、信号処理部24に与える。すなわち、行列補充部74は、前述した初期値生成部42における初期分離行列の生成と同様のアルゴリズムにしたがって、非選択周波数についての分離行列をその1行目についてはθ1方向が死角となり、2行目についてはθ2方向が死角となるように生成する。
【0047】
分離行列を用いた従来の音源分離では、分離行列の生成に要する演算量を削減するため、周波数f1〜fKのK種類の周波数のうちの特定の周波数(本実施形態では、選択周波数fk)についてのみ分離行列の学習を行い、その他の周波数については初期値生成部42により生成した初期分離行列をそのまま用いることが一般的であった。学習処理により得られた分離行列を用いる周波数帯域では、その分離行列を介してマイクロホンアレイを構成する各マイクロホンの感度のばらつきが補正されるが、初期分離行列を用いる周波数帯域では各マイクロホンの感度のばらつきが補正されておらず、各マイクロホンの感度のばらつきに起因して死角が適切に形成されず、音源の分離精度が劣化するという問題があった。これに対して本実施形態では、非選択周波数について、学習処理により得られた分離行列から推定される方向に死角を形成するように生成された分離行列を用いることで、精度良く音源分離を行うことが可能になる。
【0048】
<D:変形>
以上、本発明の各実施形態について説明したが、これら実施形態に以下の変形を加えても勿論良い。
(1)上述した各実施形態では、マイクロホンアレイのアレイ面におけるマイクロホンの配置間隔に応じて、分離行列を学習する周波数を選択したが、他の尺度を基準に周波数の選択を行っても良い。このような尺度の一例としては学習の有意性(分離行列を学習することにより音源分離の精度が初期分離行列を用いた音源分離に比較して向上する場合に、その向上の度合い)を用いることが考えられる。ここで、学習の有意性を示す指標としては、例えば、K個の周波数f1〜fKの各々についての観測データD(fk)の共分散行列Rxx(fk)の行列式z1(fk)が好適であることが知られている。具体的には、行列式z1(fk)が所定の閾値を上回っている周波数fkを学習対象として選択するといった具合である。なお、共分散行列Rxx(fk)は以下の数8で定義される。以下の数8や数9における記号Eは期待値(加算値)を意味し、記号Σ_{t}は、単位区間TU内の複数(例えば50個)のフレームにわたる加算(平均)を意味する。すなわち、共分散行列Rxx(fk)は、観測ベクトルX(t,fk)と観測ベクトルX(t,fk)の転置との乗算を単位区間TU内(観測データD(fk)内)の複数の観測ベクトルX(t,fk)について加算したn行n列の行列である。ただし、以下の数9では、単位区間TU内の総てのフレームにわたる観測ベクトルX(t,fk)の加算を零行列と仮定した(ゼロ平均)。
【数8】

【数9】

【0049】
(2)上述した各実施形態では、初期分離行列W(fk)として、1行目の行列要素によりマイクロホンアレイのアレイ面の法線方向に死角を形成し、かつ、2行目の行列要素によりマイクロホンアレイにおける各マイクロホンの配列方向に死角を形成する死角型ビームフォーマのものを用いたが、1行目の行列要素の役割と2行目の行列要素の役割とを入れ替えたものを用いても良い。このように、1行目の行列要素によりマイクロホンアレイにおけるマイクロホンの配列方向に死角を形成し、かつ、2行目の行列要素によりマイクロホンアレイのアレイ面の法線方向に死角を形成する死角型ビームフォーマのものを用いる場合には、逐次学習により生成される分離行列W(fk)の2行目の行列要素により抑圧される音の到来方向がアレイ面の法線方向から大幅にはずれているか否かを判定し、はずれてはいない場合に、当該2行目の行列要素の絶対値の比(すなわち、|w22|/|w21|)に応じて補正対象マイクロホン(第1実施形態においては、マイクロホンM2、第2実施形態においてはマイクロホンM2〜MN)の出力信号のゲインを調整することで感度補正を行えば良い。
【0050】
(3)上述した各実施形態では、本発明の特徴を顕著に示す感度補正装置がマイクロホンアレイシステムに予め組み込まれていたが、感度補正装置単体で提供し、感度補正装置の各部をマイクロホンアレイの各部に接続してマイクロホンアレイシステム100Aやマイクロホンアレイシステム100Bと同様な構成となるようにしても良い。
【0051】
(4)上述した実施形態では、本発明に特徴的なマイクロホンの感度補正をCPUに実行させるプログラムが記憶装置14に予め格納されていた。しかしながら、CD−ROM(Compact Disk-Read Only Memory)などのコンピュータ読み取り可能な記録媒体に上記プログラムを書き込んで配布しても良く、また、インターネットなどの電気通信回線経由のダウンロードにより上記プログラムを配布しても良い。
【符号の説明】
【0052】
100A,100B,100…マイクロホンアレイシステム、10A,10B…マイクロホンアレイ、M1,M2,MN…マイクロホン、20,20−2,20−3…20−N…感度補正装置、12…演算装置、22…周波数分析部、14…記憶装置、40A,40…分離行列生成部、42…初期値生成部、44…学習処理部、54…周波数選択部、28…感度補正制御部、72…方向推定部、74…行列補充部、76…補正量算定部。

【特許請求の範囲】
【請求項1】
各々異なる音源から放射されるM(Mは2以上の自然数)種類の音の混合音をマイクロホンアレイを構成するM個のマイクロホンの各々で収音して得られるM個の観測信号の各々に周波数分析を施し、複数の周波数の各々における信号強度を示す時系列の観測データをマイクロホン毎に算出する周波数分析部と、
前記複数の周波数のうちの少なくとも1つを選択し、当該周波数成分についての音源分離を行うためのM行M列の複素数値行列である分離行列を当該周波数成分の観測データに対する独立成分分析により生成する分離行列生成部と、
前記分離行列生成部により生成される分離行列の各行について、各行の行列要素の偏角の差から、当該行の行列要素により抑圧される音の到来方向を推定する方向推定部と、
前記方向推定部により推定される音の到来方向が前記マイクロホンアレイの法線方向から大きくはずれてはいない前記分離行列の行がある場合に、当該行の行列要素の絶対値の比に応じて前記各マイクロホンの出力信号の信号レベルのばらつきを補正する感度補正部と
を有することを特徴とするマイクロホンアレイを構成するマイクロホンの感度補正装置。
【請求項2】
M=2である場合、前記分離行列生成部は、
前記独立成分分析の出発点となる初期分離行列を、一方の行の行列要素に関しては前記マイクロホンアレイのアレイ面の法線方向から到来する音を抑圧するように値を設定し、かつ他方の行の行列要素についてはアレイ面におけるマイクロホンの配列方向から到来する音を抑圧するように値を設定する
ことを特徴とする請求項1に記載の感度補正装置。
【請求項3】
N(Nは2以上の自然数)のマイクロホンで構成されるマイクロホンアレイと、
M=2である請求項1に記載の感度補正装置をN−1個備え、
前記N個のマイクロホンのうちの何れか1つを基準マイクロホンとするとともに、他のN−1個のマイクロホンの各々を感度補正対象のマイクロホンとし、前記N−1個の感度補正装置の各々を前記N−1個の感度補正対象のマイクロホンの各々に一つずつ接続するとともに、当該N−1個の感度補正装置の各々を前記基準マイクロホンに接続し、当該N−1個の感度補正装置の各々により前記N−1個の補正対象マイクロホンの各々の出力信号の信号レベルを補正する
ことを特徴とするマイクロホンアレイシステム。
【請求項4】
コンピュータを、
各々異なる音源から放射されるM(Mは2以上の自然数)種類の音の混合音をマイクロホンアレイを構成するM個のマイクロホンの各々で収音して得られるM個の観測信号の各々に周波数分析を施し、複数の周波数の各々における信号強度を示す時系列の観測データをマイクロホン毎に算出する周波数分析部と、
前記複数の周波数のうちの少なくとも1つを選択し、当該周波数成分についての音源分離を行うためのM行M列の複素数値行列である分離行列を当該周波数成分の観測データに対する独立成分分析により生成する分離行列生成部と、
前記分離行列生成部により生成される分離行列の各行について、各行の行列要素の偏角の差から、当該行の行列要素により抑圧される音の到来方向を推定する方向推定部と、
前記方向推定部により推定される音の到来方向が前記マイクロホンアレイの法線方向から大きくはずれてはいない前記分離行列の行がある場合に、当該行の行列要素の絶対値の比に応じて前記各マイクロホンの出力信号の信号レベルのばらつきを補正する感度補正部
として機能させることを特徴とするプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate


【公開番号】特開2010−245984(P2010−245984A)
【公開日】平成22年10月28日(2010.10.28)
【国際特許分類】
【出願番号】特願2009−94577(P2009−94577)
【出願日】平成21年4月9日(2009.4.9)
【出願人】(000004075)ヤマハ株式会社 (5,930)
【Fターム(参考)】