背景音抑圧装置、背景音抑圧方法、およびプログラム
【課題】計算コストを小さく抑え、より複雑な形状をした確率密度関数を利用することができる、より効率的で高精度な背景音抑圧装置を提供する。
【解決手段】本発明の背景音抑圧装置40は、特徴量抽出部100が観測信号から高解像度音源位置特徴量と高解像度スペクトル特徴量を抽出し、音源位置占有度推定部210が高解像度音源位置占有度を求め、高解像度占有度推定部520が高解像度占有度とスペクトルパラメータを推定し、目的音声推定部600が目的音声を推定する。
【解決手段】本発明の背景音抑圧装置40は、特徴量抽出部100が観測信号から高解像度音源位置特徴量と高解像度スペクトル特徴量を抽出し、音源位置占有度推定部210が高解像度音源位置占有度を求め、高解像度占有度推定部520が高解像度占有度とスペクトルパラメータを推定し、目的音声推定部600が目的音声を推定する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、目的音声と背景音が混ざって複数のマイクロホンで収音された観測信号から、背景音を抑圧し、目的音声を推定・抽出する背景音抑圧装置、背景音抑圧方法、およびプログラムに関する。
【背景技術】
【0002】
従来の背景音抑圧装置には、高解像度スペクトルモデル記憶部と特徴抽出部と高解像度占有度推定部と目的音声推定部とを備えるものがある(例えば非特許文献1および非特許文献2参照)。
【0003】
以下、非特許文献1および2に記載された従来の背景音抑圧装置について説明する。上述のように、従来の背景音抑圧装置は、高解像度スペクトルモデル記憶部と特徴抽出部と高解像度占有度推定部と目的音声推定部とを備える。高解像度スペクトルモデル記憶部は、目的音声と背景音それぞれについて、スペクトル特徴量の時系列全体の状態を表すスペクトルパラメータの事前確率密度関数と、そのスペクトルパラメータが与えられた場合の各音源信号(目的信号、または背景音)の各時間周波数点における事後確率密度関数であるスペクトル特徴量のモデルとを記憶する。特徴抽出部は、複数のマイクロホンで収音した時間領域の信号を時間周波数領域信号に変換した観測信号を入力として、各時間周波数点における高解像度音源位置特徴量と高解像度スペクトル特徴量を抽出する。高解像度占有度推定部は、高解像度音源位置特徴量と高解像度スペクトル特徴量と高解像度スペクトル特徴量のモデルとスペクトルパラメータの事前確率密度関数とを入力として、観測信号が得られた下での占有的な音源の番号の事後確率密度関数である高解像度占有度の推定値とスペクトルパラメータの推定値を得る。さらに、目的音声推定部は、高解像度占有度推定部が出力する高解像度占有度の推定値とスペクトルパラメータの推定値と、特徴抽出部が出力する高解像度スペクトル特徴量と、高解像度スペクトルモデル記憶部に記憶された高解像度スペクトル特徴量のモデルとを入力として、目的音声の推定値を抽出する。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】Tomohiro Nakatani, Shoko Araki, Takuya Yoshioka, Masakiyo Fujimoto, “Multichannel source separation based on source location cue with log-spectral shaping by hidden Markov source model,” Proc. of Interspeech-2010, pp. 2766-2769, Sep., 2010.
【非特許文献2】中谷智広、荒木章子、吉岡卓也、藤本雅清、“DOAクラスタリングと音声の対数スペクトルHMMに基づく音源分離”日本音響学会2010年秋季研究発表会講演論文集、pp.577-580, 9月, 2010年.
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、従来の背景音抑圧装置は、高解像度音源位置特徴量と高解像度スペクトル特徴量に基づきスペクトルパラメータと高解像度占有度を推定するために繰り返し処理を実行するため、各特徴量の次元が大きくなるにつれて計算コストが大きくなるという問題があった。特に、残響のある環境で音源位置特徴量から抽出される音源位置の情報を適切に扱うには分析窓のサイズを大きくすることが望ましいが、それにともない各特徴量の次元が大きくなるため、計算コストの増大が避けられないことが問題であった。
【0006】
また、従来の背景音抑圧装置では、音源位置特徴量のモデルは比較的残響の少ない環境で点音源から観測されることを前提としていたため、音源位置特徴量の確率密度関数は単一のガウス分布などの単純なものしか扱うことができなかった。したがって、分析窓より長い残響が含まれる場合や、背景音が点音源でなかったり複数の音源で構成されていたりする場合には、適切に目的音声の推定を行うことができなかった。
【0007】
本発明はこのような点に鑑みてなされたものであり、各特徴量の次元が大きい場合でも計算コストを小さく抑えることができ、長い残響が含まれていたり、背景音が点音源でなかったり複数の音源で構成されていたりする場合にも、適切に目的音声の推定を行うことができる背景音抑圧装置を提供することを目的とする。
【課題を解決するための手段】
【0008】
本発明の背景音抑圧装置は、複数のマイクロホンで収音した時間領域信号を時間周波数領域信号に変換した観測信号x(m)_(n,k)から、背景音を抑圧し目的音声の推定値^S(j)_(n,k)を抽出する。まず、mはマイクロホンの番号を表し、nはフレームの番号を表し、kは周波数ビンの番号を表し、jは音源の番号を表すとする。高解像度スペクトルモデル記憶部には、各音源信号のスペクトルパラメータの事前確率密度関数p(q(j))と各音源信号の高解像度スペクトル特徴量モデルβ_(i,n,k)(S)が記憶される。高解像度音源位置モデル記憶部には、各音源信号の高解像度音源位置特徴量の確率密度関数γ(j)_k(A)が記憶される。特徴抽出部は、観測信号x(m)_(n,k)から、高解像度音源位置特徴量A_(n,k)と高解像度スペクトル特徴量X_(n,k)を抽出する。音源位置占有度推定部は、高解像度音源位置特徴量A_(n,k)と確率密度関数γ(j)_k(A)から、各音源信号の高解像度音源位置占有度Q(j)_(n,k)を求める。高解像度占有度推定部は、高解像度スペクトル特徴量X_(n,k)と高解像度音源位置占有度Q(j)_(n,k)と事前確率密度関数p(q(j))と高解像度スペクトル特徴量モデルβ_(i,n,k)(S)から、対数尤度関数を最大化するように、各音源信号のスペクトルパラメータの推定値^q(j)を求め、スペクトルパラメータの推定値^q(j)と高解像度音源位置占有度Q(j)_(n,k)と高解像度スペクトル特徴量モデルβ_(i,n,k)(S)から、高解像度占有度の推定値^M(j)_(n,k)を求める。目的音声推定部は、スペクトルパラメータの推定値^q(j)と高解像度占有度の推定値^M(j)_(n,k)と高解像度スペクトル特徴量X_(n,k)と高解像度スペクトル特徴量モデルβ_(i,n,k)(S)から、目的音声の推定値^S(j)_(n,k)を求める。
【発明の効果】
【0009】
本発明の背景音抑圧装置は、各特徴量の次元が大きい場合でも計算コストを小さく抑えることができ、長い残響が含まれていたり、背景音が点音源でなかったり複数の音源で構成されていたりする場合にも、適切に目的音声の推定を行うことができる。
【図面の簡単な説明】
【0010】
【図1】従来の背景音抑圧装置の構成を示すブロック図。
【図2】従来の背景音抑圧装置の動作を示すフローチャート。
【図3】実施例1に係る背景音抑圧装置の構成を示すブロック図。
【図4】実施例1に係る背景音抑圧装置の動作を示すフローチャート。
【図5】周波数解像度低減部の用いるフィルタ係数の例。
【図6】実施例2に係る背景音抑圧装置の構成を示すブロック図。
【図7】実施例2に係る背景音抑圧装置の動作を示すフローチャート。
【図8】実施例3に係る背景音抑圧装置の構成を示すブロック図。
【図9】実施例3に係る背景音抑圧装置の動作を示すフローチャート。
【発明を実施するための形態】
【0011】
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
【0012】
最初に、説明に用いる記号について説明する。観測信号には目的音声と背景音が重畳しており、その音源信号をNm本のマイクロホンで収音する。m番目のマイクロホンから収音した音響信号を短時間フーリエ変換等を用いて周波数領域の信号に変換した観測信号をx(m)_(n,k)と表記する。nはn番目の時間つまりフレーム番号、kはk番目の周波数つまりビン番号であり、n番目の時間及びk番目の周波数に対応する時間周波数点を参照する場合に、時間周波数点(n,k)と表記する。各フレームの周波数ビンの総数をNkと表記する。jはj番目の音源信号の番号であり、j=1は目的音声、j=2は背景音を表すとする。なお、数式での表現とテキストでの表現には次のような対応関係がある。
【0013】
【数1】
【0014】
<従来例の説明>
まず、図1、図2を参照して、従来の背景音抑圧装置10の動作の概略を説明する。図1は従来の背景音抑圧装置10の構成を示すブロック図である。図2は従来の背景音抑圧装置10の動作を示すフローチャートである。
【0015】
従来の背景音抑圧装置10では、j番目の音源信号のスペクトル時系列全体{S(j)_(n,k)}の同時確率密度関数を次式に示すようにモデル化する。
【0016】
【数2】
【0017】
ここで、q(j)はj番目の音源信号のスペクトル時系列全体の状態を表すスペクトルパラメータを表す。以下では全ての音源信号のq(j)をまとめてq=[q(1),q(2)]とも表記する。
【0018】
また、β_(q(j),n,k)(S)はスペクトル特徴量のモデルであり、式(3)に表されるように、スペクトルパラメータq(j)が与えられた下で各時間周波数点(n,k)の音源信号のスペクトルの値がSとなる確率密度関数である。
【0019】
式(2)において、スペクトルパラメータが既知のもとでは、異なる時間周波数点におけるスペクトルの値S(j)_(n,k)は相互に独立であるという仮定を導入している。
【0020】
また、従来例では式(4)に示すように、各時間周波数点(n,k)において最も大きなエネルギーを持つ音源信号(以下、占有的な音源信号と称する)のスペクトルの値S(j)_(n,k)は、観測信号のスペクトルの値と一致すると仮定する。
【0021】
【数3】
【0022】
また、占有的ではない音源jに関しては、S(j)_(n,k)≦X_(n,k)の関係を持つと仮定する。すると、各音源信号のスペクトルパラメータが既知の条件の下で、観測信号の高解像度スペクトル特徴量X_(n,k)の事後確率密度関数は次のように表現できることが知られている(詳しくは「S. J. Rennie, J. R. Hershey, and P. A. Olsen, “Hierarchical variational loopy belief propagation for multi-talker speech recognition,” Proc. ASRU-2009, pp. 176-181 2009.」参照)。
【0023】
【数4】
【0024】
従来例では、更に上式は次のように分解可能であると仮定している。
【0025】
【数5】
【0026】
Z_(n,k)は時間周波数点(n,k)において占有的な音源の番号を表す確率変数であり、Z_(n,k)=jは、j番目の音源が占有的な音源である場合を示す。
【0027】
また、従来の背景音抑圧装置10では、高解像度音源位置特徴量A_(n,k)から音源位置パラメータφ(j)を推定するため、高解像度音源位置特徴量のモデルp(A_(n,k);φ)を導入する。各音源jに対応する音源位置特徴量のモデルp(A_(n,k);φ)は、各音源信号のエネルギーは異なる時間周波数点にわたり疎に分布していると仮定し、その時間周波数点において占有的な音源の音源位置のみに依存して決まると仮定する。そして、全ての音源の音源位置パラメータφ(j)をまとめてφ=[φ(1),φ(2)]と表すと、観測信号に対する高解像度音源位置特徴量のモデルp(A_(n,k);φ)、つまり観測信号の高解像度音源位置特徴量の確率密度関数は、混合分布として式(8)に示すように展開することができる。
【0028】
【数6】
【0029】
式(8)において、p(Z_(n,k)=j)は、j番目の音源が時間周波数点(n,k)において占有的な音源になる事前確率密度関数を表している。更に、以降の説明では次の表記を用いることにする。
【0030】
【数7】
【0031】
γ_(φ(j),n,k)(A)は、時間周波数点(n,k)において占有的な音源の番号がjの場合に、高解像度音源位置特徴量A_(n,k)が得られる確率密度関数を表す。これは、j番目の音源の音源位置パラメータφ(j)のみに依存するものとする。具体的なγ_(φ(j),k)(A)やφ(j)の定義については後述する。
【0032】
式(8)のもと、γ_(φ(j),k)(A)が定義されている場合、音源位置パラメータφ(j)と占有的な音源の番号に関する事前確率密度関数p(Z_(n,k)=j)が与えられれば、音源位置特徴量のモデルp(A_(n,k);φ)は一意に定めることができる。逆に、音源位置特徴量A_(n,k)が観測された場合に、最尤推定などの方法に従い、音源位置パラメータと占有的な音源の番号に関する事前確率密度関数p(Z_(n,k)=j)やその事後確率密度関数を推定することができる。
【0033】
以上の定義に従うと、完全データの確率密度関数は式(10)に示すように導出される。
【0034】
【数8】
【0035】
式(10)において、qがスペクトルパラメータ、φが音源位置パラメータである。従来例では、次の対数尤度関数を最大化する値として、スペクトルパラメータqと音源位置パラメータφを推定する。
【0036】
【数9】
【0037】
式(12)で、確率変数Z_(n,k)は隠れ変数として扱われる。隠れ変数を含む対数尤度関数の最大化には、例えば、期待値最大化アルゴリズムなどを用いることができる。期待値最大化アルゴリズムでは、スペクトルパラメータの推定値^qに基づき、観測信号が得られた下での占有的な音源の番号の事後確率密度関数^M(j)_(n,k)=p(Z_(n,k)|A_(n,k),X_(n,k)^q;^φ)をも同時に推定する必要がある。従来例では、この関数の値を高解像度占有度と称し、この値も推定すべきパラメータに含めて考えている。
【0038】
以下、実際に行われる手続きの順に説明してゆく。従来の背景音抑圧装置10は、特徴抽出部100、高解像度占有度推定部500、目的音声推定部600、高解像度スペクトルモデル記憶部800を備える。
【0039】
高解像度スペクトルモデル記憶部800は、目的音声と背景音それぞれのスペクトル時系列全体の状態を表すスペクトルパラメータq(j)の事前確率密度関数p(q(j))と、そのスペクトルパラメータq(j)が与えられた場合の各音源信号の各時間周波数点における高解像度スペクトル特徴量のモデルβ_(q(j),n,k)(S)とを記憶する。(S)は音源パワー特徴量X_(n,k)を表す変数である。事前確率密度関数p(q(j))と高解像度スペクトル特徴量のモデルβ_(q(j),n,k)(S)は、目的音声と背景音それぞれについて、事前学習により、与えられているものとする。
【0040】
特徴抽出部100は、複数(Nm本)のマイクロホンで収音した時間領域信号を時間周波数領域信号に変換した観測信号x(m)_(n,k)を入力として、各時間周波数点(n,k)における高解像度音源位置特徴量A_(n,k)と高解像度スペクトル特徴量X_(n,k)を抽出する(S101,S102)。
【0041】
高解像度スペクトル特徴量X_(n,k)は、例えば、1本目のマイクロホンが収音した信号の対数パワースペクトルとして抽出される。これは式(13)に示すように計算される。
【0042】
【数10】
【0043】
高解像度音源位置特徴量A_(n,k)は、一般に各時間周波数点における異なるマイクロホン間での信号の位相差や強度比などに表れる。したがって、高解像度音源位置特徴量A_(n,k)は、信号の位相差や強度比を異なるマイクロホンペアごとにまとめて出来るベクトルであったり、そこから更に何らかの特徴抽出を行った結果の値であったりとして抽出される。例えば、2本のマイクロホンで収音した信号の位相差を高解像度音源位置特徴量A_(n,k)として抽出する場合、式(14)に示すように計算される。
【0044】
【数11】
【0045】
上記以外にも、例えば、式(14’)に示すように計算される正規化複素スペクトルベクトルなども、音源位置特徴量として用いることができる(詳しくは「Hiroshi Sawada, Shoko Araki, and Shoji Makino, “Underdetermined convolutive blind source separation via frequency bin-wise clustering and permutation alignment,” IEEE Trans. Audio, Speech, and Language Processing, vol. 19, no. 3, pp. 516-527, 2011.」(以下、参考文献1)参照)。
【0046】
【数12】
【0047】
以下、本明細書では、式(14’)による高解像度音源位置特徴量A_(n,k)を用いて発明の構成を説明する。式(14)を用いる発明の構成については、非特許文献1および非特許文献2を参照されたい。
【0048】
高解像度占有度推定部500は、特徴抽出部100から出力される高解像度音源位置特徴量A_(n,k)と高解像度スペクトル特徴量X_(n,k)と、高解像度スペクトルモデル記憶部800に記憶されたスペクトルパラメータの事前確率密度関数p(q(j))とスペクトル特徴量のモデルβ_(q(j),n,k)(S)とを入力として、各音源信号の高解像度占有度^M(j)_(n,k)を推定する。
【0049】
まず、高解像度占有度推定部500は、音源jごとに高解像度占有度^M(j)_(n,k)を、Σj^M(j)=1となるように、例えば乱数で初期化する。その後、以下の(1)〜(3)の各処理を収束するまで繰り返す。
【0050】
(1)スペクトルパラメータの更新(S501)
高解像度スペクトル特徴量X_(n,k)と高解像度占有度^M(j)_(n,k)とスペクトルパラメータの事前確率密度関数p(q(j))と高解像度スペクトル特徴量のモデルβ_(q(j),n,k)(S)とを用いて、式(15)に示すように、スペクトルパラメータの推定値^q(j)を更新する(M−step)。
【0051】
【数13】
【0052】
(2)音源位置パラメータの更新(S502)
高解像度占有度^M(j)_(n,k)と高解像度音源位置特徴量A_(n,k)とを用いて、式(17)に示すように、音源位置パラメータ^φ(j)を更新する(M−step)。
【0053】
【数14】
【0054】
(3)高解像度占有度の更新(S503)
スペクトルパラメータ^q(j)と高解像度音源位置特徴量A_(n,k)と高解像度スペクトル特徴量X_(n,k)と高解像度スペクトル特徴量のモデルβ_(q(j),n,k)(S)とを用いて、式(18)に示すように、高解像度占有度^M(j)_(n,k)を更新する(E−step)。
【0055】
【数15】
【0056】
目的音声推定部600は、高解像度スペクトル特徴量X_(n,k)と、高解像度占有度^M(j)_(n,k)とスペクトルパラメータ^q(j)nと、高解像度スペクトル特徴量のモデルβ_(q(j),n,k)(S)とを入力として、最小自乗誤差推定により、目的音声の推定値^S(j)_(n,k)を求める(S600)。推定の方法は次式によって行う。
【0057】
【数16】
【0058】
<従来例の問題点>
従来の背景音抑圧装置10は、高解像度占有度推定部500において、スペクトルパラメータ^q(j)と音源位置パラメータ^φ(j)、および高解像度占有度^M(j)_(n,k)の更新のために、式(15)(17)(18)を繰返し実行する。このとき、高解像度スペクトル特徴量X_(n,k)および高解像度音源位置特徴量A_(n,k)の次元が増すほど、すなわち、各フレームの周波数ビンの総数Nkが増えるほど、計算コストが大きくなるという問題があった。
【0059】
また、従来例では、音源位置特徴量の確率密度関数において、γ_(φ(j),k)(A)で表現される各音源の高解像度音源位置特徴量の確率密度関数は、単一のガウス分布などの単純なものしか扱うことができなかった。したがって、比較的残響の少ない点音源の高解像度音源位置特徴量の統計的性質しか表現できず、残響が長かったり、背景音に複数の点音源が含まれたり点音源以外の音源が含まれていると、目的音声や背景音の高解像度音源位置特徴量を適切に表現することができなかった。
【0060】
<本発明の概要>
実施例1では、従来例で計算コストを増大させていたスペクトルパラメータ^q(j)の繰返し推定については、周波数の解像度を落とした空間での繰り返し推定により求める。これにより、効率的にスペクトルパラメータ^q(j)を推定できるようになる。さらに、推定したスペクトルパラメータ^q(j)と高解像度スペクトルモデルと高解像度音源位置占有度を用いることで、高解像度占有度を推定できる。このとき、高解像度占有度の推定には、繰返し処理は必要ないので、計算コストは大きくならない。その結果、スペクトルパラメータ^q(j)と高解像度占有度を効率的に求めることができるようになる。なお、本構成においても、高解像度音源位置占有度の推定のために繰返し処理が必要であるが、この処理は、従来例の高解像度占有度推定のための繰返し処理と比較して、小さい計算コストで実現することができる。
【0061】
実施例2では、さらに、事前に学習した高解像度音源位置特徴量のモデルをも具備させることで、繰返し処理をしなくても高解像度音源位置占有度の推定ができるようになる。その結果、より効率的に背景音抑圧が行えるようになる。さらに、高解像度音源位置特徴量のモデルを事前学習する場合には、より複雑な高解像度音源位置特徴量の確率密度関数をも利用できるようになるため、長い残響が含まれたり、背景音が単一の点音源のみから構成されていなかったりする場合でも、目的音声と背景音の音源位置特徴量を、より適切に区別できるようになる。
【0062】
実施例3では、周波数解像度の低減は行わず、事前に学習した高解像度音源位置特徴量のモデルを具備させる。高解像度音源位置モデル記憶部に記憶されている音源位置のモデルを利用することができるので、目的音声および背景音の音源位置のモデルパラメータを推定する必要がなく、計算コストを低く抑えることができる。また、高解像度音源位置モデル記憶部に記憶されている音源位置のモデルとして、混合分布などのより複雑な分布形状をもつものを利用できるようになるので、残響のある環境や複数の音が背景音に含まれる環境でも、適切に背景音抑圧を行うことができる。
【実施例1】
【0063】
次に、図3、図4を参照して、本発明の実施例1に係る背景音抑圧装置20の動作を詳細に説明する。図3は本発明の実施例1に係る背景音抑圧装置20の構成を示すブロック図である。図4は本発明の実施例1に係る背景音抑圧装置20の動作を示すフローチャートである。
【0064】
以下、実際に行われる手続きの順に説明してゆく。本実施例の背景音抑圧装置20は、特徴抽出部100、音源位置占有度推定部200、周波数解像度低減部300、低解像度占有度推定部400、高解像度占有度再推定部510、目的音声推定部600、低解像度スペクトルモデル記憶部700、高解像度スペクトルモデル記憶部810を備える。
【0065】
低解像度スペクトルモデル記憶部700は、目的音声と背景音それぞれのスペクトル時系列全体の状態を表すスペクトルパラメータq(j)の事前確率密度関数p(q(j))と、そのスペクトルパラメータq(j)が与えられた場合の各音源信号の各時間周波数点における低解像度スペクトル特徴量のモデルβ ̄_(q(j),n,k ̄)(S)とを記憶する。(S)は低解像度スペクトル特徴量X ̄_(n,k ̄)を表す変数である。j番目の音源信号の低解像度スペクトル特徴量の時系列全体{S ̄(j)_(n,k ̄)}の同時確率密度関数を次式(1’)(2’)(3’)に示すようにモデル化する。
【0066】
【数17】
【0067】
さらに、スペクトルパラメータq(j)は、q(j)={q(j)_(0),q(j)_(1),…}のように各時刻の状態を表す状態系列に分解され、一次のマルコフ過程に従い状態遷移が各時刻で起こると仮定する。但し、スペクトルパラメータq(j)_(0)は隠れマルコフモデルの初期状態を表す。式(3’)で定義される各時間周波数点(n,k ̄)におけるS ̄(j)_(n,k ̄)の事後確率密度関数は、その時刻の状態q(j)_(n)のみに依存するガウス分布に従うと仮定する。これを数式で表すと式(20)(21)のようになる。
【0068】
【数18】
【0069】
ここで、π(j)_(i)=p(q(j)_(0)=i)は、隠れマルコフモデルの初期状態がiである事前確率、α(j)_(i,h)=p(q(j)_(n)=h|q(j)_(n−1)=i)は、隠れマルコフモデルが状態iから状態hへ移る状態遷移確率、β ̄_(i,n,k ̄)(S)=p(S ̄(j)_(n,k ̄)=S|q(j)_(n)=i)=N(S ̄(j)_(n,k ̄);μ ̄(j)_(i,k ̄),σ ̄(j)_(i,k ̄))は、隠れマルコフモデルの状態iにおける出力の確率密度関数であり、μ ̄(j)_(i,k ̄)及びσ ̄(j)_(i,k ̄)はその平均と分散である。全てのh,i,j,kに対するπ(j)_(i)、α(j)_(i,h)、μ ̄(j)_(i,k ̄)、σ ̄(j)_(i,k ̄)は、本実施例では、全て音声データベース等からの学習により、事前に求められているものとする。
【0070】
高解像度スペクトルモデル記憶部810は、スペクトルパラメータq(j)が与えられた場合の各音源信号の各時間周波数点における高解像度スペクトル特徴量のモデルβ_(q(j),n,k)(S)を記憶する。
【0071】
特徴抽出部100は、観測信号x(m)_(n,k)を入力として、式(13)に基づき、対数パワースペクトルを高解像度スペクトル特徴量X_(n,k)として抽出する(S101)。さらに、式(14’)に基づき、正規化複素スペクトルを高解像度音源位置特徴量A_(n,k)として抽出する(S102)。
【0072】
音源位置占有度推定部200は、高解像度音源位置特徴量A_(n,k)を入力として、音源位置パラメータφ(j)を推定する(S201)。この推定には、参考文献1もしくは「Tomohiro Nakatani, Shoko Araki, Takuya Fujimoto, Masakiyo Fujimoto, “Joint unsupervised learning of hidden Markov source models and source location models for multi-channel source separation,” Proc. Of IEEE ICASSP-2011, pp. 237-240, 2011.」(以下、参考文献2)等に記載の方法を用いることができる。このため、本実施例では、各音源信号に由来する観測信号の正規化複素スペクトルは、周波数ごとに異なる平均値μ(j)_(k)、分散σ(j)_(k)をもつ、以下の分布に従うと仮定する。
【0073】
【数19】
【0074】
但し、φ(j)_(k)=[μ(j)_(k),σ(j)_(k)]は、音源位置パラメータφ(j)のうち周波数kのみに関する部分を取り出したものであり、φ(j)は全ての周波数kについてφ(l)_(k)を集めたφ(j)=[φ(j)_(1),…,φ(j)_(Nk)]である。この仮定に基づき、本実施例では、観測信号x(j)_(n,k)の高解像度音源位置特徴量の確率密度関数は、式(8)(9)(19)でモデル化されるとする。
【0075】
続いて、音源位置占有度推定部200は、推定された音源位置パラメータφ(j)に基づき、高解像度音源位置占有度Q(j)_(n,k)を以下のように推定する(S202)。
【0076】
【数20】
【0077】
周波数解像度低減部300は、特徴抽出部100の出力する高解像度スペクトル特徴量X_(n,k)と、音源位置占有度推定部200の出力する高解像度音源位置占有度Q_(n,k)を入力として、近傍周波数間の平滑化処理を適用することで、低解像度スペクトル特徴量X ̄_(n,k ̄)と低解像度音源位置占有度Q ̄_(n,k ̄)に変換する。
【0078】
高解像度スペクトル特徴量X_(n,k)の周波数解像度低減には、例えば、音声認識の特徴量抽出でしばしば利用されるフィルタバンク処理などを利用する。いま、F_(k ̄)=[F_(k ̄,1),F_(k ̄,2),…,F_(k ̄,Nk)]を、フィルタバンク処理のk ̄番目の出力を得るためのフィルタ係数とする。高解像度スペクトル特徴量X_(n,k)から低解像度スペクトル特徴量X ̄_(n,k ̄)への変換は、フィルタ係数F_(k ̄)を用いて、以下のように求められる(S301)。
【0079】
【数21】
【0080】
ただし、k ̄は、低解像度スペクトル特徴量X ̄_(n,k ̄)の周波数の番号を表しており、k ̄≦kである。
【0081】
次に、周波数解像度低減部300は、高解像度音源位置占有度Q_(n,k)から低解像度音源位置占有度Q ̄_(n,k ̄)への変換を、同じフィルタ係数F_(k ̄)を用いて、以下のように実施する(S302)。
【0082】
【数22】
【0083】
図5にフィルタ係数F_(k ̄)の例を示す。
【0084】
低解像度占有度推定部400は、低解像度スペクトル特徴量X ̄_(n,k ̄)と低解像度音源位置占有度Q ̄_(n,k ̄)を入力として、期待値最大化アルゴリズムに従い、スペクトルパラメータの推定値^q(j)と低解像度占有度の推定値^M ̄(j)_(n,k ̄)を求める。このために、以下の(1)と(2)の処理を収束するまで繰り返す。
【0085】
(1)スペクトルパラメータの推定値の更新(S401)
音源jごとに、式(22)を満たすスペクトルパラメータの推定値^q(j)=[^q(j)_(0),…,^q(j)_(Ns)]を、Viterbiアルゴリズムを用いて更新する。
【0086】
【数23】
【0087】
(2)低解像度占有度の更新(S402)
低解像度占有度M ̄(j)_(n,k ̄)を、式(32)に示すように、更新する(E−step)。
【0088】
【数24】
【0089】
上記、(1)と(2)の繰返しの結果得られたスペクトルパラメータの推定値^q(j)が、低解像度占有度推定部400の出力となる。
【0090】
高解像度占有度再推定部510は、高解像度スペクトル特徴量X_(n,k)と、高解像度音源位置占有度Q_(n,k)と、スペクトルパラメータの推定値^q(j)と、スペクトル特徴量のモデルβ_(q(j),n,k)(S)とを入力として、式(32’)に従い、高解像度占有度の推定値^M(j)_(n,k)を求める(S510)。
【0091】
【数25】
【0092】
目的音声推定部600は、高解像度スペクトル特徴量X_(n,k)と、高解像度占有度の推定値^M(j)_(n,k)と、スペクトルパラメータの推定値^q(j)と、高解像度スペクトル特徴量のモデルβ_(q(j),n,k)(S)とを入力として、従来例と同じ式(36)に基づき、観測信号から背景音を抑圧した、目的音声の推定値^S(j)_(n,k)を求める(S600)。
【0093】
このように、本実施例の背景音抑圧装置20は、従来例で計算コストを増大させていたスペクトルパラメータ^q(j)の繰返し推定について、周波数の解像度を落とした空間での繰り返し推定により求める。これにより、効率的にスペクトルパラメータ^q(j)を推定できるようになる。さらに、推定したスペクトルパラメータ^q(j)と高解像度スペクトル特徴量のモデルβ_(q(j),n,k)(S)と高解像度音源位置占有度Q_(n,k)を用いることで、高解像度占有度M(j)_(n,k)を推定できる。このとき、高解像度占有度の推定には、繰返し処理は必要ないので、計算コストは大きくならない。その結果、スペクトルパラメータ^q(j)と高解像度占有度M(j)_(n,k)を効率的に求めることができるようになる。なお、本構成においても、高解像度音源位置占有度Q_(n,k)の推定のために繰返し処理が必要であるが、この処理は、従来例の高解像度占有度推定のための繰返し処理と比較して、小さい計算コストで実現することができる。
【実施例2】
【0094】
次に、図6、図7を参照して、本発明の実施例2に係る背景音抑圧装置30の動作を詳細に説明する。図6は本発明の実施例2に係る背景音抑圧装置30の構成を示すブロック図である。図7は本発明の実施例2に係る背景音抑圧装置30の動作を示すフローチャートである。以下では、実施例1との相違点を中心に説明を行い、実施例1と共通する事項については説明を省略する。
【0095】
本実施例の背景音抑圧装置30は、特徴抽出部100、音源位置占有度推定部210、周波数解像度低減部300、低解像度占有度推定部400、高解像度占有度再推定部510、目的音声推定部600、低解像度スペクトルモデル記憶部700、高解像度スペクトルモデル記憶部810、高解像度音源位置モデル記憶部900を備える。
【0096】
高解像度音源位置モデル記憶部900は、各音源信号(目的音声、もしくは背景音)に関して、高解像度音源位置特徴量の確率密度関数γ(j)_(k)(A)を記憶する。確率密度関数γ(j)_(k)(A)の形状は事前学習により固定されており、観測信号から推定する必要がない。また、式(19)のように、観測信号からパラメータ推定が容易である必要はなく、より複雑な形式にできる。
【0097】
音源位置占有度推定部210は、特徴抽出部100の出力する高解像度音源位置特徴量A_(n,k)と、高解像度音源位置モデル記憶部900に記憶された確率密度関数γ(j)_(k)(A)を入力として、以下の式に従い、高解像度音源位置占有度Q(j)_(n,k)を推定する(S210)。
【0098】
【数26】
【0099】
その他の構成部と処理フローは実施例1の背景音抑圧装置20と同じである。
【0100】
次に、確率密度関数γ(j)_(k)(A)の事前学習方法について説明する。いま、事前学習用のデータとして、音源j(目的音声、または背景音)のみが含まれた観測信号が得られており、その観測信号から高解像度音源位置特徴量A_(n,k)が抽出されているとする。n=1〜Nとする。このとき、確率密度関数γ(j)_(k)(A)は、各周波数kにおけるこの特徴量の確率密度関数を表現するものであれば、どのような関数でも用いることができる。一例として、式(19)で定義される分布F(A;μ(j)_(k),σ(j)_(k))を要素として持つ混合分布を用いる場合について説明する。このとき、確率密度関数γ(j)_(k)(A)は以下のようにモデル化される。
【0101】
【数27】
【0102】
ここで、rは、混合分布の要素の番号であり、u(j)_(r)は、その要素の混合比であり、F(A;μ(j)_(r,k),σ(j)_(r,k))は、その要素の分布を表す。式(19)と式(19’)の違いのひとつは、式(19)では各音源jに関する確率密度関数がひとつの要素のみでモデル化されていたのに対し、式(19’)は、複数の要素からなる混合分布となっているところである。各音源jに対し、事前学習で定めるべきパラメータは、すべてのr,kに対するu(j)_(r)とμ(j)_(r,k)とσ(j)_(r,k)である。事前学習用のデータから抽出した、高解像度音源位置特徴量A_(n,k)を用いて、これらのパラメータは、期待値最大化アルゴリズムを用いて以下の手順で求めることができる。
【0103】
(1)すべてのr,kに対して、μ(j)_(r,k)とσ(j)_(r,k)を初期化する。例えば、μ(j)_(r,k)は乱数で初期化し、σ(j)_(r,k)はσ(j)_(r,k)=1と初期化する。
【0104】
(2)Σru(j)_(r)=1となるように、u(j)_(r)(>0)を、例えば乱数で初期化する。
【0105】
(3)以下の(3−1)から(3−4)を収束するまで繰り返す。
(3−1)K(j)_(n,r,k)を、以下のように更新する。
【0106】
【数28】
【0107】
(3−2)σ(j)_(r,k)を、以下のように更新する。
【0108】
【数29】
【0109】
(3−3)以下のように求められる行列R_(r,k)の最大固有値に対する固有値を求め、μ(j)_(r,k)に代入して更新する。
【0110】
【数30】
【0111】
(3−4)u(j)_(r,k)を、以下のように更新する。
【0112】
【数31】
【0113】
上記の繰返しの結果、最終的に得られるu(j)_(r)とμ(j)_(r,k)とσ(j)_(r,k)が、事前学習により得られるパラメータであり、これらのパラメータに従い、確率密度関数γ(j)_(k)(A)は式(19’)で規定される。
【0114】
このように、本実施例の背景音抑圧装置30は、事前に学習した高解像度音源位置特徴量のモデルを具備させることで、繰返し処理をしなくても高解像度音源位置占有度Q(j)_(n,k)の推定ができるため、計算コストを低く抑えることができる。その結果、より効率的に背景音抑圧が行えるようになる。
【0115】
また、高解像度音源位置特徴量のモデルを事前学習する場合には、より複雑な高解像度音源位置特徴量の確率密度関数γ(j)_(k)(A)をも利用できる。そのため、長い残響が含まれたり、背景音が単一の点音源のみから構成されていなかったりする場合でも、目的音声と背景音の音源位置特徴量をより適切に区別できる。その結果、より適切に背景音抑圧を行うことができる。
【実施例3】
【0116】
次に、図8、図9を参照して、本発明の実施例3に係る背景音抑圧装置40の動作を詳細に説明する。図8は本発明の実施例3に係る背景音抑圧装置40の構成を示すブロック図である。図9は本発明の実施例3に係る背景音抑圧装置40の動作を示すフローチャートである。以下では、実施例2との相違点を中心に説明を行い、実施例2と共通する事項については説明を省略する。
【0117】
本実施例の背景音抑圧装置40は、特徴抽出部100、音源位置占有度推定部210、高解像度占有度推定部520、目的音声推定部600、高解像度スペクトルモデル記憶部800、高解像度音源位置モデル記憶部900を備える。
【0118】
高解像度占有度推定部520は、特徴抽出部100の出力する高解像度スペクトル特徴量X_(n,k)と、音源位置占有度推定部210の出力する高解像度音源位置占有度Q(j)_(n,k)を入力とし、期待値最大化アルゴリズムに従い、スペクトルパラメータの推定値^q(j)と高解像度占有度の推定値^M(j)_(n,k)を求める。このために、以下の(1)と(2)の処理を収束するまで繰り返す。
【0119】
(1)スペクトルパラメータの推定値の更新(S521)
音源jごとに、式(22’)を満たすスペクトルパラメータの推定値^q(j)=[^q(j)_(0),…,^q(j)_(Ns)]を、Viterbiアルゴリズムを用いて更新する。
【0120】
【数32】
【0121】
(2)高解像度占有度の更新(S522)
高解像度占有度M(j)_(n,k)を、式(32’)に示すように、更新する(E−step)。
【0122】
上記、(1)と(2)の繰返しの結果得られたスペクトルパラメータの推定値^q(j)と高解像度占有度の推定値^M(j)_(n,k)が、高解像度占有度推定部520の出力となる。
【0123】
なお、高解像度占有度推定部520は、実施例2の低解像度占有度推定部400と比較して、特徴量の周波数の解像度が異なるだけであり、処理の中身は同一である。
【0124】
その他の構成部と処理フローは実施例2の背景音抑圧装置30と同じである。
【0125】
本実施例の背景音抑圧装置40は、全体の処理の結果だけに注目すると、実施例2において、フィルタバンク処理に用いるフィルタ係数F_(k ̄)=[F_(k ̄,1),F_(k ̄,2),…,F_(k ̄,Nk)]の長さがNkで、各要素を、k ̄=kのときにF_(k ̄,k)=1とし、それ以外はF_(k ̄,k)=0とした場合に相当する。この場合、実施例2の周波数解像度低減部300の入出力は同一になる。すなわち、周波数解像度低減部300は何も処理をしていないのと等価となる。また、低解像度スペクトルモデル特徴量のモデルβ ̄_(q(j),n,k ̄)(S)と高解像度スペクトルモデル特徴量のモデルβ_(q(j),n,k)(S)は同一になるとともに、低解像度占有度の推定値^M ̄(j)_(n,k ̄)と高解像度占有度の推定値^M(j)_(n,k)も同一のものになる。
【0126】
そのため、本実施例では周波数解像度低減部300を省略し、特徴抽出部100の出力する高解像度スペクトル特徴量X_(n,k)と音源位置占有度推定部210の出力するQ(j)_(n,k)が高解像度占有度推定部520へ入力されるようにしている。また、低解像度占有度推定部400、低解像度スペクトルモデル記憶部700は省略し、高解像度占有度推定部520の出力する高解像度占有度の推定値^M(j)_(n,k)とスペクトルパラメータの推定値^q(j)と、高解像度スペクトルモデル記憶部800に記憶された高解像度スペクトル特徴量のモデルβ_(q(j),n,k)(S)とが、目的音声推定部に入力されるものとする。
【0127】
このように、本実施例の背景音抑圧装置40は、事前に学習した高解像度音源位置特徴量のモデルを具備させることで、繰返し処理をしなくても高解像度音源位置占有度Q(j)_(n,k)の推定ができるため、計算コストを低く抑えることができる。その結果、より効率的に背景音抑圧が行えるようになる。
【0128】
また、高解像度音源位置特徴量のモデルを事前学習する場合には、より複雑な高解像度音源位置特徴量の確率密度関数γ(j)_(k)(A)をも利用できる。そのため、長い残響が含まれたり、背景音が単一の点音源のみから構成されていなかったりする場合でも、目的音声と背景音の音源位置特徴量をより適切に区別できる。その結果、より適切に背景音抑圧を行うことができる。
【0129】
<確認実験>
本発明の背景音抑圧装置を評価する目的で確認実験を行った。
【0130】
実験条件を説明する。残響のある部屋で、二本のマイクロホンを用いて、マイクロホンの正面にいる話者の音声が様々な周囲の背景音と同時に収録された音を、観測信号として用いた。この観測信号には、比較的長い残響が含まれているともに、背景音には複数の点音源が含まれていたり、点音源ではない音源が含まれていたりするものであった。このような観測信号を適切に扱うために、本発明の実施例2に示した高解像度音源位置特徴量のモデルを、事前学習により用意した。そして、本確認実験では、実施例2の発明において、周波数解像度の低減を行った場合(本発明)と行わなかった場合(従来例)の比較を実施した。どちらの場合も、残響を含む信号の音源位置情報を適切に扱えるようにするために、短時間フーリエ変換の分析窓長は、100ミリ秒とした。標本化周波数を16kHzとしたため、高解像度スペクトル特徴量の次元は801となった。一方、低解像度スペクトル特徴量の次元は40とした。
【0131】
まず、計算コストの比較として、実時間ファクタを測定した。実時間ファクタは、背景音抑圧処理に要した時間(秒)と観測信号長(秒)の比である。実時間ファクタが1以下の場合、観測信号の長さよりも短い時間の間に処理が終わることを意味する。我々の実験では、従来例と本発明の実時間ファクタは、それぞれ、4.52と0.69であった。これにより、本発明は、大幅に計算コストを削減できることが確認できた。
【0132】
続いて、観測信号、および背景音を抑圧した信号に対して、自動音声認識を適用した結果を示す。観測信号をそのまま音声認識した場合の単語正解率は、69.4%であったのに対し、従来例と本発明で背景音抑圧した音を音声認識した場合の単語正解率は、それぞれ、82.7%と81.6%であった。従来例、本発明ともに大幅な音声認識率の改善が得られたことから、実施例2の高解像度音源位置特徴量モデルは、有効に機能していたことがわかる。また、従来例と比較して、本発明により若干の音声認識性能の低下があったが、その差はきわめて小さかった。
【0133】
以上の結果より、本発明は、背景音抑圧性能をほとんど劣化させることなく、従来例の計算コストを大幅に下げる効果を実現できることが確認された。
【0134】
<プログラム、記録媒体>
上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
【0135】
また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。
【0136】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
【0137】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0138】
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
【0139】
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
【産業上の利用可能性】
【0140】
本発明は、目的音声と背景音が混ざって複数のマイクロホンで収音された観測信号から、背景音を抑圧し、目的音声を推定・抽出するために利用することができる。
【符号の説明】
【0141】
10、20、30、40 背景音抑圧装置
100 特徴抽出部 200、210 音源位置占有度推定部
300 周波数解像度低減部 400 低解像度占有度推定部
500、520 高解像度占有度推定部 510 高解像度占有度再推定部
600 目的音声推定部
700 低解像度スペクトルモデル記憶部
800、810 高解像度スペクトルモデル記憶部
900 高解像度音源位置モデル記憶部
【技術分野】
【0001】
本発明は、目的音声と背景音が混ざって複数のマイクロホンで収音された観測信号から、背景音を抑圧し、目的音声を推定・抽出する背景音抑圧装置、背景音抑圧方法、およびプログラムに関する。
【背景技術】
【0002】
従来の背景音抑圧装置には、高解像度スペクトルモデル記憶部と特徴抽出部と高解像度占有度推定部と目的音声推定部とを備えるものがある(例えば非特許文献1および非特許文献2参照)。
【0003】
以下、非特許文献1および2に記載された従来の背景音抑圧装置について説明する。上述のように、従来の背景音抑圧装置は、高解像度スペクトルモデル記憶部と特徴抽出部と高解像度占有度推定部と目的音声推定部とを備える。高解像度スペクトルモデル記憶部は、目的音声と背景音それぞれについて、スペクトル特徴量の時系列全体の状態を表すスペクトルパラメータの事前確率密度関数と、そのスペクトルパラメータが与えられた場合の各音源信号(目的信号、または背景音)の各時間周波数点における事後確率密度関数であるスペクトル特徴量のモデルとを記憶する。特徴抽出部は、複数のマイクロホンで収音した時間領域の信号を時間周波数領域信号に変換した観測信号を入力として、各時間周波数点における高解像度音源位置特徴量と高解像度スペクトル特徴量を抽出する。高解像度占有度推定部は、高解像度音源位置特徴量と高解像度スペクトル特徴量と高解像度スペクトル特徴量のモデルとスペクトルパラメータの事前確率密度関数とを入力として、観測信号が得られた下での占有的な音源の番号の事後確率密度関数である高解像度占有度の推定値とスペクトルパラメータの推定値を得る。さらに、目的音声推定部は、高解像度占有度推定部が出力する高解像度占有度の推定値とスペクトルパラメータの推定値と、特徴抽出部が出力する高解像度スペクトル特徴量と、高解像度スペクトルモデル記憶部に記憶された高解像度スペクトル特徴量のモデルとを入力として、目的音声の推定値を抽出する。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】Tomohiro Nakatani, Shoko Araki, Takuya Yoshioka, Masakiyo Fujimoto, “Multichannel source separation based on source location cue with log-spectral shaping by hidden Markov source model,” Proc. of Interspeech-2010, pp. 2766-2769, Sep., 2010.
【非特許文献2】中谷智広、荒木章子、吉岡卓也、藤本雅清、“DOAクラスタリングと音声の対数スペクトルHMMに基づく音源分離”日本音響学会2010年秋季研究発表会講演論文集、pp.577-580, 9月, 2010年.
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、従来の背景音抑圧装置は、高解像度音源位置特徴量と高解像度スペクトル特徴量に基づきスペクトルパラメータと高解像度占有度を推定するために繰り返し処理を実行するため、各特徴量の次元が大きくなるにつれて計算コストが大きくなるという問題があった。特に、残響のある環境で音源位置特徴量から抽出される音源位置の情報を適切に扱うには分析窓のサイズを大きくすることが望ましいが、それにともない各特徴量の次元が大きくなるため、計算コストの増大が避けられないことが問題であった。
【0006】
また、従来の背景音抑圧装置では、音源位置特徴量のモデルは比較的残響の少ない環境で点音源から観測されることを前提としていたため、音源位置特徴量の確率密度関数は単一のガウス分布などの単純なものしか扱うことができなかった。したがって、分析窓より長い残響が含まれる場合や、背景音が点音源でなかったり複数の音源で構成されていたりする場合には、適切に目的音声の推定を行うことができなかった。
【0007】
本発明はこのような点に鑑みてなされたものであり、各特徴量の次元が大きい場合でも計算コストを小さく抑えることができ、長い残響が含まれていたり、背景音が点音源でなかったり複数の音源で構成されていたりする場合にも、適切に目的音声の推定を行うことができる背景音抑圧装置を提供することを目的とする。
【課題を解決するための手段】
【0008】
本発明の背景音抑圧装置は、複数のマイクロホンで収音した時間領域信号を時間周波数領域信号に変換した観測信号x(m)_(n,k)から、背景音を抑圧し目的音声の推定値^S(j)_(n,k)を抽出する。まず、mはマイクロホンの番号を表し、nはフレームの番号を表し、kは周波数ビンの番号を表し、jは音源の番号を表すとする。高解像度スペクトルモデル記憶部には、各音源信号のスペクトルパラメータの事前確率密度関数p(q(j))と各音源信号の高解像度スペクトル特徴量モデルβ_(i,n,k)(S)が記憶される。高解像度音源位置モデル記憶部には、各音源信号の高解像度音源位置特徴量の確率密度関数γ(j)_k(A)が記憶される。特徴抽出部は、観測信号x(m)_(n,k)から、高解像度音源位置特徴量A_(n,k)と高解像度スペクトル特徴量X_(n,k)を抽出する。音源位置占有度推定部は、高解像度音源位置特徴量A_(n,k)と確率密度関数γ(j)_k(A)から、各音源信号の高解像度音源位置占有度Q(j)_(n,k)を求める。高解像度占有度推定部は、高解像度スペクトル特徴量X_(n,k)と高解像度音源位置占有度Q(j)_(n,k)と事前確率密度関数p(q(j))と高解像度スペクトル特徴量モデルβ_(i,n,k)(S)から、対数尤度関数を最大化するように、各音源信号のスペクトルパラメータの推定値^q(j)を求め、スペクトルパラメータの推定値^q(j)と高解像度音源位置占有度Q(j)_(n,k)と高解像度スペクトル特徴量モデルβ_(i,n,k)(S)から、高解像度占有度の推定値^M(j)_(n,k)を求める。目的音声推定部は、スペクトルパラメータの推定値^q(j)と高解像度占有度の推定値^M(j)_(n,k)と高解像度スペクトル特徴量X_(n,k)と高解像度スペクトル特徴量モデルβ_(i,n,k)(S)から、目的音声の推定値^S(j)_(n,k)を求める。
【発明の効果】
【0009】
本発明の背景音抑圧装置は、各特徴量の次元が大きい場合でも計算コストを小さく抑えることができ、長い残響が含まれていたり、背景音が点音源でなかったり複数の音源で構成されていたりする場合にも、適切に目的音声の推定を行うことができる。
【図面の簡単な説明】
【0010】
【図1】従来の背景音抑圧装置の構成を示すブロック図。
【図2】従来の背景音抑圧装置の動作を示すフローチャート。
【図3】実施例1に係る背景音抑圧装置の構成を示すブロック図。
【図4】実施例1に係る背景音抑圧装置の動作を示すフローチャート。
【図5】周波数解像度低減部の用いるフィルタ係数の例。
【図6】実施例2に係る背景音抑圧装置の構成を示すブロック図。
【図7】実施例2に係る背景音抑圧装置の動作を示すフローチャート。
【図8】実施例3に係る背景音抑圧装置の構成を示すブロック図。
【図9】実施例3に係る背景音抑圧装置の動作を示すフローチャート。
【発明を実施するための形態】
【0011】
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
【0012】
最初に、説明に用いる記号について説明する。観測信号には目的音声と背景音が重畳しており、その音源信号をNm本のマイクロホンで収音する。m番目のマイクロホンから収音した音響信号を短時間フーリエ変換等を用いて周波数領域の信号に変換した観測信号をx(m)_(n,k)と表記する。nはn番目の時間つまりフレーム番号、kはk番目の周波数つまりビン番号であり、n番目の時間及びk番目の周波数に対応する時間周波数点を参照する場合に、時間周波数点(n,k)と表記する。各フレームの周波数ビンの総数をNkと表記する。jはj番目の音源信号の番号であり、j=1は目的音声、j=2は背景音を表すとする。なお、数式での表現とテキストでの表現には次のような対応関係がある。
【0013】
【数1】
【0014】
<従来例の説明>
まず、図1、図2を参照して、従来の背景音抑圧装置10の動作の概略を説明する。図1は従来の背景音抑圧装置10の構成を示すブロック図である。図2は従来の背景音抑圧装置10の動作を示すフローチャートである。
【0015】
従来の背景音抑圧装置10では、j番目の音源信号のスペクトル時系列全体{S(j)_(n,k)}の同時確率密度関数を次式に示すようにモデル化する。
【0016】
【数2】
【0017】
ここで、q(j)はj番目の音源信号のスペクトル時系列全体の状態を表すスペクトルパラメータを表す。以下では全ての音源信号のq(j)をまとめてq=[q(1),q(2)]とも表記する。
【0018】
また、β_(q(j),n,k)(S)はスペクトル特徴量のモデルであり、式(3)に表されるように、スペクトルパラメータq(j)が与えられた下で各時間周波数点(n,k)の音源信号のスペクトルの値がSとなる確率密度関数である。
【0019】
式(2)において、スペクトルパラメータが既知のもとでは、異なる時間周波数点におけるスペクトルの値S(j)_(n,k)は相互に独立であるという仮定を導入している。
【0020】
また、従来例では式(4)に示すように、各時間周波数点(n,k)において最も大きなエネルギーを持つ音源信号(以下、占有的な音源信号と称する)のスペクトルの値S(j)_(n,k)は、観測信号のスペクトルの値と一致すると仮定する。
【0021】
【数3】
【0022】
また、占有的ではない音源jに関しては、S(j)_(n,k)≦X_(n,k)の関係を持つと仮定する。すると、各音源信号のスペクトルパラメータが既知の条件の下で、観測信号の高解像度スペクトル特徴量X_(n,k)の事後確率密度関数は次のように表現できることが知られている(詳しくは「S. J. Rennie, J. R. Hershey, and P. A. Olsen, “Hierarchical variational loopy belief propagation for multi-talker speech recognition,” Proc. ASRU-2009, pp. 176-181 2009.」参照)。
【0023】
【数4】
【0024】
従来例では、更に上式は次のように分解可能であると仮定している。
【0025】
【数5】
【0026】
Z_(n,k)は時間周波数点(n,k)において占有的な音源の番号を表す確率変数であり、Z_(n,k)=jは、j番目の音源が占有的な音源である場合を示す。
【0027】
また、従来の背景音抑圧装置10では、高解像度音源位置特徴量A_(n,k)から音源位置パラメータφ(j)を推定するため、高解像度音源位置特徴量のモデルp(A_(n,k);φ)を導入する。各音源jに対応する音源位置特徴量のモデルp(A_(n,k);φ)は、各音源信号のエネルギーは異なる時間周波数点にわたり疎に分布していると仮定し、その時間周波数点において占有的な音源の音源位置のみに依存して決まると仮定する。そして、全ての音源の音源位置パラメータφ(j)をまとめてφ=[φ(1),φ(2)]と表すと、観測信号に対する高解像度音源位置特徴量のモデルp(A_(n,k);φ)、つまり観測信号の高解像度音源位置特徴量の確率密度関数は、混合分布として式(8)に示すように展開することができる。
【0028】
【数6】
【0029】
式(8)において、p(Z_(n,k)=j)は、j番目の音源が時間周波数点(n,k)において占有的な音源になる事前確率密度関数を表している。更に、以降の説明では次の表記を用いることにする。
【0030】
【数7】
【0031】
γ_(φ(j),n,k)(A)は、時間周波数点(n,k)において占有的な音源の番号がjの場合に、高解像度音源位置特徴量A_(n,k)が得られる確率密度関数を表す。これは、j番目の音源の音源位置パラメータφ(j)のみに依存するものとする。具体的なγ_(φ(j),k)(A)やφ(j)の定義については後述する。
【0032】
式(8)のもと、γ_(φ(j),k)(A)が定義されている場合、音源位置パラメータφ(j)と占有的な音源の番号に関する事前確率密度関数p(Z_(n,k)=j)が与えられれば、音源位置特徴量のモデルp(A_(n,k);φ)は一意に定めることができる。逆に、音源位置特徴量A_(n,k)が観測された場合に、最尤推定などの方法に従い、音源位置パラメータと占有的な音源の番号に関する事前確率密度関数p(Z_(n,k)=j)やその事後確率密度関数を推定することができる。
【0033】
以上の定義に従うと、完全データの確率密度関数は式(10)に示すように導出される。
【0034】
【数8】
【0035】
式(10)において、qがスペクトルパラメータ、φが音源位置パラメータである。従来例では、次の対数尤度関数を最大化する値として、スペクトルパラメータqと音源位置パラメータφを推定する。
【0036】
【数9】
【0037】
式(12)で、確率変数Z_(n,k)は隠れ変数として扱われる。隠れ変数を含む対数尤度関数の最大化には、例えば、期待値最大化アルゴリズムなどを用いることができる。期待値最大化アルゴリズムでは、スペクトルパラメータの推定値^qに基づき、観測信号が得られた下での占有的な音源の番号の事後確率密度関数^M(j)_(n,k)=p(Z_(n,k)|A_(n,k),X_(n,k)^q;^φ)をも同時に推定する必要がある。従来例では、この関数の値を高解像度占有度と称し、この値も推定すべきパラメータに含めて考えている。
【0038】
以下、実際に行われる手続きの順に説明してゆく。従来の背景音抑圧装置10は、特徴抽出部100、高解像度占有度推定部500、目的音声推定部600、高解像度スペクトルモデル記憶部800を備える。
【0039】
高解像度スペクトルモデル記憶部800は、目的音声と背景音それぞれのスペクトル時系列全体の状態を表すスペクトルパラメータq(j)の事前確率密度関数p(q(j))と、そのスペクトルパラメータq(j)が与えられた場合の各音源信号の各時間周波数点における高解像度スペクトル特徴量のモデルβ_(q(j),n,k)(S)とを記憶する。(S)は音源パワー特徴量X_(n,k)を表す変数である。事前確率密度関数p(q(j))と高解像度スペクトル特徴量のモデルβ_(q(j),n,k)(S)は、目的音声と背景音それぞれについて、事前学習により、与えられているものとする。
【0040】
特徴抽出部100は、複数(Nm本)のマイクロホンで収音した時間領域信号を時間周波数領域信号に変換した観測信号x(m)_(n,k)を入力として、各時間周波数点(n,k)における高解像度音源位置特徴量A_(n,k)と高解像度スペクトル特徴量X_(n,k)を抽出する(S101,S102)。
【0041】
高解像度スペクトル特徴量X_(n,k)は、例えば、1本目のマイクロホンが収音した信号の対数パワースペクトルとして抽出される。これは式(13)に示すように計算される。
【0042】
【数10】
【0043】
高解像度音源位置特徴量A_(n,k)は、一般に各時間周波数点における異なるマイクロホン間での信号の位相差や強度比などに表れる。したがって、高解像度音源位置特徴量A_(n,k)は、信号の位相差や強度比を異なるマイクロホンペアごとにまとめて出来るベクトルであったり、そこから更に何らかの特徴抽出を行った結果の値であったりとして抽出される。例えば、2本のマイクロホンで収音した信号の位相差を高解像度音源位置特徴量A_(n,k)として抽出する場合、式(14)に示すように計算される。
【0044】
【数11】
【0045】
上記以外にも、例えば、式(14’)に示すように計算される正規化複素スペクトルベクトルなども、音源位置特徴量として用いることができる(詳しくは「Hiroshi Sawada, Shoko Araki, and Shoji Makino, “Underdetermined convolutive blind source separation via frequency bin-wise clustering and permutation alignment,” IEEE Trans. Audio, Speech, and Language Processing, vol. 19, no. 3, pp. 516-527, 2011.」(以下、参考文献1)参照)。
【0046】
【数12】
【0047】
以下、本明細書では、式(14’)による高解像度音源位置特徴量A_(n,k)を用いて発明の構成を説明する。式(14)を用いる発明の構成については、非特許文献1および非特許文献2を参照されたい。
【0048】
高解像度占有度推定部500は、特徴抽出部100から出力される高解像度音源位置特徴量A_(n,k)と高解像度スペクトル特徴量X_(n,k)と、高解像度スペクトルモデル記憶部800に記憶されたスペクトルパラメータの事前確率密度関数p(q(j))とスペクトル特徴量のモデルβ_(q(j),n,k)(S)とを入力として、各音源信号の高解像度占有度^M(j)_(n,k)を推定する。
【0049】
まず、高解像度占有度推定部500は、音源jごとに高解像度占有度^M(j)_(n,k)を、Σj^M(j)=1となるように、例えば乱数で初期化する。その後、以下の(1)〜(3)の各処理を収束するまで繰り返す。
【0050】
(1)スペクトルパラメータの更新(S501)
高解像度スペクトル特徴量X_(n,k)と高解像度占有度^M(j)_(n,k)とスペクトルパラメータの事前確率密度関数p(q(j))と高解像度スペクトル特徴量のモデルβ_(q(j),n,k)(S)とを用いて、式(15)に示すように、スペクトルパラメータの推定値^q(j)を更新する(M−step)。
【0051】
【数13】
【0052】
(2)音源位置パラメータの更新(S502)
高解像度占有度^M(j)_(n,k)と高解像度音源位置特徴量A_(n,k)とを用いて、式(17)に示すように、音源位置パラメータ^φ(j)を更新する(M−step)。
【0053】
【数14】
【0054】
(3)高解像度占有度の更新(S503)
スペクトルパラメータ^q(j)と高解像度音源位置特徴量A_(n,k)と高解像度スペクトル特徴量X_(n,k)と高解像度スペクトル特徴量のモデルβ_(q(j),n,k)(S)とを用いて、式(18)に示すように、高解像度占有度^M(j)_(n,k)を更新する(E−step)。
【0055】
【数15】
【0056】
目的音声推定部600は、高解像度スペクトル特徴量X_(n,k)と、高解像度占有度^M(j)_(n,k)とスペクトルパラメータ^q(j)nと、高解像度スペクトル特徴量のモデルβ_(q(j),n,k)(S)とを入力として、最小自乗誤差推定により、目的音声の推定値^S(j)_(n,k)を求める(S600)。推定の方法は次式によって行う。
【0057】
【数16】
【0058】
<従来例の問題点>
従来の背景音抑圧装置10は、高解像度占有度推定部500において、スペクトルパラメータ^q(j)と音源位置パラメータ^φ(j)、および高解像度占有度^M(j)_(n,k)の更新のために、式(15)(17)(18)を繰返し実行する。このとき、高解像度スペクトル特徴量X_(n,k)および高解像度音源位置特徴量A_(n,k)の次元が増すほど、すなわち、各フレームの周波数ビンの総数Nkが増えるほど、計算コストが大きくなるという問題があった。
【0059】
また、従来例では、音源位置特徴量の確率密度関数において、γ_(φ(j),k)(A)で表現される各音源の高解像度音源位置特徴量の確率密度関数は、単一のガウス分布などの単純なものしか扱うことができなかった。したがって、比較的残響の少ない点音源の高解像度音源位置特徴量の統計的性質しか表現できず、残響が長かったり、背景音に複数の点音源が含まれたり点音源以外の音源が含まれていると、目的音声や背景音の高解像度音源位置特徴量を適切に表現することができなかった。
【0060】
<本発明の概要>
実施例1では、従来例で計算コストを増大させていたスペクトルパラメータ^q(j)の繰返し推定については、周波数の解像度を落とした空間での繰り返し推定により求める。これにより、効率的にスペクトルパラメータ^q(j)を推定できるようになる。さらに、推定したスペクトルパラメータ^q(j)と高解像度スペクトルモデルと高解像度音源位置占有度を用いることで、高解像度占有度を推定できる。このとき、高解像度占有度の推定には、繰返し処理は必要ないので、計算コストは大きくならない。その結果、スペクトルパラメータ^q(j)と高解像度占有度を効率的に求めることができるようになる。なお、本構成においても、高解像度音源位置占有度の推定のために繰返し処理が必要であるが、この処理は、従来例の高解像度占有度推定のための繰返し処理と比較して、小さい計算コストで実現することができる。
【0061】
実施例2では、さらに、事前に学習した高解像度音源位置特徴量のモデルをも具備させることで、繰返し処理をしなくても高解像度音源位置占有度の推定ができるようになる。その結果、より効率的に背景音抑圧が行えるようになる。さらに、高解像度音源位置特徴量のモデルを事前学習する場合には、より複雑な高解像度音源位置特徴量の確率密度関数をも利用できるようになるため、長い残響が含まれたり、背景音が単一の点音源のみから構成されていなかったりする場合でも、目的音声と背景音の音源位置特徴量を、より適切に区別できるようになる。
【0062】
実施例3では、周波数解像度の低減は行わず、事前に学習した高解像度音源位置特徴量のモデルを具備させる。高解像度音源位置モデル記憶部に記憶されている音源位置のモデルを利用することができるので、目的音声および背景音の音源位置のモデルパラメータを推定する必要がなく、計算コストを低く抑えることができる。また、高解像度音源位置モデル記憶部に記憶されている音源位置のモデルとして、混合分布などのより複雑な分布形状をもつものを利用できるようになるので、残響のある環境や複数の音が背景音に含まれる環境でも、適切に背景音抑圧を行うことができる。
【実施例1】
【0063】
次に、図3、図4を参照して、本発明の実施例1に係る背景音抑圧装置20の動作を詳細に説明する。図3は本発明の実施例1に係る背景音抑圧装置20の構成を示すブロック図である。図4は本発明の実施例1に係る背景音抑圧装置20の動作を示すフローチャートである。
【0064】
以下、実際に行われる手続きの順に説明してゆく。本実施例の背景音抑圧装置20は、特徴抽出部100、音源位置占有度推定部200、周波数解像度低減部300、低解像度占有度推定部400、高解像度占有度再推定部510、目的音声推定部600、低解像度スペクトルモデル記憶部700、高解像度スペクトルモデル記憶部810を備える。
【0065】
低解像度スペクトルモデル記憶部700は、目的音声と背景音それぞれのスペクトル時系列全体の状態を表すスペクトルパラメータq(j)の事前確率密度関数p(q(j))と、そのスペクトルパラメータq(j)が与えられた場合の各音源信号の各時間周波数点における低解像度スペクトル特徴量のモデルβ ̄_(q(j),n,k ̄)(S)とを記憶する。(S)は低解像度スペクトル特徴量X ̄_(n,k ̄)を表す変数である。j番目の音源信号の低解像度スペクトル特徴量の時系列全体{S ̄(j)_(n,k ̄)}の同時確率密度関数を次式(1’)(2’)(3’)に示すようにモデル化する。
【0066】
【数17】
【0067】
さらに、スペクトルパラメータq(j)は、q(j)={q(j)_(0),q(j)_(1),…}のように各時刻の状態を表す状態系列に分解され、一次のマルコフ過程に従い状態遷移が各時刻で起こると仮定する。但し、スペクトルパラメータq(j)_(0)は隠れマルコフモデルの初期状態を表す。式(3’)で定義される各時間周波数点(n,k ̄)におけるS ̄(j)_(n,k ̄)の事後確率密度関数は、その時刻の状態q(j)_(n)のみに依存するガウス分布に従うと仮定する。これを数式で表すと式(20)(21)のようになる。
【0068】
【数18】
【0069】
ここで、π(j)_(i)=p(q(j)_(0)=i)は、隠れマルコフモデルの初期状態がiである事前確率、α(j)_(i,h)=p(q(j)_(n)=h|q(j)_(n−1)=i)は、隠れマルコフモデルが状態iから状態hへ移る状態遷移確率、β ̄_(i,n,k ̄)(S)=p(S ̄(j)_(n,k ̄)=S|q(j)_(n)=i)=N(S ̄(j)_(n,k ̄);μ ̄(j)_(i,k ̄),σ ̄(j)_(i,k ̄))は、隠れマルコフモデルの状態iにおける出力の確率密度関数であり、μ ̄(j)_(i,k ̄)及びσ ̄(j)_(i,k ̄)はその平均と分散である。全てのh,i,j,kに対するπ(j)_(i)、α(j)_(i,h)、μ ̄(j)_(i,k ̄)、σ ̄(j)_(i,k ̄)は、本実施例では、全て音声データベース等からの学習により、事前に求められているものとする。
【0070】
高解像度スペクトルモデル記憶部810は、スペクトルパラメータq(j)が与えられた場合の各音源信号の各時間周波数点における高解像度スペクトル特徴量のモデルβ_(q(j),n,k)(S)を記憶する。
【0071】
特徴抽出部100は、観測信号x(m)_(n,k)を入力として、式(13)に基づき、対数パワースペクトルを高解像度スペクトル特徴量X_(n,k)として抽出する(S101)。さらに、式(14’)に基づき、正規化複素スペクトルを高解像度音源位置特徴量A_(n,k)として抽出する(S102)。
【0072】
音源位置占有度推定部200は、高解像度音源位置特徴量A_(n,k)を入力として、音源位置パラメータφ(j)を推定する(S201)。この推定には、参考文献1もしくは「Tomohiro Nakatani, Shoko Araki, Takuya Fujimoto, Masakiyo Fujimoto, “Joint unsupervised learning of hidden Markov source models and source location models for multi-channel source separation,” Proc. Of IEEE ICASSP-2011, pp. 237-240, 2011.」(以下、参考文献2)等に記載の方法を用いることができる。このため、本実施例では、各音源信号に由来する観測信号の正規化複素スペクトルは、周波数ごとに異なる平均値μ(j)_(k)、分散σ(j)_(k)をもつ、以下の分布に従うと仮定する。
【0073】
【数19】
【0074】
但し、φ(j)_(k)=[μ(j)_(k),σ(j)_(k)]は、音源位置パラメータφ(j)のうち周波数kのみに関する部分を取り出したものであり、φ(j)は全ての周波数kについてφ(l)_(k)を集めたφ(j)=[φ(j)_(1),…,φ(j)_(Nk)]である。この仮定に基づき、本実施例では、観測信号x(j)_(n,k)の高解像度音源位置特徴量の確率密度関数は、式(8)(9)(19)でモデル化されるとする。
【0075】
続いて、音源位置占有度推定部200は、推定された音源位置パラメータφ(j)に基づき、高解像度音源位置占有度Q(j)_(n,k)を以下のように推定する(S202)。
【0076】
【数20】
【0077】
周波数解像度低減部300は、特徴抽出部100の出力する高解像度スペクトル特徴量X_(n,k)と、音源位置占有度推定部200の出力する高解像度音源位置占有度Q_(n,k)を入力として、近傍周波数間の平滑化処理を適用することで、低解像度スペクトル特徴量X ̄_(n,k ̄)と低解像度音源位置占有度Q ̄_(n,k ̄)に変換する。
【0078】
高解像度スペクトル特徴量X_(n,k)の周波数解像度低減には、例えば、音声認識の特徴量抽出でしばしば利用されるフィルタバンク処理などを利用する。いま、F_(k ̄)=[F_(k ̄,1),F_(k ̄,2),…,F_(k ̄,Nk)]を、フィルタバンク処理のk ̄番目の出力を得るためのフィルタ係数とする。高解像度スペクトル特徴量X_(n,k)から低解像度スペクトル特徴量X ̄_(n,k ̄)への変換は、フィルタ係数F_(k ̄)を用いて、以下のように求められる(S301)。
【0079】
【数21】
【0080】
ただし、k ̄は、低解像度スペクトル特徴量X ̄_(n,k ̄)の周波数の番号を表しており、k ̄≦kである。
【0081】
次に、周波数解像度低減部300は、高解像度音源位置占有度Q_(n,k)から低解像度音源位置占有度Q ̄_(n,k ̄)への変換を、同じフィルタ係数F_(k ̄)を用いて、以下のように実施する(S302)。
【0082】
【数22】
【0083】
図5にフィルタ係数F_(k ̄)の例を示す。
【0084】
低解像度占有度推定部400は、低解像度スペクトル特徴量X ̄_(n,k ̄)と低解像度音源位置占有度Q ̄_(n,k ̄)を入力として、期待値最大化アルゴリズムに従い、スペクトルパラメータの推定値^q(j)と低解像度占有度の推定値^M ̄(j)_(n,k ̄)を求める。このために、以下の(1)と(2)の処理を収束するまで繰り返す。
【0085】
(1)スペクトルパラメータの推定値の更新(S401)
音源jごとに、式(22)を満たすスペクトルパラメータの推定値^q(j)=[^q(j)_(0),…,^q(j)_(Ns)]を、Viterbiアルゴリズムを用いて更新する。
【0086】
【数23】
【0087】
(2)低解像度占有度の更新(S402)
低解像度占有度M ̄(j)_(n,k ̄)を、式(32)に示すように、更新する(E−step)。
【0088】
【数24】
【0089】
上記、(1)と(2)の繰返しの結果得られたスペクトルパラメータの推定値^q(j)が、低解像度占有度推定部400の出力となる。
【0090】
高解像度占有度再推定部510は、高解像度スペクトル特徴量X_(n,k)と、高解像度音源位置占有度Q_(n,k)と、スペクトルパラメータの推定値^q(j)と、スペクトル特徴量のモデルβ_(q(j),n,k)(S)とを入力として、式(32’)に従い、高解像度占有度の推定値^M(j)_(n,k)を求める(S510)。
【0091】
【数25】
【0092】
目的音声推定部600は、高解像度スペクトル特徴量X_(n,k)と、高解像度占有度の推定値^M(j)_(n,k)と、スペクトルパラメータの推定値^q(j)と、高解像度スペクトル特徴量のモデルβ_(q(j),n,k)(S)とを入力として、従来例と同じ式(36)に基づき、観測信号から背景音を抑圧した、目的音声の推定値^S(j)_(n,k)を求める(S600)。
【0093】
このように、本実施例の背景音抑圧装置20は、従来例で計算コストを増大させていたスペクトルパラメータ^q(j)の繰返し推定について、周波数の解像度を落とした空間での繰り返し推定により求める。これにより、効率的にスペクトルパラメータ^q(j)を推定できるようになる。さらに、推定したスペクトルパラメータ^q(j)と高解像度スペクトル特徴量のモデルβ_(q(j),n,k)(S)と高解像度音源位置占有度Q_(n,k)を用いることで、高解像度占有度M(j)_(n,k)を推定できる。このとき、高解像度占有度の推定には、繰返し処理は必要ないので、計算コストは大きくならない。その結果、スペクトルパラメータ^q(j)と高解像度占有度M(j)_(n,k)を効率的に求めることができるようになる。なお、本構成においても、高解像度音源位置占有度Q_(n,k)の推定のために繰返し処理が必要であるが、この処理は、従来例の高解像度占有度推定のための繰返し処理と比較して、小さい計算コストで実現することができる。
【実施例2】
【0094】
次に、図6、図7を参照して、本発明の実施例2に係る背景音抑圧装置30の動作を詳細に説明する。図6は本発明の実施例2に係る背景音抑圧装置30の構成を示すブロック図である。図7は本発明の実施例2に係る背景音抑圧装置30の動作を示すフローチャートである。以下では、実施例1との相違点を中心に説明を行い、実施例1と共通する事項については説明を省略する。
【0095】
本実施例の背景音抑圧装置30は、特徴抽出部100、音源位置占有度推定部210、周波数解像度低減部300、低解像度占有度推定部400、高解像度占有度再推定部510、目的音声推定部600、低解像度スペクトルモデル記憶部700、高解像度スペクトルモデル記憶部810、高解像度音源位置モデル記憶部900を備える。
【0096】
高解像度音源位置モデル記憶部900は、各音源信号(目的音声、もしくは背景音)に関して、高解像度音源位置特徴量の確率密度関数γ(j)_(k)(A)を記憶する。確率密度関数γ(j)_(k)(A)の形状は事前学習により固定されており、観測信号から推定する必要がない。また、式(19)のように、観測信号からパラメータ推定が容易である必要はなく、より複雑な形式にできる。
【0097】
音源位置占有度推定部210は、特徴抽出部100の出力する高解像度音源位置特徴量A_(n,k)と、高解像度音源位置モデル記憶部900に記憶された確率密度関数γ(j)_(k)(A)を入力として、以下の式に従い、高解像度音源位置占有度Q(j)_(n,k)を推定する(S210)。
【0098】
【数26】
【0099】
その他の構成部と処理フローは実施例1の背景音抑圧装置20と同じである。
【0100】
次に、確率密度関数γ(j)_(k)(A)の事前学習方法について説明する。いま、事前学習用のデータとして、音源j(目的音声、または背景音)のみが含まれた観測信号が得られており、その観測信号から高解像度音源位置特徴量A_(n,k)が抽出されているとする。n=1〜Nとする。このとき、確率密度関数γ(j)_(k)(A)は、各周波数kにおけるこの特徴量の確率密度関数を表現するものであれば、どのような関数でも用いることができる。一例として、式(19)で定義される分布F(A;μ(j)_(k),σ(j)_(k))を要素として持つ混合分布を用いる場合について説明する。このとき、確率密度関数γ(j)_(k)(A)は以下のようにモデル化される。
【0101】
【数27】
【0102】
ここで、rは、混合分布の要素の番号であり、u(j)_(r)は、その要素の混合比であり、F(A;μ(j)_(r,k),σ(j)_(r,k))は、その要素の分布を表す。式(19)と式(19’)の違いのひとつは、式(19)では各音源jに関する確率密度関数がひとつの要素のみでモデル化されていたのに対し、式(19’)は、複数の要素からなる混合分布となっているところである。各音源jに対し、事前学習で定めるべきパラメータは、すべてのr,kに対するu(j)_(r)とμ(j)_(r,k)とσ(j)_(r,k)である。事前学習用のデータから抽出した、高解像度音源位置特徴量A_(n,k)を用いて、これらのパラメータは、期待値最大化アルゴリズムを用いて以下の手順で求めることができる。
【0103】
(1)すべてのr,kに対して、μ(j)_(r,k)とσ(j)_(r,k)を初期化する。例えば、μ(j)_(r,k)は乱数で初期化し、σ(j)_(r,k)はσ(j)_(r,k)=1と初期化する。
【0104】
(2)Σru(j)_(r)=1となるように、u(j)_(r)(>0)を、例えば乱数で初期化する。
【0105】
(3)以下の(3−1)から(3−4)を収束するまで繰り返す。
(3−1)K(j)_(n,r,k)を、以下のように更新する。
【0106】
【数28】
【0107】
(3−2)σ(j)_(r,k)を、以下のように更新する。
【0108】
【数29】
【0109】
(3−3)以下のように求められる行列R_(r,k)の最大固有値に対する固有値を求め、μ(j)_(r,k)に代入して更新する。
【0110】
【数30】
【0111】
(3−4)u(j)_(r,k)を、以下のように更新する。
【0112】
【数31】
【0113】
上記の繰返しの結果、最終的に得られるu(j)_(r)とμ(j)_(r,k)とσ(j)_(r,k)が、事前学習により得られるパラメータであり、これらのパラメータに従い、確率密度関数γ(j)_(k)(A)は式(19’)で規定される。
【0114】
このように、本実施例の背景音抑圧装置30は、事前に学習した高解像度音源位置特徴量のモデルを具備させることで、繰返し処理をしなくても高解像度音源位置占有度Q(j)_(n,k)の推定ができるため、計算コストを低く抑えることができる。その結果、より効率的に背景音抑圧が行えるようになる。
【0115】
また、高解像度音源位置特徴量のモデルを事前学習する場合には、より複雑な高解像度音源位置特徴量の確率密度関数γ(j)_(k)(A)をも利用できる。そのため、長い残響が含まれたり、背景音が単一の点音源のみから構成されていなかったりする場合でも、目的音声と背景音の音源位置特徴量をより適切に区別できる。その結果、より適切に背景音抑圧を行うことができる。
【実施例3】
【0116】
次に、図8、図9を参照して、本発明の実施例3に係る背景音抑圧装置40の動作を詳細に説明する。図8は本発明の実施例3に係る背景音抑圧装置40の構成を示すブロック図である。図9は本発明の実施例3に係る背景音抑圧装置40の動作を示すフローチャートである。以下では、実施例2との相違点を中心に説明を行い、実施例2と共通する事項については説明を省略する。
【0117】
本実施例の背景音抑圧装置40は、特徴抽出部100、音源位置占有度推定部210、高解像度占有度推定部520、目的音声推定部600、高解像度スペクトルモデル記憶部800、高解像度音源位置モデル記憶部900を備える。
【0118】
高解像度占有度推定部520は、特徴抽出部100の出力する高解像度スペクトル特徴量X_(n,k)と、音源位置占有度推定部210の出力する高解像度音源位置占有度Q(j)_(n,k)を入力とし、期待値最大化アルゴリズムに従い、スペクトルパラメータの推定値^q(j)と高解像度占有度の推定値^M(j)_(n,k)を求める。このために、以下の(1)と(2)の処理を収束するまで繰り返す。
【0119】
(1)スペクトルパラメータの推定値の更新(S521)
音源jごとに、式(22’)を満たすスペクトルパラメータの推定値^q(j)=[^q(j)_(0),…,^q(j)_(Ns)]を、Viterbiアルゴリズムを用いて更新する。
【0120】
【数32】
【0121】
(2)高解像度占有度の更新(S522)
高解像度占有度M(j)_(n,k)を、式(32’)に示すように、更新する(E−step)。
【0122】
上記、(1)と(2)の繰返しの結果得られたスペクトルパラメータの推定値^q(j)と高解像度占有度の推定値^M(j)_(n,k)が、高解像度占有度推定部520の出力となる。
【0123】
なお、高解像度占有度推定部520は、実施例2の低解像度占有度推定部400と比較して、特徴量の周波数の解像度が異なるだけであり、処理の中身は同一である。
【0124】
その他の構成部と処理フローは実施例2の背景音抑圧装置30と同じである。
【0125】
本実施例の背景音抑圧装置40は、全体の処理の結果だけに注目すると、実施例2において、フィルタバンク処理に用いるフィルタ係数F_(k ̄)=[F_(k ̄,1),F_(k ̄,2),…,F_(k ̄,Nk)]の長さがNkで、各要素を、k ̄=kのときにF_(k ̄,k)=1とし、それ以外はF_(k ̄,k)=0とした場合に相当する。この場合、実施例2の周波数解像度低減部300の入出力は同一になる。すなわち、周波数解像度低減部300は何も処理をしていないのと等価となる。また、低解像度スペクトルモデル特徴量のモデルβ ̄_(q(j),n,k ̄)(S)と高解像度スペクトルモデル特徴量のモデルβ_(q(j),n,k)(S)は同一になるとともに、低解像度占有度の推定値^M ̄(j)_(n,k ̄)と高解像度占有度の推定値^M(j)_(n,k)も同一のものになる。
【0126】
そのため、本実施例では周波数解像度低減部300を省略し、特徴抽出部100の出力する高解像度スペクトル特徴量X_(n,k)と音源位置占有度推定部210の出力するQ(j)_(n,k)が高解像度占有度推定部520へ入力されるようにしている。また、低解像度占有度推定部400、低解像度スペクトルモデル記憶部700は省略し、高解像度占有度推定部520の出力する高解像度占有度の推定値^M(j)_(n,k)とスペクトルパラメータの推定値^q(j)と、高解像度スペクトルモデル記憶部800に記憶された高解像度スペクトル特徴量のモデルβ_(q(j),n,k)(S)とが、目的音声推定部に入力されるものとする。
【0127】
このように、本実施例の背景音抑圧装置40は、事前に学習した高解像度音源位置特徴量のモデルを具備させることで、繰返し処理をしなくても高解像度音源位置占有度Q(j)_(n,k)の推定ができるため、計算コストを低く抑えることができる。その結果、より効率的に背景音抑圧が行えるようになる。
【0128】
また、高解像度音源位置特徴量のモデルを事前学習する場合には、より複雑な高解像度音源位置特徴量の確率密度関数γ(j)_(k)(A)をも利用できる。そのため、長い残響が含まれたり、背景音が単一の点音源のみから構成されていなかったりする場合でも、目的音声と背景音の音源位置特徴量をより適切に区別できる。その結果、より適切に背景音抑圧を行うことができる。
【0129】
<確認実験>
本発明の背景音抑圧装置を評価する目的で確認実験を行った。
【0130】
実験条件を説明する。残響のある部屋で、二本のマイクロホンを用いて、マイクロホンの正面にいる話者の音声が様々な周囲の背景音と同時に収録された音を、観測信号として用いた。この観測信号には、比較的長い残響が含まれているともに、背景音には複数の点音源が含まれていたり、点音源ではない音源が含まれていたりするものであった。このような観測信号を適切に扱うために、本発明の実施例2に示した高解像度音源位置特徴量のモデルを、事前学習により用意した。そして、本確認実験では、実施例2の発明において、周波数解像度の低減を行った場合(本発明)と行わなかった場合(従来例)の比較を実施した。どちらの場合も、残響を含む信号の音源位置情報を適切に扱えるようにするために、短時間フーリエ変換の分析窓長は、100ミリ秒とした。標本化周波数を16kHzとしたため、高解像度スペクトル特徴量の次元は801となった。一方、低解像度スペクトル特徴量の次元は40とした。
【0131】
まず、計算コストの比較として、実時間ファクタを測定した。実時間ファクタは、背景音抑圧処理に要した時間(秒)と観測信号長(秒)の比である。実時間ファクタが1以下の場合、観測信号の長さよりも短い時間の間に処理が終わることを意味する。我々の実験では、従来例と本発明の実時間ファクタは、それぞれ、4.52と0.69であった。これにより、本発明は、大幅に計算コストを削減できることが確認できた。
【0132】
続いて、観測信号、および背景音を抑圧した信号に対して、自動音声認識を適用した結果を示す。観測信号をそのまま音声認識した場合の単語正解率は、69.4%であったのに対し、従来例と本発明で背景音抑圧した音を音声認識した場合の単語正解率は、それぞれ、82.7%と81.6%であった。従来例、本発明ともに大幅な音声認識率の改善が得られたことから、実施例2の高解像度音源位置特徴量モデルは、有効に機能していたことがわかる。また、従来例と比較して、本発明により若干の音声認識性能の低下があったが、その差はきわめて小さかった。
【0133】
以上の結果より、本発明は、背景音抑圧性能をほとんど劣化させることなく、従来例の計算コストを大幅に下げる効果を実現できることが確認された。
【0134】
<プログラム、記録媒体>
上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
【0135】
また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。
【0136】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
【0137】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0138】
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
【0139】
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
【産業上の利用可能性】
【0140】
本発明は、目的音声と背景音が混ざって複数のマイクロホンで収音された観測信号から、背景音を抑圧し、目的音声を推定・抽出するために利用することができる。
【符号の説明】
【0141】
10、20、30、40 背景音抑圧装置
100 特徴抽出部 200、210 音源位置占有度推定部
300 周波数解像度低減部 400 低解像度占有度推定部
500、520 高解像度占有度推定部 510 高解像度占有度再推定部
600 目的音声推定部
700 低解像度スペクトルモデル記憶部
800、810 高解像度スペクトルモデル記憶部
900 高解像度音源位置モデル記憶部
【特許請求の範囲】
【請求項1】
複数のマイクロホンで収音した時間領域信号を時間周波数領域信号に変換した観測信号x(m)_(n,k)から背景音を抑圧し目的音声の推定値^S(j)_(n,k)を抽出する背景音抑圧装置であって、
mはマイクロホンの番号を表し、nはフレームの番号を表し、kは周波数ビンの番号を表し、jは音源の番号を表すとして、
各音源信号のスペクトルパラメータの事前確率密度関数p(q(j))と各音源信号の高解像度スペクトル特徴量モデルβ_(i,n,k)(S)が記憶された高解像度スペクトルモデル記憶部と、
各音源信号の高解像度音源位置特徴量の確率密度関数γ(j)_(k)(A)が記憶された高解像度音源位置モデル記憶部と、
前記観測信号x(m)_(n,k)から、高解像度音源位置特徴量A_(n,k)と高解像度スペクトル特徴量X_(n,k)を抽出する特徴抽出部と、
前記高解像度音源位置特徴量A_(n,k)と前記確率密度関数γ(j)_(k)(A)から、各音源信号の高解像度音源位置占有度Q(j)_(n,k)を求める音源位置占有度推定部と、
前記高解像度スペクトル特徴量X_(n,k)と前記高解像度音源位置占有度Q(j)_(n,k)と前記事前確率密度関数p(q(j))と前記高解像度スペクトル特徴量モデルβ_(i,n,k)(S)から、対数尤度関数を最大化するように、各音源信号のスペクトルパラメータの推定値^q(j)を求め、前記スペクトルパラメータの推定値^q(j)と前記高解像度音源位置占有度Q(j)_(n,k)と前記高解像度スペクトル特徴量モデルβ_(i,n,k)(S)から、高解像度占有度の推定値^M(j)_(n,k)を求める高解像度占有度推定部と、
前記スペクトルパラメータの推定値^q(j)と前記高解像度占有度の推定値^M(j)_(n,k)と前記高解像度スペクトル特徴量X_(n,k)と前記高解像度スペクトル特徴量モデルβ_(i,n,k)(S)から、前記目的音声の推定値^S(j)_(n,k)を求める目的音声推定部を備える
ことを特徴とする背景音抑圧装置。
【請求項2】
複数のマイクロホンで収音した時間領域信号を時間周波数領域信号に変換した観測信号x(m)_(n,k)から背景音を抑圧し目的音声の推定値^S(j)_(n,k)を抽出する背景音抑圧方法であって、
mはマイクロホンの番号を表し、nはフレームの番号を表し、kは周波数ビンの番号を表し、jは音源の番号を表すとして、
高解像度スペクトルモデル記憶部に、各音源信号のスペクトルパラメータの事前確率密度関数p(q(j))と各音源信号の高解像度スペクトル特徴量モデルβ_(i,n,k)(S)が記憶されており、
高解像度音源位置モデル記憶部に、各音源信号の高解像度音源位置特徴量の確率密度関数γ(j)_(k)(A)が記憶されており、
特徴抽出部が、前記観測信号x(m)_(n,k)から、高解像度音源位置特徴量A_(n,k)と高解像度スペクトル特徴量X_(n,k)を抽出する特徴抽出ステップと、
音源位置占有度推定部が、前記高解像度音源位置特徴量A_(n,k)と前記確率密度関数γ(j)_(k)(A)から、各音源信号の高解像度音源位置占有度Q(j)_(n,k)を求める音源位置占有度推定ステップと、
高解像度占有度推定部が、前記高解像度スペクトル特徴量X_(n,k)と前記高解像度音源位置占有度Q(j)_(n,k)と前記事前確率密度関数p(q(j))と前記高解像度スペクトル特徴量モデルβ_(i,n,k)(S)から、対数尤度関数を最大化するように、各音源信号のスペクトルパラメータの推定値^q(j)を求め、前記スペクトルパラメータの推定値^q(j)と前記高解像度音源位置占有度Q(j)_(n,k)と前記高解像度スペクトル特徴量モデルβ_(i,n,k)(S)から、高解像度占有度の推定値^M(j)_(n,k)を求める高解像度占有度推定ステップと、
目的音声推定部が、前記スペクトルパラメータの推定値^q(j)と前記高解像度占有度の推定値^M(j)_(n,k)と前記高解像度スペクトル特徴量X_(n,k)と前記高解像度スペクトル特徴量モデルβ_(i,n,k)(S)から、前記目的音声の推定値^S(j)_(n,k)を求める目的音声推定ステップを備える
ことを特徴とする背景音抑圧方法。
【請求項3】
請求項2に記載の背景音抑圧方法をコンピュータに実行させるプログラム。
【請求項1】
複数のマイクロホンで収音した時間領域信号を時間周波数領域信号に変換した観測信号x(m)_(n,k)から背景音を抑圧し目的音声の推定値^S(j)_(n,k)を抽出する背景音抑圧装置であって、
mはマイクロホンの番号を表し、nはフレームの番号を表し、kは周波数ビンの番号を表し、jは音源の番号を表すとして、
各音源信号のスペクトルパラメータの事前確率密度関数p(q(j))と各音源信号の高解像度スペクトル特徴量モデルβ_(i,n,k)(S)が記憶された高解像度スペクトルモデル記憶部と、
各音源信号の高解像度音源位置特徴量の確率密度関数γ(j)_(k)(A)が記憶された高解像度音源位置モデル記憶部と、
前記観測信号x(m)_(n,k)から、高解像度音源位置特徴量A_(n,k)と高解像度スペクトル特徴量X_(n,k)を抽出する特徴抽出部と、
前記高解像度音源位置特徴量A_(n,k)と前記確率密度関数γ(j)_(k)(A)から、各音源信号の高解像度音源位置占有度Q(j)_(n,k)を求める音源位置占有度推定部と、
前記高解像度スペクトル特徴量X_(n,k)と前記高解像度音源位置占有度Q(j)_(n,k)と前記事前確率密度関数p(q(j))と前記高解像度スペクトル特徴量モデルβ_(i,n,k)(S)から、対数尤度関数を最大化するように、各音源信号のスペクトルパラメータの推定値^q(j)を求め、前記スペクトルパラメータの推定値^q(j)と前記高解像度音源位置占有度Q(j)_(n,k)と前記高解像度スペクトル特徴量モデルβ_(i,n,k)(S)から、高解像度占有度の推定値^M(j)_(n,k)を求める高解像度占有度推定部と、
前記スペクトルパラメータの推定値^q(j)と前記高解像度占有度の推定値^M(j)_(n,k)と前記高解像度スペクトル特徴量X_(n,k)と前記高解像度スペクトル特徴量モデルβ_(i,n,k)(S)から、前記目的音声の推定値^S(j)_(n,k)を求める目的音声推定部を備える
ことを特徴とする背景音抑圧装置。
【請求項2】
複数のマイクロホンで収音した時間領域信号を時間周波数領域信号に変換した観測信号x(m)_(n,k)から背景音を抑圧し目的音声の推定値^S(j)_(n,k)を抽出する背景音抑圧方法であって、
mはマイクロホンの番号を表し、nはフレームの番号を表し、kは周波数ビンの番号を表し、jは音源の番号を表すとして、
高解像度スペクトルモデル記憶部に、各音源信号のスペクトルパラメータの事前確率密度関数p(q(j))と各音源信号の高解像度スペクトル特徴量モデルβ_(i,n,k)(S)が記憶されており、
高解像度音源位置モデル記憶部に、各音源信号の高解像度音源位置特徴量の確率密度関数γ(j)_(k)(A)が記憶されており、
特徴抽出部が、前記観測信号x(m)_(n,k)から、高解像度音源位置特徴量A_(n,k)と高解像度スペクトル特徴量X_(n,k)を抽出する特徴抽出ステップと、
音源位置占有度推定部が、前記高解像度音源位置特徴量A_(n,k)と前記確率密度関数γ(j)_(k)(A)から、各音源信号の高解像度音源位置占有度Q(j)_(n,k)を求める音源位置占有度推定ステップと、
高解像度占有度推定部が、前記高解像度スペクトル特徴量X_(n,k)と前記高解像度音源位置占有度Q(j)_(n,k)と前記事前確率密度関数p(q(j))と前記高解像度スペクトル特徴量モデルβ_(i,n,k)(S)から、対数尤度関数を最大化するように、各音源信号のスペクトルパラメータの推定値^q(j)を求め、前記スペクトルパラメータの推定値^q(j)と前記高解像度音源位置占有度Q(j)_(n,k)と前記高解像度スペクトル特徴量モデルβ_(i,n,k)(S)から、高解像度占有度の推定値^M(j)_(n,k)を求める高解像度占有度推定ステップと、
目的音声推定部が、前記スペクトルパラメータの推定値^q(j)と前記高解像度占有度の推定値^M(j)_(n,k)と前記高解像度スペクトル特徴量X_(n,k)と前記高解像度スペクトル特徴量モデルβ_(i,n,k)(S)から、前記目的音声の推定値^S(j)_(n,k)を求める目的音声推定ステップを備える
ことを特徴とする背景音抑圧方法。
【請求項3】
請求項2に記載の背景音抑圧方法をコンピュータに実行させるプログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【公開番号】特開2013−44909(P2013−44909A)
【公開日】平成25年3月4日(2013.3.4)
【国際特許分類】
【出願番号】特願2011−182278(P2011−182278)
【出願日】平成23年8月24日(2011.8.24)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】
【公開日】平成25年3月4日(2013.3.4)
【国際特許分類】
【出願日】平成23年8月24日(2011.8.24)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】
[ Back to top ]