背景音抑圧装置、背景音抑圧方法、およびプログラム

【課題】計算コストを小さく抑え、より複雑な形状をした確率密度関数を利用することができる、より効率的で高精度な背景音抑圧装置を提供する。
【解決手段】本発明の背景音抑圧装置４０は、特徴量抽出部１００が観測信号から高解像度音源位置特徴量と高解像度スペクトル特徴量を抽出し、音源位置占有度推定部２１０が高解像度音源位置占有度を求め、高解像度占有度推定部５２０が高解像度占有度とスペクトルパラメータを推定し、目的音声推定部６００が目的音声を推定する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、目的音声と背景音が混ざって複数のマイクロホンで収音された観測信号から、背景音を抑圧し、目的音声を推定・抽出する背景音抑圧装置、背景音抑圧方法、およびプログラムに関する。
【背景技術】
【０００２】
従来の背景音抑圧装置には、高解像度スペクトルモデル記憶部と特徴抽出部と高解像度占有度推定部と目的音声推定部とを備えるものがある（例えば非特許文献１および非特許文献２参照）。
【０００３】
以下、非特許文献１および２に記載された従来の背景音抑圧装置について説明する。上述のように、従来の背景音抑圧装置は、高解像度スペクトルモデル記憶部と特徴抽出部と高解像度占有度推定部と目的音声推定部とを備える。高解像度スペクトルモデル記憶部は、目的音声と背景音それぞれについて、スペクトル特徴量の時系列全体の状態を表すスペクトルパラメータの事前確率密度関数と、そのスペクトルパラメータが与えられた場合の各音源信号（目的信号、または背景音）の各時間周波数点における事後確率密度関数であるスペクトル特徴量のモデルとを記憶する。特徴抽出部は、複数のマイクロホンで収音した時間領域の信号を時間周波数領域信号に変換した観測信号を入力として、各時間周波数点における高解像度音源位置特徴量と高解像度スペクトル特徴量を抽出する。高解像度占有度推定部は、高解像度音源位置特徴量と高解像度スペクトル特徴量と高解像度スペクトル特徴量のモデルとスペクトルパラメータの事前確率密度関数とを入力として、観測信号が得られた下での占有的な音源の番号の事後確率密度関数である高解像度占有度の推定値とスペクトルパラメータの推定値を得る。さらに、目的音声推定部は、高解像度占有度推定部が出力する高解像度占有度の推定値とスペクトルパラメータの推定値と、特徴抽出部が出力する高解像度スペクトル特徴量と、高解像度スペクトルモデル記憶部に記憶された高解像度スペクトル特徴量のモデルとを入力として、目的音声の推定値を抽出する。
【先行技術文献】
【非特許文献】
【０００４】
【非特許文献１】Tomohiro Nakatani, Shoko Araki, Takuya Yoshioka, Masakiyo Fujimoto, “Multichannel source separation based on source location cue with log-spectral shaping by hidden Markov source model,” Proc. of Interspeech-2010, pp. 2766-2769, Sep., 2010.
【非特許文献２】中谷智広、荒木章子、吉岡卓也、藤本雅清、“DOAクラスタリングと音声の対数スペクトルHMMに基づく音源分離”日本音響学会2010年秋季研究発表会講演論文集、pp.577-580, 9月, 2010年.
【発明の概要】
【発明が解決しようとする課題】
【０００５】
しかしながら、従来の背景音抑圧装置は、高解像度音源位置特徴量と高解像度スペクトル特徴量に基づきスペクトルパラメータと高解像度占有度を推定するために繰り返し処理を実行するため、各特徴量の次元が大きくなるにつれて計算コストが大きくなるという問題があった。特に、残響のある環境で音源位置特徴量から抽出される音源位置の情報を適切に扱うには分析窓のサイズを大きくすることが望ましいが、それにともない各特徴量の次元が大きくなるため、計算コストの増大が避けられないことが問題であった。
【０００６】
また、従来の背景音抑圧装置では、音源位置特徴量のモデルは比較的残響の少ない環境で点音源から観測されることを前提としていたため、音源位置特徴量の確率密度関数は単一のガウス分布などの単純なものしか扱うことができなかった。したがって、分析窓より長い残響が含まれる場合や、背景音が点音源でなかったり複数の音源で構成されていたりする場合には、適切に目的音声の推定を行うことができなかった。
【０００７】
本発明はこのような点に鑑みてなされたものであり、各特徴量の次元が大きい場合でも計算コストを小さく抑えることができ、長い残響が含まれていたり、背景音が点音源でなかったり複数の音源で構成されていたりする場合にも、適切に目的音声の推定を行うことができる背景音抑圧装置を提供することを目的とする。
【課題を解決するための手段】
【０００８】
本発明の背景音抑圧装置は、複数のマイクロホンで収音した時間領域信号を時間周波数領域信号に変換した観測信号ｘ^（ｍ）＿（ｎ，ｋ）から、背景音を抑圧し目的音声の推定値＾Ｓ^（ｊ）＿（ｎ，ｋ）を抽出する。まず、ｍはマイクロホンの番号を表し、ｎはフレームの番号を表し、ｋは周波数ビンの番号を表し、ｊは音源の番号を表すとする。高解像度スペクトルモデル記憶部には、各音源信号のスペクトルパラメータの事前確率密度関数ｐ（ｑ^（ｊ））と各音源信号の高解像度スペクトル特徴量モデルβ＿（ｉ，ｎ，ｋ）（Ｓ）が記憶される。高解像度音源位置モデル記憶部には、各音源信号の高解像度音源位置特徴量の確率密度関数γ^（ｊ）＿ｋ（Ａ）が記憶される。特徴抽出部は、観測信号ｘ^（ｍ）＿（ｎ，ｋ）から、高解像度音源位置特徴量Ａ＿（ｎ，ｋ）と高解像度スペクトル特徴量Ｘ＿（ｎ，ｋ）を抽出する。音源位置占有度推定部は、高解像度音源位置特徴量Ａ＿（ｎ，ｋ）と確率密度関数γ^（ｊ）＿ｋ（Ａ）から、各音源信号の高解像度音源位置占有度Ｑ^（ｊ）＿（ｎ，ｋ）を求める。高解像度占有度推定部は、高解像度スペクトル特徴量Ｘ＿（ｎ，ｋ）と高解像度音源位置占有度Ｑ^（ｊ）＿（ｎ，ｋ）と事前確率密度関数ｐ（ｑ^（ｊ））と高解像度スペクトル特徴量モデルβ＿（ｉ，ｎ，ｋ）（Ｓ）から、対数尤度関数を最大化するように、各音源信号のスペクトルパラメータの推定値＾ｑ^（ｊ）を求め、スペクトルパラメータの推定値＾ｑ^（ｊ）と高解像度音源位置占有度Ｑ^（ｊ）＿（ｎ，ｋ）と高解像度スペクトル特徴量モデルβ＿（ｉ，ｎ，ｋ）（Ｓ）から、高解像度占有度の推定値＾Ｍ^（ｊ）＿（ｎ，ｋ）を求める。目的音声推定部は、スペクトルパラメータの推定値＾ｑ^（ｊ）と高解像度占有度の推定値＾Ｍ^（ｊ）＿（ｎ，ｋ）と高解像度スペクトル特徴量Ｘ＿（ｎ，ｋ）と高解像度スペクトル特徴量モデルβ＿（ｉ，ｎ，ｋ）（Ｓ）から、目的音声の推定値＾Ｓ^（ｊ）＿（ｎ，ｋ）を求める。
【発明の効果】
【０００９】
本発明の背景音抑圧装置は、各特徴量の次元が大きい場合でも計算コストを小さく抑えることができ、長い残響が含まれていたり、背景音が点音源でなかったり複数の音源で構成されていたりする場合にも、適切に目的音声の推定を行うことができる。
【図面の簡単な説明】
【００１０】
【図１】従来の背景音抑圧装置の構成を示すブロック図。
【図２】従来の背景音抑圧装置の動作を示すフローチャート。
【図３】実施例１に係る背景音抑圧装置の構成を示すブロック図。
【図４】実施例１に係る背景音抑圧装置の動作を示すフローチャート。
【図５】周波数解像度低減部の用いるフィルタ係数の例。
【図６】実施例２に係る背景音抑圧装置の構成を示すブロック図。
【図７】実施例２に係る背景音抑圧装置の動作を示すフローチャート。
【図８】実施例３に係る背景音抑圧装置の構成を示すブロック図。
【図９】実施例３に係る背景音抑圧装置の動作を示すフローチャート。
【発明を実施するための形態】
【００１１】
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
【００１２】
最初に、説明に用いる記号について説明する。観測信号には目的音声と背景音が重畳しており、その音源信号をＮ_ｍ本のマイクロホンで収音する。ｍ番目のマイクロホンから収音した音響信号を短時間フーリエ変換等を用いて周波数領域の信号に変換した観測信号をｘ^（ｍ）＿（ｎ，ｋ）と表記する。ｎはｎ番目の時間つまりフレーム番号、ｋはｋ番目の周波数つまりビン番号であり、ｎ番目の時間及びｋ番目の周波数に対応する時間周波数点を参照する場合に、時間周波数点（ｎ，ｋ）と表記する。各フレームの周波数ビンの総数をＮ_ｋと表記する。ｊはｊ番目の音源信号の番号であり、ｊ＝１は目的音声、ｊ＝２は背景音を表すとする。なお、数式での表現とテキストでの表現には次のような対応関係がある。
【００１３】
【数１】

【００１４】
＜従来例の説明＞
まず、図１、図２を参照して、従来の背景音抑圧装置１０の動作の概略を説明する。図１は従来の背景音抑圧装置１０の構成を示すブロック図である。図２は従来の背景音抑圧装置１０の動作を示すフローチャートである。
【００１５】
従来の背景音抑圧装置１０では、ｊ番目の音源信号のスペクトル時系列全体｛Ｓ^（ｊ）＿（ｎ，ｋ）｝の同時確率密度関数を次式に示すようにモデル化する。
【００１６】
【数２】

【００１７】
ここで、ｑ^（ｊ）はｊ番目の音源信号のスペクトル時系列全体の状態を表すスペクトルパラメータを表す。以下では全ての音源信号のｑ^（ｊ）をまとめてｑ＝［ｑ^（１），ｑ^（２）］とも表記する。
【００１８】
また、β＿（ｑ^（ｊ），ｎ，ｋ）（Ｓ）はスペクトル特徴量のモデルであり、式（３）に表されるように、スペクトルパラメータｑ^（ｊ）が与えられた下で各時間周波数点（ｎ，ｋ）の音源信号のスペクトルの値がＳとなる確率密度関数である。
【００１９】
式（２）において、スペクトルパラメータが既知のもとでは、異なる時間周波数点におけるスペクトルの値Ｓ^（ｊ）＿（ｎ，ｋ）は相互に独立であるという仮定を導入している。
【００２０】
また、従来例では式（４）に示すように、各時間周波数点（ｎ，ｋ）において最も大きなエネルギーを持つ音源信号（以下、占有的な音源信号と称する）のスペクトルの値Ｓ^（ｊ）＿（ｎ，ｋ）は、観測信号のスペクトルの値と一致すると仮定する。
【００２１】
【数３】

【００２２】
また、占有的ではない音源ｊに関しては、Ｓ^（ｊ）＿（ｎ，ｋ）≦Ｘ＿（ｎ，ｋ）の関係を持つと仮定する。すると、各音源信号のスペクトルパラメータが既知の条件の下で、観測信号の高解像度スペクトル特徴量Ｘ＿（ｎ，ｋ）の事後確率密度関数は次のように表現できることが知られている（詳しくは「S. J. Rennie, J. R. Hershey, and P. A. Olsen, “Hierarchical variational loopy belief propagation for multi-talker speech recognition,” Proc. ASRU-2009, pp. 176-181 2009.」参照）。
【００２３】
【数４】

【００２４】
従来例では、更に上式は次のように分解可能であると仮定している。
【００２５】
【数５】

【００２６】
Ｚ＿（ｎ，ｋ）は時間周波数点（ｎ，ｋ）において占有的な音源の番号を表す確率変数であり、Ｚ＿（ｎ，ｋ）＝ｊは、ｊ番目の音源が占有的な音源である場合を示す。
【００２７】
また、従来の背景音抑圧装置１０では、高解像度音源位置特徴量Ａ＿（ｎ，ｋ）から音源位置パラメータφ^(ｊ)を推定するため、高解像度音源位置特徴量のモデルｐ（Ａ＿（ｎ，ｋ）；φ）を導入する。各音源ｊに対応する音源位置特徴量のモデルｐ（Ａ＿（ｎ，ｋ）；φ）は、各音源信号のエネルギーは異なる時間周波数点にわたり疎に分布していると仮定し、その時間周波数点において占有的な音源の音源位置のみに依存して決まると仮定する。そして、全ての音源の音源位置パラメータφ^(ｊ)をまとめてφ＝［φ^(１)，φ^(２)］と表すと、観測信号に対する高解像度音源位置特徴量のモデルｐ（Ａ＿（ｎ，ｋ）；φ）、つまり観測信号の高解像度音源位置特徴量の確率密度関数は、混合分布として式（８）に示すように展開することができる。
【００２８】
【数６】

【００２９】
式（８）において、ｐ（Ｚ＿（ｎ，ｋ）＝ｊ）は、ｊ番目の音源が時間周波数点（ｎ，ｋ）において占有的な音源になる事前確率密度関数を表している。更に、以降の説明では次の表記を用いることにする。
【００３０】
【数７】

【００３１】
γ＿（φ^（ｊ），ｎ，ｋ）（Ａ）は、時間周波数点（ｎ，ｋ）において占有的な音源の番号がｊの場合に、高解像度音源位置特徴量Ａ＿（ｎ，ｋ）が得られる確率密度関数を表す。これは、ｊ番目の音源の音源位置パラメータφ^（ｊ）のみに依存するものとする。具体的なγ＿（φ^（ｊ），ｋ）（Ａ）やφ^（ｊ）の定義については後述する。
【００３２】
式（８）のもと、γ＿（φ^（ｊ），ｋ）（Ａ）が定義されている場合、音源位置パラメータφ^(ｊ)と占有的な音源の番号に関する事前確率密度関数ｐ（Ｚ＿（ｎ，ｋ）＝ｊ）が与えられれば、音源位置特徴量のモデルｐ（Ａ＿（ｎ，ｋ）；φ）は一意に定めることができる。逆に、音源位置特徴量Ａ＿（ｎ，ｋ）が観測された場合に、最尤推定などの方法に従い、音源位置パラメータと占有的な音源の番号に関する事前確率密度関数ｐ（Ｚ＿（ｎ，ｋ）＝ｊ）やその事後確率密度関数を推定することができる。
【００３３】
以上の定義に従うと、完全データの確率密度関数は式（１０）に示すように導出される。
【００３４】
【数８】

【００３５】
式（１０）において、ｑがスペクトルパラメータ、φが音源位置パラメータである。従来例では、次の対数尤度関数を最大化する値として、スペクトルパラメータｑと音源位置パラメータφを推定する。
【００３６】
【数９】

【００３７】
式（１２）で、確率変数Ｚ＿（ｎ，ｋ）は隠れ変数として扱われる。隠れ変数を含む対数尤度関数の最大化には、例えば、期待値最大化アルゴリズムなどを用いることができる。期待値最大化アルゴリズムでは、スペクトルパラメータの推定値＾ｑに基づき、観測信号が得られた下での占有的な音源の番号の事後確率密度関数＾Ｍ^（ｊ）＿（ｎ，ｋ）＝ｐ（Ｚ＿（ｎ，ｋ）｜Ａ＿（ｎ，ｋ），Ｘ＿（ｎ，ｋ）＾ｑ；＾φ）をも同時に推定する必要がある。従来例では、この関数の値を高解像度占有度と称し、この値も推定すべきパラメータに含めて考えている。
【００３８】
以下、実際に行われる手続きの順に説明してゆく。従来の背景音抑圧装置１０は、特徴抽出部１００、高解像度占有度推定部５００、目的音声推定部６００、高解像度スペクトルモデル記憶部８００を備える。
【００３９】
高解像度スペクトルモデル記憶部８００は、目的音声と背景音それぞれのスペクトル時系列全体の状態を表すスペクトルパラメータｑ^（ｊ）の事前確率密度関数ｐ（ｑ^（ｊ））と、そのスペクトルパラメータｑ^（ｊ）が与えられた場合の各音源信号の各時間周波数点における高解像度スペクトル特徴量のモデルβ＿（ｑ^（ｊ），ｎ，ｋ）（Ｓ）とを記憶する。（Ｓ）は音源パワー特徴量Ｘ＿（ｎ，ｋ）を表す変数である。事前確率密度関数ｐ（ｑ^（ｊ））と高解像度スペクトル特徴量のモデルβ＿（ｑ^（ｊ），ｎ，ｋ）（Ｓ）は、目的音声と背景音それぞれについて、事前学習により、与えられているものとする。
【００４０】
特徴抽出部１００は、複数（Ｎ_ｍ本）のマイクロホンで収音した時間領域信号を時間周波数領域信号に変換した観測信号ｘ^（ｍ）＿（ｎ，ｋ）を入力として、各時間周波数点（ｎ，ｋ）における高解像度音源位置特徴量Ａ＿（ｎ，ｋ）と高解像度スペクトル特徴量Ｘ＿（ｎ，ｋ）を抽出する（Ｓ１０１，Ｓ１０２）。
【００４１】
高解像度スペクトル特徴量Ｘ＿（ｎ，ｋ）は、例えば、１本目のマイクロホンが収音した信号の対数パワースペクトルとして抽出される。これは式（１３）に示すように計算される。
【００４２】
【数１０】

【００４３】
高解像度音源位置特徴量Ａ＿（ｎ，ｋ）は、一般に各時間周波数点における異なるマイクロホン間での信号の位相差や強度比などに表れる。したがって、高解像度音源位置特徴量Ａ＿（ｎ，ｋ）は、信号の位相差や強度比を異なるマイクロホンペアごとにまとめて出来るベクトルであったり、そこから更に何らかの特徴抽出を行った結果の値であったりとして抽出される。例えば、２本のマイクロホンで収音した信号の位相差を高解像度音源位置特徴量Ａ＿（ｎ，ｋ）として抽出する場合、式（１４）に示すように計算される。
【００４４】
【数１１】

【００４５】
上記以外にも、例えば、式（１４’）に示すように計算される正規化複素スペクトルベクトルなども、音源位置特徴量として用いることができる（詳しくは「Hiroshi Sawada, Shoko Araki, and Shoji Makino, “Underdetermined convolutive blind source separation via frequency bin-wise clustering and permutation alignment,” IEEE Trans. Audio, Speech, and Language Processing, vol. 19, no. 3, pp. 516-527, 2011.」（以下、参考文献１）参照）。
【００４６】
【数１２】

【００４７】
以下、本明細書では、式（１４’）による高解像度音源位置特徴量Ａ＿（ｎ，ｋ）を用いて発明の構成を説明する。式（１４）を用いる発明の構成については、非特許文献１および非特許文献２を参照されたい。
【００４８】
高解像度占有度推定部５００は、特徴抽出部１００から出力される高解像度音源位置特徴量Ａ＿（ｎ，ｋ）と高解像度スペクトル特徴量Ｘ＿（ｎ，ｋ）と、高解像度スペクトルモデル記憶部８００に記憶されたスペクトルパラメータの事前確率密度関数ｐ（ｑ^（ｊ））とスペクトル特徴量のモデルβ＿（ｑ^（ｊ），ｎ，ｋ）（Ｓ）とを入力として、各音源信号の高解像度占有度＾Ｍ^（ｊ）＿（ｎ，ｋ）を推定する。
【００４９】
まず、高解像度占有度推定部５００は、音源ｊごとに高解像度占有度＾Ｍ^（ｊ）＿（ｎ，ｋ）を、Σ_ｊ＾Ｍ^（ｊ）＝１となるように、例えば乱数で初期化する。その後、以下の（１）〜（３）の各処理を収束するまで繰り返す。
【００５０】
（１）スペクトルパラメータの更新（Ｓ５０１）
高解像度スペクトル特徴量Ｘ＿（ｎ，ｋ）と高解像度占有度＾Ｍ^（ｊ）＿（ｎ，ｋ）とスペクトルパラメータの事前確率密度関数ｐ（ｑ^（ｊ））と高解像度スペクトル特徴量のモデルβ＿（ｑ^（ｊ），ｎ，ｋ）（Ｓ）とを用いて、式（１５）に示すように、スペクトルパラメータの推定値＾ｑ^（ｊ）を更新する（Ｍ−ｓｔｅｐ）。
【００５１】
【数１３】

【００５２】
（２）音源位置パラメータの更新（Ｓ５０２）
高解像度占有度＾Ｍ^（ｊ）＿（ｎ，ｋ）と高解像度音源位置特徴量Ａ＿（ｎ，ｋ）とを用いて、式（１７）に示すように、音源位置パラメータ＾φ^（ｊ）を更新する（Ｍ−ｓｔｅｐ）。
【００５３】
【数１４】

【００５４】
（３）高解像度占有度の更新（Ｓ５０３）
スペクトルパラメータ＾ｑ^（ｊ）と高解像度音源位置特徴量Ａ＿（ｎ，ｋ）と高解像度スペクトル特徴量Ｘ＿（ｎ，ｋ）と高解像度スペクトル特徴量のモデルβ＿（ｑ^（ｊ），ｎ，ｋ）（Ｓ）とを用いて、式（１８）に示すように、高解像度占有度＾Ｍ^（ｊ）＿（ｎ，ｋ）を更新する（Ｅ−ｓｔｅｐ）。
【００５５】
【数１５】

【００５６】
目的音声推定部６００は、高解像度スペクトル特徴量Ｘ＿（ｎ，ｋ）と、高解像度占有度＾Ｍ^（ｊ）＿（ｎ，ｋ）とスペクトルパラメータ＾ｑ^（ｊ）_ｎと、高解像度スペクトル特徴量のモデルβ＿（ｑ^（ｊ），ｎ，ｋ）（Ｓ）とを入力として、最小自乗誤差推定により、目的音声の推定値＾Ｓ^（ｊ）＿（ｎ，ｋ）を求める（Ｓ６００）。推定の方法は次式によって行う。
【００５７】
【数１６】

【００５８】
＜従来例の問題点＞
従来の背景音抑圧装置１０は、高解像度占有度推定部５００において、スペクトルパラメータ＾ｑ^（ｊ）と音源位置パラメータ＾φ^（ｊ）、および高解像度占有度＾Ｍ^（ｊ）＿（ｎ，ｋ）の更新のために、式（１５）（１７）（１８）を繰返し実行する。このとき、高解像度スペクトル特徴量Ｘ＿（ｎ，ｋ）および高解像度音源位置特徴量Ａ＿（ｎ，ｋ）の次元が増すほど、すなわち、各フレームの周波数ビンの総数Ｎ_ｋが増えるほど、計算コストが大きくなるという問題があった。
【００５９】
また、従来例では、音源位置特徴量の確率密度関数において、γ＿(φ^（ｊ），ｋ)（Ａ）で表現される各音源の高解像度音源位置特徴量の確率密度関数は、単一のガウス分布などの単純なものしか扱うことができなかった。したがって、比較的残響の少ない点音源の高解像度音源位置特徴量の統計的性質しか表現できず、残響が長かったり、背景音に複数の点音源が含まれたり点音源以外の音源が含まれていると、目的音声や背景音の高解像度音源位置特徴量を適切に表現することができなかった。
【００６０】
＜本発明の概要＞
実施例１では、従来例で計算コストを増大させていたスペクトルパラメータ＾ｑ^（ｊ）の繰返し推定については、周波数の解像度を落とした空間での繰り返し推定により求める。これにより、効率的にスペクトルパラメータ＾ｑ^（ｊ）を推定できるようになる。さらに、推定したスペクトルパラメータ＾ｑ^（ｊ）と高解像度スペクトルモデルと高解像度音源位置占有度を用いることで、高解像度占有度を推定できる。このとき、高解像度占有度の推定には、繰返し処理は必要ないので、計算コストは大きくならない。その結果、スペクトルパラメータ＾ｑ^（ｊ）と高解像度占有度を効率的に求めることができるようになる。なお、本構成においても、高解像度音源位置占有度の推定のために繰返し処理が必要であるが、この処理は、従来例の高解像度占有度推定のための繰返し処理と比較して、小さい計算コストで実現することができる。
【００６１】
実施例２では、さらに、事前に学習した高解像度音源位置特徴量のモデルをも具備させることで、繰返し処理をしなくても高解像度音源位置占有度の推定ができるようになる。その結果、より効率的に背景音抑圧が行えるようになる。さらに、高解像度音源位置特徴量のモデルを事前学習する場合には、より複雑な高解像度音源位置特徴量の確率密度関数をも利用できるようになるため、長い残響が含まれたり、背景音が単一の点音源のみから構成されていなかったりする場合でも、目的音声と背景音の音源位置特徴量を、より適切に区別できるようになる。
【００６２】
実施例３では、周波数解像度の低減は行わず、事前に学習した高解像度音源位置特徴量のモデルを具備させる。高解像度音源位置モデル記憶部に記憶されている音源位置のモデルを利用することができるので、目的音声および背景音の音源位置のモデルパラメータを推定する必要がなく、計算コストを低く抑えることができる。また、高解像度音源位置モデル記憶部に記憶されている音源位置のモデルとして、混合分布などのより複雑な分布形状をもつものを利用できるようになるので、残響のある環境や複数の音が背景音に含まれる環境でも、適切に背景音抑圧を行うことができる。
【実施例１】
【００６３】
次に、図３、図４を参照して、本発明の実施例１に係る背景音抑圧装置２０の動作を詳細に説明する。図３は本発明の実施例１に係る背景音抑圧装置２０の構成を示すブロック図である。図４は本発明の実施例１に係る背景音抑圧装置２０の動作を示すフローチャートである。
【００６４】
以下、実際に行われる手続きの順に説明してゆく。本実施例の背景音抑圧装置２０は、特徴抽出部１００、音源位置占有度推定部２００、周波数解像度低減部３００、低解像度占有度推定部４００、高解像度占有度再推定部５１０、目的音声推定部６００、低解像度スペクトルモデル記憶部７００、高解像度スペクトルモデル記憶部８１０を備える。
【００６５】
低解像度スペクトルモデル記憶部７００は、目的音声と背景音それぞれのスペクトル時系列全体の状態を表すスペクトルパラメータｑ^（ｊ）の事前確率密度関数ｐ（ｑ^（ｊ））と、そのスペクトルパラメータｑ^（ｊ）が与えられた場合の各音源信号の各時間周波数点における低解像度スペクトル特徴量のモデルβ￣＿（ｑ^（ｊ），ｎ，ｋ￣）（Ｓ）とを記憶する。（Ｓ）は低解像度スペクトル特徴量Ｘ￣＿（ｎ，ｋ￣）を表す変数である。ｊ番目の音源信号の低解像度スペクトル特徴量の時系列全体｛Ｓ￣^（ｊ）＿（ｎ，ｋ￣）｝の同時確率密度関数を次式（１’）（２’）（３’）に示すようにモデル化する。
【００６６】
【数１７】

【００６７】
さらに、スペクトルパラメータｑ^（ｊ）は、ｑ^（ｊ）＝｛ｑ^（ｊ）＿（０），ｑ^（ｊ）＿（１），…｝のように各時刻の状態を表す状態系列に分解され、一次のマルコフ過程に従い状態遷移が各時刻で起こると仮定する。但し、スペクトルパラメータｑ^（ｊ）＿（０）は隠れマルコフモデルの初期状態を表す。式（３’）で定義される各時間周波数点（ｎ，ｋ￣）におけるＳ￣^（ｊ）＿（ｎ，ｋ￣）の事後確率密度関数は、その時刻の状態ｑ^（ｊ）＿（ｎ）のみに依存するガウス分布に従うと仮定する。これを数式で表すと式（２０）（２１）のようになる。
【００６８】
【数１８】

【００６９】
ここで、π^（ｊ）＿（i）＝ｐ（ｑ^（ｊ）＿（０）＝ｉ）は、隠れマルコフモデルの初期状態がｉである事前確率、α^（ｊ）＿（ｉ，ｈ）＝ｐ（ｑ^（ｊ）＿（ｎ）＝ｈ｜ｑ^（ｊ）＿（ｎ−１）＝ｉ）は、隠れマルコフモデルが状態ｉから状態ｈへ移る状態遷移確率、β￣＿（ｉ，ｎ，ｋ￣）（Ｓ）＝ｐ（Ｓ￣^（ｊ）＿（ｎ，ｋ￣）＝Ｓ｜ｑ^（ｊ）＿（ｎ）＝ｉ）＝Ｎ（Ｓ￣^（ｊ）＿（ｎ，ｋ￣）；μ￣^（ｊ）＿（ｉ，ｋ￣），σ￣^（ｊ）＿（ｉ，ｋ￣））は、隠れマルコフモデルの状態ｉにおける出力の確率密度関数であり、μ￣^（ｊ）＿（ｉ，ｋ￣）及びσ￣^（ｊ）＿（ｉ，ｋ￣）はその平均と分散である。全てのｈ，ｉ，ｊ，ｋに対するπ^（ｊ）＿（i）、α^（ｊ）＿（ｉ，ｈ）、μ￣^（ｊ）＿（ｉ，ｋ￣）、σ￣^（ｊ）＿（ｉ，ｋ￣）は、本実施例では、全て音声データベース等からの学習により、事前に求められているものとする。
【００７０】
高解像度スペクトルモデル記憶部８１０は、スペクトルパラメータｑ^（ｊ）が与えられた場合の各音源信号の各時間周波数点における高解像度スペクトル特徴量のモデルβ＿（ｑ^（ｊ），ｎ，ｋ）（Ｓ）を記憶する。
【００７１】
特徴抽出部１００は、観測信号ｘ^（ｍ）＿（ｎ，ｋ）を入力として、式（１３）に基づき、対数パワースペクトルを高解像度スペクトル特徴量Ｘ＿（ｎ，ｋ）として抽出する（Ｓ１０１）。さらに、式（１４’）に基づき、正規化複素スペクトルを高解像度音源位置特徴量Ａ＿（ｎ，ｋ）として抽出する（Ｓ１０２）。
【００７２】
音源位置占有度推定部２００は、高解像度音源位置特徴量Ａ＿（ｎ，ｋ）を入力として、音源位置パラメータφ^（ｊ）を推定する（Ｓ２０１）。この推定には、参考文献１もしくは「Tomohiro Nakatani, Shoko Araki, Takuya Fujimoto, Masakiyo Fujimoto, “Joint unsupervised learning of hidden Markov source models and source location models for multi-channel source separation,” Proc. Of IEEE ICASSP-2011, pp. 237-240, 2011.」（以下、参考文献２）等に記載の方法を用いることができる。このため、本実施例では、各音源信号に由来する観測信号の正規化複素スペクトルは、周波数ごとに異なる平均値μ^(ｊ)＿（ｋ）、分散σ^(ｊ)＿（ｋ）をもつ、以下の分布に従うと仮定する。
【００７３】
【数１９】

【００７４】
但し、φ^(ｊ)＿（ｋ）=[μ^(ｊ)＿（ｋ）,σ^(ｊ)＿（ｋ）]は、音源位置パラメータφ^(ｊ)のうち周波数ｋのみに関する部分を取り出したものであり、φ^(ｊ)は全ての周波数ｋについてφ^(l)＿（ｋ）を集めたφ^(ｊ)＝［φ^（ｊ）＿（１），…，φ^（ｊ）＿（Ｎ_ｋ）］である。この仮定に基づき、本実施例では、観測信号ｘ^（ｊ）＿（ｎ，ｋ）の高解像度音源位置特徴量の確率密度関数は、式（８）（９）（１９）でモデル化されるとする。
【００７５】
続いて、音源位置占有度推定部２００は、推定された音源位置パラメータφ^(ｊ)に基づき、高解像度音源位置占有度Ｑ^（ｊ）＿（ｎ，ｋ）を以下のように推定する（Ｓ２０２）。
【００７６】
【数２０】

【００７７】
周波数解像度低減部３００は、特徴抽出部１００の出力する高解像度スペクトル特徴量Ｘ＿（ｎ，ｋ）と、音源位置占有度推定部２００の出力する高解像度音源位置占有度Ｑ＿（ｎ，ｋ）を入力として、近傍周波数間の平滑化処理を適用することで、低解像度スペクトル特徴量Ｘ￣＿（ｎ，ｋ￣）と低解像度音源位置占有度Ｑ￣＿（ｎ，ｋ￣）に変換する。
【００７８】
高解像度スペクトル特徴量Ｘ＿（ｎ，ｋ）の周波数解像度低減には、例えば、音声認識の特徴量抽出でしばしば利用されるフィルタバンク処理などを利用する。いま、Ｆ＿（ｋ￣）＝［Ｆ＿（ｋ￣，１），Ｆ＿（ｋ￣，２），…，Ｆ＿（ｋ￣，Ｎ_ｋ）］を、フィルタバンク処理のｋ￣番目の出力を得るためのフィルタ係数とする。高解像度スペクトル特徴量Ｘ＿（ｎ，ｋ）から低解像度スペクトル特徴量Ｘ￣＿（ｎ，ｋ￣）への変換は、フィルタ係数Ｆ＿（ｋ￣）を用いて、以下のように求められる（Ｓ３０１）。
【００７９】
【数２１】

【００８０】
ただし、ｋ￣は、低解像度スペクトル特徴量Ｘ￣＿（ｎ，ｋ￣）の周波数の番号を表しており、ｋ￣≦ｋである。
【００８１】
次に、周波数解像度低減部３００は、高解像度音源位置占有度Ｑ＿（ｎ，ｋ）から低解像度音源位置占有度Ｑ￣＿（ｎ，ｋ￣）への変換を、同じフィルタ係数Ｆ＿（ｋ￣）を用いて、以下のように実施する（Ｓ３０２）。
【００８２】
【数２２】

【００８３】
図５にフィルタ係数Ｆ＿（ｋ￣）の例を示す。
【００８４】
低解像度占有度推定部４００は、低解像度スペクトル特徴量Ｘ￣＿（ｎ，ｋ￣）と低解像度音源位置占有度Ｑ￣＿（ｎ，ｋ￣）を入力として、期待値最大化アルゴリズムに従い、スペクトルパラメータの推定値＾ｑ^（ｊ）と低解像度占有度の推定値＾Ｍ￣^（ｊ）＿（ｎ，ｋ￣）を求める。このために、以下の（１）と（２）の処理を収束するまで繰り返す。
【００８５】
（１）スペクトルパラメータの推定値の更新（Ｓ４０１）
音源ｊごとに、式（２２）を満たすスペクトルパラメータの推定値＾ｑ（ｊ）＝［＾ｑ^（ｊ）＿（０），…，＾ｑ^（ｊ）＿（Ｎ_ｓ）］を、Ｖｉｔｅｒｂｉアルゴリズムを用いて更新する。
【００８６】
【数２３】

【００８７】
（２）低解像度占有度の更新（Ｓ４０２）
低解像度占有度Ｍ￣^（ｊ）＿（ｎ，ｋ￣）を、式（３２）に示すように、更新する（Ｅ−ｓｔｅｐ）。
【００８８】
【数２４】

【００８９】
上記、（１）と（２）の繰返しの結果得られたスペクトルパラメータの推定値＾ｑ^（ｊ）が、低解像度占有度推定部４００の出力となる。
【００９０】
高解像度占有度再推定部５１０は、高解像度スペクトル特徴量Ｘ＿（ｎ，ｋ）と、高解像度音源位置占有度Ｑ＿（ｎ，ｋ）と、スペクトルパラメータの推定値＾ｑ^（ｊ）と、スペクトル特徴量のモデルβ＿（ｑ^（ｊ），ｎ，ｋ）（Ｓ）とを入力として、式（３２’）に従い、高解像度占有度の推定値＾Ｍ^（ｊ）＿（ｎ，ｋ）を求める（Ｓ５１０）。
【００９１】
【数２５】

【００９２】
目的音声推定部６００は、高解像度スペクトル特徴量Ｘ＿（ｎ，ｋ）と、高解像度占有度の推定値＾Ｍ^（ｊ）＿（ｎ，ｋ）と、スペクトルパラメータの推定値＾ｑ^（ｊ）と、高解像度スペクトル特徴量のモデルβ＿（ｑ^（ｊ），ｎ，ｋ）（Ｓ）とを入力として、従来例と同じ式（３６）に基づき、観測信号から背景音を抑圧した、目的音声の推定値＾Ｓ^（ｊ）＿（ｎ，ｋ）を求める（Ｓ６００）。
【００９３】
このように、本実施例の背景音抑圧装置２０は、従来例で計算コストを増大させていたスペクトルパラメータ＾ｑ^（ｊ）の繰返し推定について、周波数の解像度を落とした空間での繰り返し推定により求める。これにより、効率的にスペクトルパラメータ＾ｑ^（ｊ）を推定できるようになる。さらに、推定したスペクトルパラメータ＾ｑ^（ｊ）と高解像度スペクトル特徴量のモデルβ＿（ｑ^（ｊ），ｎ，ｋ）（Ｓ）と高解像度音源位置占有度Ｑ＿（ｎ，ｋ）を用いることで、高解像度占有度Ｍ^（ｊ）＿（ｎ，ｋ）を推定できる。このとき、高解像度占有度の推定には、繰返し処理は必要ないので、計算コストは大きくならない。その結果、スペクトルパラメータ＾ｑ^（ｊ）と高解像度占有度Ｍ^（ｊ）＿（ｎ，ｋ）を効率的に求めることができるようになる。なお、本構成においても、高解像度音源位置占有度Ｑ＿（ｎ，ｋ）の推定のために繰返し処理が必要であるが、この処理は、従来例の高解像度占有度推定のための繰返し処理と比較して、小さい計算コストで実現することができる。
【実施例２】
【００９４】
次に、図６、図７を参照して、本発明の実施例２に係る背景音抑圧装置３０の動作を詳細に説明する。図６は本発明の実施例２に係る背景音抑圧装置３０の構成を示すブロック図である。図７は本発明の実施例２に係る背景音抑圧装置３０の動作を示すフローチャートである。以下では、実施例１との相違点を中心に説明を行い、実施例１と共通する事項については説明を省略する。
【００９５】
本実施例の背景音抑圧装置３０は、特徴抽出部１００、音源位置占有度推定部２１０、周波数解像度低減部３００、低解像度占有度推定部４００、高解像度占有度再推定部５１０、目的音声推定部６００、低解像度スペクトルモデル記憶部７００、高解像度スペクトルモデル記憶部８１０、高解像度音源位置モデル記憶部９００を備える。
【００９６】
高解像度音源位置モデル記憶部９００は、各音源信号(目的音声、もしくは背景音)に関して、高解像度音源位置特徴量の確率密度関数γ^（ｊ）＿（ｋ）（Ａ）を記憶する。確率密度関数γ^（ｊ）＿（ｋ）（Ａ）の形状は事前学習により固定されており、観測信号から推定する必要がない。また、式（１９）のように、観測信号からパラメータ推定が容易である必要はなく、より複雑な形式にできる。
【００９７】
音源位置占有度推定部２１０は、特徴抽出部１００の出力する高解像度音源位置特徴量Ａ＿（ｎ，ｋ）と、高解像度音源位置モデル記憶部９００に記憶された確率密度関数γ^（ｊ）＿（ｋ）（Ａ）を入力として、以下の式に従い、高解像度音源位置占有度Ｑ^（ｊ）＿（ｎ，ｋ）を推定する（Ｓ２１０）。
【００９８】
【数２６】

【００９９】
その他の構成部と処理フローは実施例１の背景音抑圧装置２０と同じである。
【０１００】
次に、確率密度関数γ^（ｊ）＿（ｋ）（Ａ）の事前学習方法について説明する。いま、事前学習用のデータとして、音源ｊ(目的音声、または背景音)のみが含まれた観測信号が得られており、その観測信号から高解像度音源位置特徴量Ａ＿（ｎ，ｋ）が抽出されているとする。ｎ＝１〜Ｎとする。このとき、確率密度関数γ^（ｊ）＿（ｋ）（Ａ）は、各周波数ｋにおけるこの特徴量の確率密度関数を表現するものであれば、どのような関数でも用いることができる。一例として、式（１９）で定義される分布Ｆ（Ａ；μ^（ｊ）＿（ｋ），σ^（ｊ）＿（ｋ））を要素として持つ混合分布を用いる場合について説明する。このとき、確率密度関数γ^（ｊ）＿（ｋ）（Ａ）は以下のようにモデル化される。
【０１０１】
【数２７】

【０１０２】
ここで、ｒは、混合分布の要素の番号であり、ｕ^（ｊ）＿（ｒ）は、その要素の混合比であり、Ｆ（Ａ；μ^（ｊ）＿（ｒ，ｋ），σ^（ｊ）＿（ｒ，ｋ））は、その要素の分布を表す。式（１９）と式（１９’）の違いのひとつは、式（１９）では各音源ｊに関する確率密度関数がひとつの要素のみでモデル化されていたのに対し、式（１９’）は、複数の要素からなる混合分布となっているところである。各音源ｊに対し、事前学習で定めるべきパラメータは、すべてのｒ，ｋに対するｕ^（ｊ）＿（ｒ）とμ^（ｊ）＿（ｒ，ｋ）とσ^（ｊ）＿（ｒ，ｋ）である。事前学習用のデータから抽出した、高解像度音源位置特徴量Ａ＿（ｎ，ｋ）を用いて、これらのパラメータは、期待値最大化アルゴリズムを用いて以下の手順で求めることができる。
【０１０３】
（１）すべてのｒ，ｋに対して、μ^（ｊ）＿（ｒ，ｋ）とσ^（ｊ）＿（ｒ，ｋ）を初期化する。例えば、μ^（ｊ）＿（ｒ，ｋ）は乱数で初期化し、σ^（ｊ）＿（ｒ，ｋ）はσ^（ｊ）＿（ｒ，ｋ）＝１と初期化する。
【０１０４】
（２）Σ_ｒｕ^（ｊ）＿（ｒ）＝１となるように、ｕ^（ｊ）＿（ｒ）（＞０）を、例えば乱数で初期化する。
【０１０５】
（３）以下の（３−１）から（３−４）を収束するまで繰り返す。
（３−１）Ｋ^（ｊ）＿（ｎ，ｒ，ｋ）を、以下のように更新する。
【０１０６】
【数２８】

【０１０７】
（３−２）σ^（ｊ）＿（ｒ，ｋ）を、以下のように更新する。
【０１０８】
【数２９】

【０１０９】
（３−３）以下のように求められる行列Ｒ＿（ｒ，ｋ）の最大固有値に対する固有値を求め、μ^（ｊ）＿（ｒ，ｋ）に代入して更新する。
【０１１０】
【数３０】

【０１１１】
（３−４）ｕ^（ｊ）＿（ｒ，ｋ）を、以下のように更新する。
【０１１２】
【数３１】

【０１１３】
上記の繰返しの結果、最終的に得られるｕ^（ｊ）＿（ｒ）とμ^（ｊ）＿（ｒ，ｋ）とσ^（ｊ）＿（ｒ，ｋ）が、事前学習により得られるパラメータであり、これらのパラメータに従い、確率密度関数γ^（ｊ）＿（ｋ）（Ａ）は式（１９’）で規定される。
【０１１４】
このように、本実施例の背景音抑圧装置３０は、事前に学習した高解像度音源位置特徴量のモデルを具備させることで、繰返し処理をしなくても高解像度音源位置占有度Ｑ^（ｊ）＿（ｎ，ｋ）の推定ができるため、計算コストを低く抑えることができる。その結果、より効率的に背景音抑圧が行えるようになる。
【０１１５】
また、高解像度音源位置特徴量のモデルを事前学習する場合には、より複雑な高解像度音源位置特徴量の確率密度関数γ^（ｊ）＿（ｋ）（Ａ）をも利用できる。そのため、長い残響が含まれたり、背景音が単一の点音源のみから構成されていなかったりする場合でも、目的音声と背景音の音源位置特徴量をより適切に区別できる。その結果、より適切に背景音抑圧を行うことができる。
【実施例３】
【０１１６】
次に、図８、図９を参照して、本発明の実施例３に係る背景音抑圧装置４０の動作を詳細に説明する。図８は本発明の実施例３に係る背景音抑圧装置４０の構成を示すブロック図である。図９は本発明の実施例３に係る背景音抑圧装置４０の動作を示すフローチャートである。以下では、実施例２との相違点を中心に説明を行い、実施例２と共通する事項については説明を省略する。
【０１１７】
本実施例の背景音抑圧装置４０は、特徴抽出部１００、音源位置占有度推定部２１０、高解像度占有度推定部５２０、目的音声推定部６００、高解像度スペクトルモデル記憶部８００、高解像度音源位置モデル記憶部９００を備える。
【０１１８】
高解像度占有度推定部５２０は、特徴抽出部１００の出力する高解像度スペクトル特徴量Ｘ＿（ｎ，ｋ）と、音源位置占有度推定部２１０の出力する高解像度音源位置占有度Ｑ^（ｊ）＿（ｎ，ｋ）を入力とし、期待値最大化アルゴリズムに従い、スペクトルパラメータの推定値＾ｑ^（ｊ）と高解像度占有度の推定値＾Ｍ^（ｊ）＿（ｎ，ｋ）を求める。このために、以下の（１）と（２）の処理を収束するまで繰り返す。
【０１１９】
（１）スペクトルパラメータの推定値の更新（Ｓ５２１）
音源ｊごとに、式（２２’）を満たすスペクトルパラメータの推定値＾ｑ^（ｊ）＝［＾ｑ^（ｊ）＿（０），…，＾ｑ^（ｊ）＿（Ｎ_ｓ）］を、Ｖｉｔｅｒｂｉアルゴリズムを用いて更新する。
【０１２０】
【数３２】

【０１２１】
（２）高解像度占有度の更新（Ｓ５２２）
高解像度占有度Ｍ^（ｊ）＿（ｎ，ｋ）を、式（３２’）に示すように、更新する（Ｅ−ｓｔｅｐ）。
【０１２２】
上記、（１）と（２）の繰返しの結果得られたスペクトルパラメータの推定値＾ｑ^（ｊ）と高解像度占有度の推定値＾Ｍ^（ｊ）＿（ｎ，ｋ）が、高解像度占有度推定部５２０の出力となる。
【０１２３】
なお、高解像度占有度推定部５２０は、実施例２の低解像度占有度推定部４００と比較して、特徴量の周波数の解像度が異なるだけであり、処理の中身は同一である。
【０１２４】
その他の構成部と処理フローは実施例２の背景音抑圧装置３０と同じである。
【０１２５】
本実施例の背景音抑圧装置４０は、全体の処理の結果だけに注目すると、実施例２において、フィルタバンク処理に用いるフィルタ係数Ｆ＿（ｋ￣）＝［Ｆ＿（ｋ￣，１），Ｆ＿（ｋ￣，２），…，Ｆ＿（ｋ￣，Ｎ_ｋ）］の長さがＮ_ｋで、各要素を、ｋ￣＝ｋのときにＦ＿（ｋ￣，ｋ）＝１とし、それ以外はＦ＿（ｋ￣，ｋ）＝０とした場合に相当する。この場合、実施例２の周波数解像度低減部３００の入出力は同一になる。すなわち、周波数解像度低減部３００は何も処理をしていないのと等価となる。また、低解像度スペクトルモデル特徴量のモデルβ￣＿（ｑ^（ｊ），ｎ，ｋ￣）（Ｓ）と高解像度スペクトルモデル特徴量のモデルβ＿（ｑ^（ｊ），ｎ，ｋ）（Ｓ）は同一になるとともに、低解像度占有度の推定値＾Ｍ￣^（ｊ）＿（ｎ，ｋ￣）と高解像度占有度の推定値＾Ｍ^（ｊ）＿（ｎ，ｋ）も同一のものになる。
【０１２６】
そのため、本実施例では周波数解像度低減部３００を省略し、特徴抽出部１００の出力する高解像度スペクトル特徴量Ｘ＿（ｎ，ｋ）と音源位置占有度推定部２１０の出力するＱ^（ｊ）＿（ｎ，ｋ）が高解像度占有度推定部５２０へ入力されるようにしている。また、低解像度占有度推定部４００、低解像度スペクトルモデル記憶部７００は省略し、高解像度占有度推定部５２０の出力する高解像度占有度の推定値＾Ｍ（ｊ）＿（ｎ，ｋ）とスペクトルパラメータの推定値＾ｑ^（ｊ）と、高解像度スペクトルモデル記憶部８００に記憶された高解像度スペクトル特徴量のモデルβ＿（ｑ^（ｊ），ｎ，ｋ）（Ｓ）とが、目的音声推定部に入力されるものとする。
【０１２７】
このように、本実施例の背景音抑圧装置４０は、事前に学習した高解像度音源位置特徴量のモデルを具備させることで、繰返し処理をしなくても高解像度音源位置占有度Ｑ^（ｊ）＿（ｎ，ｋ）の推定ができるため、計算コストを低く抑えることができる。その結果、より効率的に背景音抑圧が行えるようになる。
【０１２８】
また、高解像度音源位置特徴量のモデルを事前学習する場合には、より複雑な高解像度音源位置特徴量の確率密度関数γ^（ｊ）＿（ｋ）（Ａ）をも利用できる。そのため、長い残響が含まれたり、背景音が単一の点音源のみから構成されていなかったりする場合でも、目的音声と背景音の音源位置特徴量をより適切に区別できる。その結果、より適切に背景音抑圧を行うことができる。
【０１２９】
＜確認実験＞
本発明の背景音抑圧装置を評価する目的で確認実験を行った。
【０１３０】
実験条件を説明する。残響のある部屋で、二本のマイクロホンを用いて、マイクロホンの正面にいる話者の音声が様々な周囲の背景音と同時に収録された音を、観測信号として用いた。この観測信号には、比較的長い残響が含まれているともに、背景音には複数の点音源が含まれていたり、点音源ではない音源が含まれていたりするものであった。このような観測信号を適切に扱うために、本発明の実施例２に示した高解像度音源位置特徴量のモデルを、事前学習により用意した。そして、本確認実験では、実施例２の発明において、周波数解像度の低減を行った場合（本発明）と行わなかった場合（従来例）の比較を実施した。どちらの場合も、残響を含む信号の音源位置情報を適切に扱えるようにするために、短時間フーリエ変換の分析窓長は、１００ミリ秒とした。標本化周波数を１６ｋＨｚとしたため、高解像度スペクトル特徴量の次元は８０１となった。一方、低解像度スペクトル特徴量の次元は４０とした。
【０１３１】
まず、計算コストの比較として、実時間ファクタを測定した。実時間ファクタは、背景音抑圧処理に要した時間（秒）と観測信号長（秒）の比である。実時間ファクタが１以下の場合、観測信号の長さよりも短い時間の間に処理が終わることを意味する。我々の実験では、従来例と本発明の実時間ファクタは、それぞれ、４．５２と０．６９であった。これにより、本発明は、大幅に計算コストを削減できることが確認できた。
【０１３２】
続いて、観測信号、および背景音を抑圧した信号に対して、自動音声認識を適用した結果を示す。観測信号をそのまま音声認識した場合の単語正解率は、６９．４％であったのに対し、従来例と本発明で背景音抑圧した音を音声認識した場合の単語正解率は、それぞれ、８２．７％と８１．６％であった。従来例、本発明ともに大幅な音声認識率の改善が得られたことから、実施例２の高解像度音源位置特徴量モデルは、有効に機能していたことがわかる。また、従来例と比較して、本発明により若干の音声認識性能の低下があったが、その差はきわめて小さかった。
【０１３３】
以上の結果より、本発明は、背景音抑圧性能をほとんど劣化させることなく、従来例の計算コストを大幅に下げる効果を実現できることが確認された。
【０１３４】
＜プログラム、記録媒体＞
上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
【０１３５】
また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。
【０１３６】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
【０１３７】
また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【０１３８】
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。
【０１３９】
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
【産業上の利用可能性】
【０１４０】
本発明は、目的音声と背景音が混ざって複数のマイクロホンで収音された観測信号から、背景音を抑圧し、目的音声を推定・抽出するために利用することができる。
【符号の説明】
【０１４１】
１０、２０、３０、４０背景音抑圧装置
１００特徴抽出部２００、２１０音源位置占有度推定部
３００周波数解像度低減部４００低解像度占有度推定部
５００、５２０高解像度占有度推定部５１０高解像度占有度再推定部
６００目的音声推定部
７００低解像度スペクトルモデル記憶部
８００、８１０高解像度スペクトルモデル記憶部
９００高解像度音源位置モデル記憶部

【特許請求の範囲】
【請求項１】
複数のマイクロホンで収音した時間領域信号を時間周波数領域信号に変換した観測信号ｘ^（ｍ）＿（ｎ，ｋ）から背景音を抑圧し目的音声の推定値＾Ｓ^（ｊ）＿（ｎ，ｋ）を抽出する背景音抑圧装置であって、
ｍはマイクロホンの番号を表し、ｎはフレームの番号を表し、ｋは周波数ビンの番号を表し、ｊは音源の番号を表すとして、
各音源信号のスペクトルパラメータの事前確率密度関数ｐ（ｑ^（ｊ））と各音源信号の高解像度スペクトル特徴量モデルβ＿（ｉ，ｎ，ｋ）（Ｓ）が記憶された高解像度スペクトルモデル記憶部と、
各音源信号の高解像度音源位置特徴量の確率密度関数γ^（ｊ）＿（ｋ）（Ａ）が記憶された高解像度音源位置モデル記憶部と、
前記観測信号ｘ^（ｍ）＿（ｎ，ｋ）から、高解像度音源位置特徴量Ａ＿（ｎ，ｋ）と高解像度スペクトル特徴量Ｘ＿（ｎ，ｋ）を抽出する特徴抽出部と、
前記高解像度音源位置特徴量Ａ＿（ｎ，ｋ）と前記確率密度関数γ^（ｊ）＿（ｋ）（Ａ）から、各音源信号の高解像度音源位置占有度Ｑ^（ｊ）＿（ｎ，ｋ）を求める音源位置占有度推定部と、
前記高解像度スペクトル特徴量Ｘ＿（ｎ，ｋ）と前記高解像度音源位置占有度Ｑ^（ｊ）＿（ｎ，ｋ）と前記事前確率密度関数ｐ（ｑ^（ｊ））と前記高解像度スペクトル特徴量モデルβ＿（ｉ，ｎ，ｋ）（Ｓ）から、対数尤度関数を最大化するように、各音源信号のスペクトルパラメータの推定値＾ｑ^（ｊ）を求め、前記スペクトルパラメータの推定値＾ｑ^（ｊ）と前記高解像度音源位置占有度Ｑ^（ｊ）＿（ｎ，ｋ）と前記高解像度スペクトル特徴量モデルβ＿（ｉ，ｎ，ｋ）（Ｓ）から、高解像度占有度の推定値＾Ｍ^（ｊ）＿（ｎ，ｋ）を求める高解像度占有度推定部と、
前記スペクトルパラメータの推定値＾ｑ^（ｊ）と前記高解像度占有度の推定値＾Ｍ^（ｊ）＿（ｎ，ｋ）と前記高解像度スペクトル特徴量Ｘ＿（ｎ，ｋ）と前記高解像度スペクトル特徴量モデルβ＿（ｉ，ｎ，ｋ）（Ｓ）から、前記目的音声の推定値＾Ｓ^（ｊ）＿（ｎ，ｋ）を求める目的音声推定部を備える
ことを特徴とする背景音抑圧装置。
【請求項２】
複数のマイクロホンで収音した時間領域信号を時間周波数領域信号に変換した観測信号ｘ^（ｍ）＿（ｎ，ｋ）から背景音を抑圧し目的音声の推定値＾Ｓ^（ｊ）＿（ｎ，ｋ）を抽出する背景音抑圧方法であって、
ｍはマイクロホンの番号を表し、ｎはフレームの番号を表し、ｋは周波数ビンの番号を表し、ｊは音源の番号を表すとして、
高解像度スペクトルモデル記憶部に、各音源信号のスペクトルパラメータの事前確率密度関数ｐ（ｑ^（ｊ））と各音源信号の高解像度スペクトル特徴量モデルβ＿（ｉ，ｎ，ｋ）（Ｓ）が記憶されており、
高解像度音源位置モデル記憶部に、各音源信号の高解像度音源位置特徴量の確率密度関数γ^（ｊ）＿（ｋ）（Ａ）が記憶されており、
特徴抽出部が、前記観測信号ｘ^（ｍ）＿（ｎ，ｋ）から、高解像度音源位置特徴量Ａ＿（ｎ，ｋ）と高解像度スペクトル特徴量Ｘ＿（ｎ，ｋ）を抽出する特徴抽出ステップと、
音源位置占有度推定部が、前記高解像度音源位置特徴量Ａ＿（ｎ，ｋ）と前記確率密度関数γ^（ｊ）＿（ｋ）（Ａ）から、各音源信号の高解像度音源位置占有度Ｑ^（ｊ）＿（ｎ，ｋ）を求める音源位置占有度推定ステップと、
高解像度占有度推定部が、前記高解像度スペクトル特徴量Ｘ＿（ｎ，ｋ）と前記高解像度音源位置占有度Ｑ^（ｊ）＿（ｎ，ｋ）と前記事前確率密度関数ｐ（ｑ^（ｊ））と前記高解像度スペクトル特徴量モデルβ＿（ｉ，ｎ，ｋ）（Ｓ）から、対数尤度関数を最大化するように、各音源信号のスペクトルパラメータの推定値＾ｑ^（ｊ）を求め、前記スペクトルパラメータの推定値＾ｑ^（ｊ）と前記高解像度音源位置占有度Ｑ^（ｊ）＿（ｎ，ｋ）と前記高解像度スペクトル特徴量モデルβ＿（ｉ，ｎ，ｋ）（Ｓ）から、高解像度占有度の推定値＾Ｍ^（ｊ）＿（ｎ，ｋ）を求める高解像度占有度推定ステップと、
目的音声推定部が、前記スペクトルパラメータの推定値＾ｑ^（ｊ）と前記高解像度占有度の推定値＾Ｍ^（ｊ）＿（ｎ，ｋ）と前記高解像度スペクトル特徴量Ｘ＿（ｎ，ｋ）と前記高解像度スペクトル特徴量モデルβ＿（ｉ，ｎ，ｋ）（Ｓ）から、前記目的音声の推定値＾Ｓ^（ｊ）＿（ｎ，ｋ）を求める目的音声推定ステップを備える
ことを特徴とする背景音抑圧方法。
【請求項３】
請求項２に記載の背景音抑圧方法をコンピュータに実行させるプログラム。

【図１】