説明

雑音/残響除去装置とその方法とプログラム

【課題】クリーン音声の事例モデルのみを用いて音声強調を行う雑音/残響除去装置を提供する。
【解決手段】強調処理結果信頼性計算部は、入力信号の特徴量と、1次音声強調信号とから、その1次音声強調信号の不確かさを示す値を出力する。マッチング部は、1次音声強調信号と、当該1次音声強調信号の不確かさを示す値と、学習データの事例モデルと、を入力として各時間フレームに対して入力信号に含まれるクリーン音声に一番近いクリーン音声系列を与える学習データセグメントを出力する。音声強調フィルタリング部は、入力信号と学習データセグメントを入力として、該学習データセグメントと対を成す振幅スペクトルデータを事例モデル記憶部から読み出してウィナーフィルタを生成し、入力信号のパワースペクトルにそのウィナーフィルタを乗じてフィルタリングして音声強調信号を出力する

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、雑音や残響を伴った音響信号から、雑音や残響を取り除いた音響信号を抽出する雑音/残響除去装置と、その方法とプログラムに関する。
【背景技術】
【0002】
雑音や残響のある環境で音響信号を収音すると、本来の信号に音響歪み(雑音や残響)が重畳された信号として観測される。その音響信号が音声の場合、重畳した音響歪みの影響により音声の明瞭度は大きく低下してしまう。その結果、本来の音声信号の性質を抽出することが困難となり、例えば、音声認識システムの認識率が低下する。この認識率の低下を防ぐためには、重畳した音響歪みを取り除く工夫(方法)が必要である。
【0003】
この雑音/残響除去方法は、音声認識の他にも、例えば、補聴器、TV会議システム、機械制御インターフェース、楽曲を検索したり採譜したりする音楽情報処理システムなどに利用することが出来る。
【0004】
図7に、従来の雑音/残響除去装置700の機能構成例を示してその動作を簡単に説明する。雑音/残響除去装置700は、マッチング部703と、音声強調フィルタリング部704と、事例モデル705、を具備する。マッチング部703は、入力信号特徴量と事例モデル705内に含まれる特徴量の事例とのマッチングを行い、入力信号に一番近い事例を探索する。
【0005】
事例モデル705は、事例に対応したクリーン音声データと、それと対を成す雑音/残響音声特徴量とから成るモデルである。この事例モデル705は、音声コーパスなどから得られる大量のクリーン音声と、あらゆる環境で得られる雑音/残響データ(雑音信号の波形や、室内インパルス応答)を用い、さまざまな環境での観測信号を模擬生成し、その模擬観測信号を特徴量領域へ変換したものを用いて、事前に事例モデル学習装置によって生成される。
【0006】
音声強調フィルタリング部704は入力信号に一番近い事例を探索する際に用いたクリーン音声の振幅スペクトル事例データを用いて音声強調のためのフィルタを作成し、入力信号をフィルタリングする。この方法によれば、従来は困難であった、非常に時間変化の多い雑音の除去が可能となることが報告されている。非常に時間変化の多い雑音とは、背景雑音に対して、例えば目覚まし時計のアラーム音などの雑音のことである。
【先行技術文献】
【非特許文献】
【0007】
【非特許文献1】J. Ming and R. Srinivasan, and D. Crooke, “A C0rpus-Based Approach to Speech Enhancement From Nonstationary Noise,” IEEE Trans. On Acoustics, Speech and Signal Processing, 19(4),pp. 822-836, 2011.
【発明の概要】
【発明が解決しようとする課題】
【0008】
しかし、従来の方法では、あらゆる環境の雑音/残響環境を模擬するための雑音/残響データが学習時に必要となり、そのデータ量が十分でなく、音声強調時の雑音/残響データに十分に近い条件が事例として用意されていない場合は、精度の良い音声強調を行うことが困難であった。また、仮にあらゆる環境の雑音/残響環境を模擬することが可能で、音声強調時に、十分に近い事例が事例モデルに含まれている場合でも、事例数の数は膨大となり、入力信号に一番近い事例を探索するための計算量が非常に大きくなってしまう課題があった。
【0009】
この発明は、このような課題に鑑みてなされたものであり、あらゆる雑音/残響データを学習時に用意しなくても、入力信号に含まれるクリーン音声に一番近いと思われるクリーン音声を、事例モデルを用いて発見し、精度の良い音声強調を行うことの出来る雑音/残響除去装置と、その方法とプログラムを提供することを目的とする。
【課題を解決するための手段】
【0010】
この発明の雑音/残響除去装置は、音声強調処理部と、強調処理結果信頼性計算部と、事例モデル記憶部と、マッチング部と、音声強調フィルタリング部と、を具備する。音声強調処理部は、雑音・残響の重畳した音声ディジタル信号を入力信号として、その入力信号に1次的な音声強調処理を施した特徴量領域の1次音声強調信号を出力する。強調処理結果信頼性計算部は、入力信号の特徴量と、1次音声強調信号とから、その1次音声強調信号の不確かさを示す値を出力する。事例モデル記憶部は、学習データの事例モデルと、その振幅スペクトルデータを記憶する。マッチング部は、1次音声強調信号とこの1次音声強調信号の不確かさを示す値と学習データの事例モデルとを入力として、各時間フレームに対して入力信号に含まれるクリーン音声に一番近いクリーン音声系列を与える学習データセグメントを出力する。音声強調フィルタリング部は、入力信号のパワースペクトルと学習データセグメントを入力として、該学習データセグメントと対を成す振幅スペクトルデータを事例モデル記憶部から読み出してウィナーフィルタを生成し、入力信号のパワースペクトルにそのウィナーフィルタを乗じてフィルタリングして音声強調信号を出力する。
【発明の効果】
【0011】
この発明の雑音/残響除去装置によれば、クリーン音声のみから生成された事例モデルを用いるので、事例探索のための計算量を少なくすることが出来る。と共に、入力信号に1次的な音声強調処理を施し、その音声強調処理の不確かさ(信頼度)を加味してマッチングを行うことで適切なクリーン音声の事例の探索を可能にする。具体的な効果については後述するが、この発明によれば、計算量を削減した上で、雑音/残響除去のSN比を従来技術よりも改善することが出来る。
【図面の簡単な説明】
【0012】
【図1】この発明の雑音/残響除去装置100の機能構成例を示す図。
【図2】雑音/残響除去装置100の動作フローを示す図。
【図3】事例モデル生成装置200の機能構成例を示す図。
【図4】事例モデル生成装置200の動作フローを示す図。
【図5】評価実験結果のスペクトログラムを示す図であり、(a)はクリーン音声、(b)は残響音声、(c)は従来法、(d)は不確かさを考慮しないでマッチング処理を行った出力信号、(e)はこの発明の雑音/残響除去装置100の出力信号である。
【図6】評価実験結果をセグメンタルSNRと対数スペクトル距離で示す図であり、(a)はセグメンタルSNR、(b)は対数スペクトル距離である。
【図7】従来の雑音/残響除去装置700の機能構成例を示す図。
【発明を実施するための形態】
【0013】
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。
【実施例1】
【0014】
図1に、この発明の雑音/残響除去装置100の機能構成例を示す。その動作フローを図2に示す。雑音/残響除去装置100は、音声強調処理部102と、強調処理結果信頼性計算部103と、事例モデル記憶部104と、マッチング部105と、音声強調フィルタリング部106と、制御部107と、を具備する。雑音/残響除去装置100の各部の機能は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
【0015】
雑音/残響除去装置100の出力信号の領域は、時間領域、パワースペクトル領域、振幅スペクトル領域、特徴量領域などの、各種信号領域での出力が可能であり、出力信号の用途によって選択される。この実施例の説明に当たっては、入力信号をパワースペクトル領域とし、出力信号を時間領域信号として説明する。
【0016】
入力信号は、パワースペクトル領域で与えられるので、この実施例では特徴量生成部101を備える。特徴量生成部101は、入力されるパワースペクトルからフレーム毎の特徴量(例えば、メル周波数ケプストラム係数)を生成する(ステップS101)。入力信号が特徴量領域で与えられれば、特徴量生成部101は不要である。よって、特徴量生成部101を破線で示している。
【0017】
特徴量領域の入力信号yを式(1)に示すようにモデル化する。
【0018】
【数1】

【0019】
は時間フレームtの入力信号、sはクリーン音声、bは音響歪み成分(雑音や、後部残響成分)である。雑音をこのように加法性の項としてモデル化することは広く行われており、後部残響を加法性の項としてモデル化することもしばしば行われている(参考文献1:K. Kinoshita, M. Delcroix, T. Nakatani, and M. Miyoshi, “Suppression of late reverberation effect on speech signal using long-term multiple-step linear prediction,” IEEE TASLP, 17(4), pp. 534-545, 2009.)。以降の説明において、パワースペクトル領域の信号は、それぞれ、Y,S,Bと表記する。
【0020】
音声強調処理部102は、雑音・残響の重畳した音声ディジタル信号を入力信号として、その入力信号に1次的な音声強調処理を施した特徴量領域の1次音声強調信号を出力する(ステップS102)。の位置は式中(式(2))の表記のように変数の真上に位置するのが正しい表記である。強調処理結果信頼性計算部103は、入力信号yと、音声強調処理部102が出力する1次音声強調信号とから、1次音声強調信号の不確かさを示す値Σbtを出力する(ステップS103)。
【0021】
事例モデル記憶部104は、学習データの事例モデルと、その振幅スペクトルデータを記憶する。マッチング部105は、音声強調処理部102が出力する1次音声強調信号と、強調処理結果信頼性計算部103が出力する1次音声強調信号の不確かさを示す値Σbtと、事例モデル記憶部104に記憶されている学習データの事例モデルMと、を入力として入力信号yに含まれるクリーン音声に一番近いクリーン音声系列を与える学習データセグメントを出力する(ステップS105)。
【0022】
音声強調フィルタリング部106は、入力信号のパワースペクトルYと、マッチング部105が出力する学習データセグメントを入力として、その学習データセグメントと対を成す振幅スペクトルデータを事例モデル記憶部104から読み出してウィナーフィルタを生成し、入力信号のパワースペクトルYに、そのウィナーフィルタを乗じてフィルタリングして音声強調信号を出力する(ステップS106)。制御部107は、上記した各部間の時系列的な動作等を制御するものである。
【0023】
以上述べたように動作することで、雑音/残響除去装置100は、クリーン音声のみから生成された事例モデルを用い、事例探索のための計算量が少なく、且つ、SN比の良好な雑音/残響除去を可能にする。
【0024】
以降において、雑音/残響除去装置100の各部の機能を更に詳しく説明する。
【0025】
〔音声強調処理部〕
この実施例の音声強調処理部102は、入力信号が特徴量領域であるので、入力信号yに直接、1次的な音声強調処理を施す。1次音声強調信号を得るための処理としては、あらゆる従来の音声強調方法が適用可能であり、適用する方法は入力信号に含まれる音響歪みの種類により適切に選ばれるべきものである。例えば、残響成分を過去の信号から線形予測してパワースペクトル領域で除去する方法(参考文献2:再表2007/100137)などを用いることが出来る。
【0026】
〔強調処理結果信頼性計算部〕
強調処理結果信頼性計算部103は、1次音声強調信号と、入力信号の特徴量yを用いて、強調音声(1次音声強調信号)の不確かさを示す値Σbtを計算して出力する。不確かさを示す値Σbtは、全共分散行列を用いることも可能であるが、この実施例ではΣbtを、対角成分をゼロとする共分散行列である対角共分散行列とし、そのk番目の対角要素σは式(2)に示すように計算する。
【0027】
【数2】

【0028】
kは、特徴量ベクトルの次数を表すインデックスである。
【0029】
つまり、強調処理結果信頼性計算部103は、1次音声強調信号の不確かさを示す値Σbtを、入力信号の特徴量yと1次音声強調信号との差を成分とする共分散行列とする。
【0030】
〔事例モデル生成装置〕
ここで、事例モデル記憶部104に記憶される事例モデルを生成する事例モデル生成装置200について説明する。図3に、事例モデル生成装置200の機能構成例を示す。その動作フローを図4に示す。事例モデル生成装置200は、フーリエ変換部201と、特徴量生成部202と、ガウス混合モデル学習部203と、最尤ガウス分布計算部204と、制御部205と、を具備する。事例モデル生成装置200の各部の機能は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
【0031】
フーリエ変換部201は、音声ディジタル信号のクリーン音声を入力信号として、入力信号には例えば30ms程度の短時間ハミング窓で窓かけされ、それぞれ窓かけされた入力信号は離散フーリエ変換を経て振幅スペクトルに変換される(ステップS201)。振幅スペクトルとは、周波数スペクトルの振幅データのことである。
【0032】
特徴量生成部202は、フーリエ変換部201が出力する振幅スペクトルの全てを、メルケプストラム特徴量sに変換する。一般的に広く使われているメルケプストラムは高々10〜20次程度であるが、事例データを正確に表すために、高い次数(例えば、30〜100次程度)のメルケプストラムを用いる。なお、メルケプストラム以外の特徴量を用いても良い。
【0033】
ガウス混合モデル学習部203は、特徴量生成部202で得られた各短時間フレームiでの特徴量sを学習データとして、通常の最尤推定法によりガウス混合モデルg(式(3))を得る。
【0034】
【数3】

【0035】
g(s|q)は、平均μ、分散Σを持つq番目のガウス分布を表し、w(q)はそれに対する混合重みを表す。Qは混合数を表す。
【0036】
最尤ガウス分布計算部204は、各時間フレームiに対して最大の尤度を与えるガウス混合分布gの中のガウス分布のインデックスqを求め、そのインデックスqの時間系列を事例モデルMとして求める(ステップS204)。事例モデルMは、ガウス分布のインデックスqの集合とガウス混合モデルgを用いて式(4)に示すように表される。
【0037】
【数4】

【0038】
ここで、qは、i番目のフレームの特徴量sに対して最大の尤度を与えるガウス分布のインデックスであり、ガウス混合分布qの中の分布g(s|q)を表している。モデルMを、学習データsの詳細な時間周波数特徴を捉えた事例モデルMと称する。この事例モデルMは、学習データsと対と成る学習用クリーン音声の振幅スペクトルデータAと共に、例えば事例モデル記憶部204(図1)に記憶される。
【0039】
〔マッチング部〕
マッチング部105は、入力信号の特徴量yと、その入力信号の特徴量yに最も近い学習データのセグメントを、事例モデルMを用いて探索し、入力信号yに含まれるクリーン音声sに一番近いクリーン音声系列を与えると思われる学習データセグメントMu:u+τmaxを出力する。マッチング部105は、1次音声強調信号の不確かさを示す値Σbtを加味して、クリーン音声に一番近いクリーン音声系列を探索するものであるが、Σbtを加味しない従来法との違いを明確にする目的で、先に、不確からしさを示す値Σbtを加味しないマッチング方法について説明する。
【0040】
入力信号は、T個の時間フレームから成るとし、その入力信号をy={y:t=1,2,…,T}とする。また、yt:t+τを入力信号の時間フレームtからt+τまでの系列とする。そして、Mu:u+τ={g,q:i=u,u+1,…,u+τ}を、学習データsの中のu番目からu+τ番目までの連続する時間フレームに対応するガウス分布系列とする。
【0041】
入力信号yと学習データsの中のあるセグメントとの距離の定義や、入力信号yと一番近い学習データの探索方法としては、ユークリッド距離など、他のいくつかの方法を考えることが出来る。ここでは、入力信号yの時間フレームtに対する一番近い学習データセグメントは、入力信号に良く一致する学習データセグメントの中でも長さの最も長いものとする。つまり、入力信号に最も近い学習データセグメントMu:u+τは、次式に示す事後確率を最大化することで求めることが出来る。
【0042】
【数5】

【0043】
ここで、p(Mu:u+τ|yt:t+τ)は事後確率を表し、yt:t+τとMu:u+τが比較的よく一致している場合、τが長ければ長いほど高い事後確率を与えるという特徴を持っている。より長いセグメントを探索するという方策を取ることで、ある時間に局所的に存在する雑音などの影響を受け難くなり、雑音などに対して比較的ロバストなマッチングが行われることが期待できる。式(6)では、簡単のため、p(Mu:u+τ)は全ての学習データセグメントに対して等確率を仮定することが出来る。これは、学習データ中で観測された系列パターンは、雑音/残響除去時に全て同じ確率で起こりえるということを仮定することに対応する。
【0044】
式(6)の分子の項p(yt:t+τ|Mu:u+τ)は、Mu:u+τに対応する学習データセグメントに対する音声強調信号yt:t+τの尤度である。その尤度は次式で計算される。
【0045】
【数6】

【0046】
簡単のため、隣り合うフレームは独立であることを仮定している。式(6)の分母は、事例モデルMに含まれる全てのパターンについてp(yt:t+τ|Mu:u+τ)の和を取った値となる。
【0047】
ここで、入力信号yが十分にクリーン音声に近ければ、つまり音響歪み成分bが十分にゼロに近ければ、学習時に用いたクリーン音声データとのミスマッチは小さくなり、クリーン音声sに近いパターンを学習データから探索することが出来る。しかし、一般的に入力信号yとクリーン音声sには雑音/残響に起因する差があり、その差がマッチング処理に直接影響する。したがって、そのままではクリーン音声sに近いパターンを学習パターンから発見することは容易ではない。この雑音/残響に起因する差による影響を低減させる工夫が必要である。
【0048】
そこで、この発明の雑音/残響除去装置100は、雑音/残響に起因する差による影響を低減させる目的で、不確からしさ(信頼度)を加味するようにした。つまり、この発明の雑音/残響除去装置100は、信頼度を加味しながら入力信号yと学習データをマッチングさせ、最も入力信号に近い学習データのセグメントMu:u+τmaxを探索する。
【0049】
そこで、1次音声強調信号とクリーン音声sとの間に差があることを陽に考慮するために、1次音声強調信号の信頼性/不確かさを考慮する。具体的には、入力信号yを確率的に定式化する。
【0050】
まず、雑音/残響成分bは、以下のガウス過程に従うものとする。
【0051】
【数7】

【0052】
ここで、^bは、1次音声強調信号と入力信号yの差の推定値であり、^b=yのように計算され、1次音声強調信号の不確からしさを示す値Σbtは、bの時変の共分散行列である。この定式化を用いることで、入力信号yの尤度は、結合確率をクリーン音声信号について周辺化することで、以下のように求めることが出来る。
【0053】
【数8】

【0054】
導出の中では、確率の乗法定理を用いた。式(9)より、時変の共分散行列Σbtは、1次音声強調信号の不確からしさの尺度と考えることが出来る。例えば、信頼度の低い不確からしい特徴量については、それに対応する共分散行列Σbtが大きくなり、結果それらの特徴量が結果に与える影響が低くなる。
【0055】
このようにガウス分布の分散の項を時変で補正する作業を、式(6)に挿入することで、1次的な音声強調処理の結果である1次音声強調信号の信頼度/不確からしさを考慮しながら、クリーン音声信号sに近い学習データセグメントMu:u+τmaxを探索することが可能となる。
【0056】
〔音声強調フィルタリング部〕
音声強調フィルタリング部106は、マッチング部105が出力する学習データセグメントMu:u+τmaxと、それに対応するクリーン音声の振幅スペクトルの事例を用いてフィルタリングを行う。
【0057】
はじめに、マッチング結果Mu:u+τmaxに対応するクリーン音声の振幅スペクトルを、事例モデル記憶部104から読み出し、入力信号ytに含まれるクリーン音声成分sの振幅スペクトルの復元を試みる。ε(ε=1,2,…,T)を、クリーン音声の振幅スペクトルを復元したい対象の時間フレームインデックスとすると、クリーン音声の振幅スペクトル^Sεは以下のように推定・復元される。
【0058】
【数9】

【0059】
ここでA(uε)は、学習データセグメントMu:u+τmaxと対となるクリーン音声の振幅スペクトルの事例であり、uεは、各フレームtで得られた尤もらしい学習データセグメントu={u,u+1,…,u+τmax}のεに対応するインデックスである。また、クリーン音声の振幅スペクトルデータの集合[A]は{A(i):i=1,2,…,I}である。
【0060】
次に、この推定した振幅スペクトル^Sεを用いてウィナーフィルタHεを構築する(式(11))。
【0061】
【数10】

【0062】
雑音/残響成分の推定値^Bεは、式(12)に示すように求める。
【0063】
【数11】

【0064】
ここでαは平滑化係数であり、max[k,k′]はkとk′の大きい方を選択して出力する関数である。ウィナーフィルタHεをHとして、そのHを入力信号のパワースペクトルYに乗算すれば、最終的な出力信号を得ることが出来る。
【0065】
入力信号のパワースペクトルYにウィナーフィルタHを乗じた出力信号は、逆フーリエ変換され時間領域の信号に変換されて出力される。
【0066】
〔評価実験〕
この発明の雑音/残響除去装置100の性能を評価する目的で評価実験を行った。実験条件は次の通りとした。
【0067】
ガウス混合モデルgの学習には、1088文、136話者からなるTIMIT core training-setを用いた。標本化周波数は8kHz、ガウス混合モデルの学習に用いる特徴量ベクトルとしては、40次のメルケプストラム係数と対数エネルギー項をつなげたベクトルを用いた。ガウス混合モデルの混合数Qは、学習データに含まれるさまざまな時間周波数パターンを精度よくモデル化するために、十分大きい値である4096を用いた。フーリエ変換に用いたフレーム長は20msであり、短時間窓のシフト幅は10msとした。
【0068】
実験では、大きさ5m×5m×5m、残響時間0.5秒の部屋を想定して、この部屋の中で、話者がマイクから2.5m離れた状況で測定されるであろう室内インパルス応答をコンピュータ上でシミュレートした。雑音/残響除去装置100への入力信号yは、上記室内インパルス応答とTIMIT core training-setに含まれる64文の音声と、を畳み込んで生成した。1次的な音声強調信号である1次音声強調信号を得るための音声強調処理には、上記した参考文献2の方法を用いた。
【0069】
図5に、実験結果をスペクトログラムで示す。横軸は時間、縦軸は周波数であり、白黒の濃淡で周波数の強さを表す。(a)は入力信号、(b)は残響音声、(c)は従来法による出力信号、(d)は不確かさを考慮しないでマッチング処理を行った出力信号、(e)はこの発明の雑音/残響除去装置100の出力信号である。
【0070】
従来法による出力信号(c)を見ると、ある程度の残響除去効果は確認できるものの、本来の音声エネルギーの存在する部分のエネルギーを過剰に抑圧してしまっており、処理の不正確さを確認することが出来る。それに対し、不確かさを考慮せずにマッチングを行った処理の出力信号(d)は、事例に基づく処理をつなげたことで、従来法(c)よりはやや歪みの少ない音声を出力している。
【0071】
この発明の雑音/残響除去装置100の出力信号(e)は、上記した2つの処理音よりも更に効果的な残響除去が行われていることが、矢印↓で示す約0.54秒、0.81秒、0.96秒付近の調波構造の回復具合から見て取ることが出来る。
【0072】
次に、より客観的に本願発明の雑音/残響除去方法の効果を評価するため、セクメンタルSNRと、対数スペクトル距離を算出した。セグメンタルSNRは、高ければ高いほど正確に音響歪みが除去されていることを意味する。逆に、対数スペクトル距離は、小さい値であればあるほど、クリーン音声に近い音声であることを意味する。評価音声全てから得られた結果の平均値を図6に示す。図6の横方向は処理方法であり、左から入力信号(□)、従来法、不確かさを考慮しないでマッチング処理、この発明(■)である。縦軸方向は(a)がセグメンタルSNR(dB)、(b)が対数スペクトル距離(dB)である。
【0073】
このように、この発明の雑音/残響除去方法によれば、クリーン音声のみから生成された事例モデルのみの利用で、セクメンタルSNRと対数スペクトル距離の両方で最も良い数値を得ることが出来る。つまり、本願発明の雑音/残響除去方法によれば、学習時の雑音/残響データが不要となるので計算量を削減した上で、雑音/残響除去のSN比を従来技術よりも改善することが可能になる。
【0074】
上記した雑音/残響除去装置100及び事例モデル生成装置200における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
【0075】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
【0076】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0077】
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

【特許請求の範囲】
【請求項1】
雑音・残響の重畳した音声ディジタル信号を入力信号として、該入力信号に1次的な音声強調処理を施した特徴量領域の1次音声強調信号を出力する音声強調処理部と、
上記入力信号の特徴量と、上記1次音声強調信号とから、該1次音声強調信号の不確かさを示す値を出力する強調処理結果信頼性計算部と、
学習データの事例モデルと、その振幅スペクトルデータを記憶する事例モデル記憶部と、
上記1次音声強調信号と該1次音声強調信号の不確かさを示す値と上記学習データの事例モデルとを入力として、各時間フレームに対して上記入力信号に含まれるクリーン音声に一番近いクリーン音声系列を与える学習データセグメントを出力するマッチング部と、
上記入力信号のパワースペクトルと上記学習データセグメントを入力として、該学習データセグメントと対を成す振幅スペクトルデータを上記事例モデル記憶部から読み出してウィナーフィルタを生成し、上記入力信号のパワースペクトルに上記ウィナーフィルタを乗じてフィルタリングして音声強調信号を出力する音声強調フィルタリング部と、
を具備する雑音/残響除去装置。
【請求項2】
請求項1に記載の雑音/残響除去装置において、
上記強調処理結果信頼性計算部は、
上記1次音声強調信号の不確かさを示す値を、上記入力信号の特徴量と上記1次音声強調信号との差を成分とする共分散行列とすることを特徴とする雑音/残響除去装置。
【請求項3】
請求項1又は2に記載した雑音/残響除去装置において、
上記マッチング部の出力する各時間フレームに対して上記入力信号に含まれるクリーン音声に一番近いクリーン音声系列を与える学習データセグメントは、上記入力信号の特徴量によく一致する学習データセグメントの中で最も長いものとすることを特徴とする雑音/残響除去装置。
【請求項4】
雑音・残響の重畳した音声ディジタル信号を入力信号として、該入力信号に1次的な音声強調処理を施した特徴量領域の1次音声強調信号を出力する音声強調処理過程と、
上記入力信号の特徴量と、上記1次音声強調信号とから、該1次音声強調信号の不確かさを示す値を出力する強調処理結果信頼性計算過程と、
学習データの事例モデルと、その振幅スペクトルデータを記憶する事例モデル記憶部と、
上記1次音声強調信号と当該1次音声強調信号の不確かさを示す値と事例モデル記憶部に記憶された学習データの事例モデルとを入力として、各時間フレームに対して上記入力信号に含まれるクリーン音声に一番近いクリーン音声系列を与える学習データセグメントを出力するマッチング過程と、
上記入力信号のパワースペクトルと上記学習データセグメントを入力として、該学習データセグメントと対を成して記憶される振幅スペクトルデータを上記事例モデル記憶部から読み出してウィナーフィルタを生成し、上記入力信号のパワースペクトルに上記ウィナーフィルタを乗じてフィルタリングして音声強調信号を出力する音声強調フィルタリング過程と、
を備える雑音/残響除去方法。
【請求項5】
請求項4に記載の雑音/残響除去方法において、
上記強調処理結果信頼性計算過程は、
上記1次音声強調信号の不確かさを示す値を、上記入力信号の特徴量と上記1次音声強調信号との差を成分とする共分散行列とすることを特徴とする雑音/残響除去方法。
【請求項6】
請求項4又は5に記載した雑音/残響除去方法において、
上記マッチング過程の出力する各時間フレームに対して上記入力信号に含まれるクリーン音声に一番近いクリーン音声系列を与える学習データセグメントは、上記入力信号の特徴量によく一致する学習データセグメントの中で最も長いものとすることを特徴とする雑音/残響除去方法。
【請求項7】
請求項1乃至3の何れかに記載した雑音/残響除去装置としてコンピュータを機能させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2013−37174(P2013−37174A)
【公開日】平成25年2月21日(2013.2.21)
【国際特許分類】
【出願番号】特願2011−172919(P2011−172919)
【出願日】平成23年8月8日(2011.8.8)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】