説明

音声/非音声を判定する装置、方法およびプログラム

【課題】非定常雑音に対しても音声/非音声の判定精度を向上する音声判定装置を提供する。
【解決手段】フレームごとに音響信号を周波数分析してスペクトルを算出するスペクトル算出部103と、雑音スペクトルを推定する雑音推定部104と、雑音信号のエネルギーに対する音響信号のエネルギーの相対的な大きさを表すエネルギー特徴量を算出するSNR算出部105と、正規化スペクトルエントロピーを算出するエントロピー算出部106と、複数フレームに対して算出されたエネルギー特徴量および正規化スペクトルエントロピーに基づいて特徴ベクトルを作成する特徴ベクトル作成部107と、所定の識別モデルに基づいて特徴ベクトルに対応するフレームの音声尤度を算出する尤度算出部109と、音声尤度が閾値より大きい場合にフレームが音声フレームであると判定する判定部110とを備えた。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、音響信号が音声であるか非音声であるかを判定する装置、方法およびプログラムに関する。
【背景技術】
【0002】
音響信号の音声/非音声判別処理では、入力した音響信号(入力信号)の各フレームから特徴量を抽出し、得られた特徴量を閾値処理することで当該フレームの音声/非音声を判別する。非特許文献1では、音声/非音声判別処理で用いる音響特徴量としてスペクトルエントロピーが提案されている。この特徴量は、入力信号から計算したスペクトルを確率分布とみなして計算されるエントロピーである。スペクトルエントロピーは、スペクトル分布が不均一な音声スペクトルに対しては小さな値をとり、スペクトル分布が均一な雑音スペクトルに対しては大きな値をとる。スペクトルエントロピーを用いた方法では、この性質を利用してフレーム毎の音声/非音声を判別している。
【0003】
また、非特許文献2では、スペクトルエントロピーの性能を改良するための正規化手法が提案されている。非特許文献2では、推定した雑音スペクトルを用いて入力スペクトルを正規化している。具体的には、非特許文献2の正規化処理では、雑音区間におけるスペクトルエントロピーが大きくなるように入力信号のスペクトルを背景雑音のスペクトルで除算している。これにより、雑音区間のスペクトルが白色化され、低域にエネルギーが集中する自動車走行雑音のような不均一な背景雑音に対してもスペクトルエントロピーを大きくすることができる。正規化スペクトルエントロピーは、自動車走行雑音等の定常雑音に対して高い性能を示すことが確認されている。
【0004】
【非特許文献1】J.L. Shen, J.Hung and L.S.Lee, "Robust entropy based end point detection for speech recognition in noise," in Proc. ICSLP-98, 1998.
【非特許文献2】P. Renevey and A. Drygajlo, "Entropy Based Voice Activity Detection in Very Noisy Conditions," in Proc EUROSPEECH 2001, pp.1887-1890, September 2001.
【発明の開示】
【発明が解決しようとする課題】
【0005】
しかしながら、上述した正規化スペクトルエントロピーでは、スペクトルが非定常に変化するバブルノイズ(Babble Noise)等に対しては十分な正規化を行うことができず、結果として雑音区間における正規化スペクトルエントロピーが音声信号と同様に低い値になるという問題があった。この問題により、正規化スペクトルエントロピーのみでは非定常雑音に対して十分な性能を発揮することはできなかった。
【0006】
本発明は、上記に鑑みてなされたものであって、非定常雑音に対しても音声/非音声の判定の精度を向上することができる装置、方法およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
上述した課題を解決し、目的を達成するために、本発明は、雑音信号を含む音響信号を取得する取得部と、取得された前記音響信号を予め定められた時間間隔を表すフレーム単位に分割する分割部と、フレームごとに前記音響信号を周波数分析して前記音響信号のスペクトルを算出するスペクトル算出部と、算出された前記スペクトルに基づいて前記雑音信号のスペクトルを表す雑音スペクトルを推定する推定部と、前記雑音信号のエネルギーに対する前記音響信号のエネルギーの相対的な大きさを表すエネルギー特徴量をフレームごとに算出するエネルギー算出部と、前記音響信号のスペクトルについての分布の特徴を表すスペクトルエントロピーを、推定された前記雑音スペクトルによって正規化した正規化スペクトルエントロピーを算出するエントロピー算出部と、フレームに予め定められた個数の前後のフレームを加えた複数のフレームのそれぞれに対して算出された前記エネルギー特徴量と、前記複数のフレームのそれぞれに対して算出された前記正規化スペクトルエントロピーとに基づいて、前記音響信号の特徴を表す特徴ベクトルをフレームごとに作成する作成部と、音声を含む音響信号のフレームである音声フレームに対応する前記特徴ベクトルを予め学習した識別モデルと、作成された前記特徴ベクトルとに基づいて、前記音響信号のフレームが前記音声フレームであることの確からしさを表す音声尤度を算出する尤度算出部と、前記音声尤度と予め定められた第1閾値とを比較し、前記音声尤度が前記第1閾値より大きい場合に、前記音響信号のフレームが前記音声フレームであると判定する判定部と、を備えたことを特徴とする。
【0008】
また、本発明は、上記装置を実行することができる方法およびプログラムである。
【発明の効果】
【0009】
本発明によれば、非定常雑音に対しても音声/非音声の判定の精度を向上することができるという効果を奏する。
【発明を実施するための最良の形態】
【0010】
以下に添付図面を参照して、この発明にかかる装置、方法およびプログラムの最良な実施の形態を詳細に説明する。なお、この実施の形態によりこの発明が限定されるものではない。
【0011】
(第1の実施の形態)
第1の実施の形態にかかる音声判定装置は、非特許文献1で提案されている正規化スペクトルエントロピーに対して、入力信号と背景雑音の雑音信号(以下、単に背景雑音という)との相対的な大きさを表すエネルギー特徴量を組み合わせた特徴量を、音声/非音声の判別に利用する。さらに、第1の実施の形態にかかる音声判定装置は、スペクトルの時間変化情報を利用するために、複数フレームから抽出した特徴量を利用する。
【0012】
なお、非特許文献1の正規化スペクトルエントロピーは、入力信号のスペクトル形状に依存した特徴量である。一方、第1の実施の形態で利用する特徴量であるエネルギー特徴量は、入力信号と背景雑音の相対的な大きさを表している。このため、両特徴量が有する情報は補完関係にあると考えられる。また、バブルノイズは、複数人の音声信号が重畳された雑音であることから、フレーム単位のスペクトル情報のみでは十分な判別性能を発揮することができないものと考えられる。そこで、第1の実施の形態では、複数フレームから抽出したスペクトルの動的変化情報を利用することで性能向上を図っている。
【0013】
なお、L.-S. Huang, C.-H. Yang, "A Novel Approach to Robust Speech Endpoint Detection in Car Environments," in Proc. ICASSP 2000, vol.3, pp.1751-1754, June 2000.(以下、文献Aという)では、スペクトルエントロピーと、エネルギーを乗算することにより得られた特徴量とを用いて音声の始終端を検出することが提案されている。しかし、この文献Aでは、正規化スペクトルエントロピーを用いていないため、スペクトル分布が不均一な雑音区間における性能を十分に発揮することはできないと考えられる。また、本発明のように複数フレームの情報を利用しておらず、スペクトルの動的変化情報を利用することによる性能向上を期待できない。さらに、文献Aで利用されるエネルギーは、背景雑音との相対的な大きさを考慮しておらず、信号を取り込む際のマイクゲインの調整により特徴量の出力が変動するという問題がある。
【0014】
一方、第1の実施の形態では、背景雑音と入力信号との相対的な大きさを表す値をエネルギー特徴量として用いており、特徴量の値がマイクゲインにより変化することがない。マイクゲインに対する非依存性は、マイクゲインを十分に調整することができない実環境で重要な特性の一つといえる。また、この特性は、第1の実施の形態のようにGMM(Gaussian Mixture Model)等の識別器を用いて音声尤度を計算する際に、学習データの振幅レベルの影響を受けずに音声/非音声モデルを作成することができる点でも重要である。
【0015】
図1は、第1の実施の形態にかかる音声判定装置100の構成を示すブロック図である。図1に示すように、音声判定装置100は、音響信号取得部101と、フレーム分割部102と、スペクトル算出部103と、雑音推定部104と、SNR算出部105と、エントロピー算出部106と、特徴ベクトル作成部107と、線形変換部108と、尤度算出部109と、判定部110とを備えている。
【0016】
音響信号取得部101は、雑音信号を含む音響信号を取得する。具体的には、音響信号取得部101は、所定のサンプリング周波数(例えば16kHz)でマイク等(図示せず)から入力したアナログ信号をデジタル信号に変換することによって、音響信号を取得する。
【0017】
フレーム分割部102は、音響信号取得部101から出力されるデジタル信号(音響信号)を予め定められた時間間隔のフレームに分割する。フレーム長は20〜30msec、分割するフレームのシフト幅は8〜12msec程度が好ましい。このとき、フレーム化処理を行う窓関数としてハミング窓を用いることができる。
【0018】
スペクトル算出部103は、フレームごとに音響信号を周波数分析してスペクトルを算出する。例えば、スペクトル算出部103は、分割された各フレームに含まれる音響信号から離散フーリエ変換によりパワースペクトルを算出する。なお、スペクトル算出部103が、パワースペクトルの代わりに振幅スペクトルを算出するように構成してもよい。
【0019】
雑音推定部104は、スペクトル算出部103で得られたパワースペクトルから背景雑音のパワースペクトル(雑音スペクトル)を推定する。雑音推定部104は、例えば音響信号の取り込み開始から100〜200msec程度の区間を雑音と仮定し、初期雑音を推定する。その後、雑音推定部104は、エネルギー特徴量であるSNR(後述)に応じて、初期雑音を逐次更新することによって以降のフレームでの雑音を推定する。
【0020】
音響信号取り込み開始から10フレームを初期雑音推定に使う場合、初期雑音は以下の(1)式で計算することができる。また、11番目以降のフレームでは(2)式により雑音スペクトルを逐次更新することができる。
【数1】

【0021】
ここで、SNR(t)はt番目のフレームにおけるSNR、THsnrは雑音更新を制御するためのSNRの閾値、μは更新速度を制御する忘却係数を表す。このように、雑音スペクトルを逐次更新することにより、非定常雑音環境下でもSNRおよび正規化スペクトルエントロピーの精度を向上させることができる。
【0022】
SNR算出部105は、雑音信号のエネルギーに対する入力信号のエネルギーの相対的な大きさを表すエネルギー特徴量としてSNRを算出する。SNRは、入力信号および背景雑音のパワースペクトルから以下の(3)式により算出することができる。
【数2】

【0023】
SNRは、入力信号と背景雑音の相対的な大きさを表しており、音声フレームにおけるエネルギーは雑音フレームにおけるエネルギーよりも大きくなること(SNR>0)を前提とした特徴量である。また、エネルギーの相対的な大きさを表しているため、パワースペクトルの形状に着目する正規化スペクトルエントロピーには含まれない情報を有している。さらに、SNRは、信号を取り込む際のマイクゲインに依存しない利点を持つため、マイクゲインを予め調整することが難しい環境でも頑健な特徴量である。
【0024】
なお、SNRは、以下の(4)式〜(7)式によって算出することもできる。
【数3】

【0025】
ここで、Enoiseは背景雑音のエネルギー、Ein(t)はt番目のフレームにおける入力信号のエネルギー、u(i)はi番目の時間信号のサンプル値、initialは背景雑音を計算するためのサンプル数、frameLengthはフレーム幅のサンプル数、shiftLengthはシフト幅のサンプル数を表す。
【0026】
(4)式でSNRを算出する方法では、音響信号の取り込み開始後のinitialサンプルを雑音区間であると仮定して背景雑音のエネルギーEnoiseを計算している。その後、Enoiseと、入力信号の各フレームから計算したエネルギーEin(t)と比較することでSNRを抽出している。なお、initialサンプル数は200ms程度に設定することが好ましい(16kHzサンプリングで3200サンプル)。
【0027】
エントロピー算出部106は、背景雑音と入力信号のパワースペクトルから、以下の(8)式〜(10)式によって正規化スペクトルエントロピーを計算する。
【数4】

【0028】
なお、以下の(11)式および(12)式で算出される、非特許文献1で提案されているスペクトルエントロピーを背景雑音のパワースペクトルで正規化した値が、上記正規化スペクトルエントロピーに相当する。
【数5】

【0029】
正規化スペクトルエントロピーは、入力信号から得られたパワースペクトルを確率分布とみなして算出されたエントロピーを表す。正規化スペクトルエントロピーは、パワースペクトル分布が不均一な音声信号に対しては小さな値をとり、パワースペクトル分布が均一な雑音信号に対しては大きな値をとる。また、背景雑音を利用した雑音スペクトルが白色化されることにより、不均一な分布を持つ背景雑音に対しても音声/非音声判別の性能を維持することができる。なお、正規化スペクトルエントロピーもSNRと同様にマイクゲインに非依存な特徴量である。
【0030】
特徴ベクトル作成部107は、複数フレームに対して算出されたSNRおよび正規化スペクトルエントロピーを用いて特徴ベクトルを作成する。特徴ベクトル作成部107は、まず、以下の(13)式によって、各フレームそれぞれに対して算出されたSNRおよび正規化スペクトルエントロピーを含む単一フレーム特徴量を作成する。そして、特徴ベクトル作成部107は、以下の(14)式のように、t番目のフレームにおける特徴ベクトルx(t)を、前後の所定数のフレームに対する単一フレーム特徴量を結合することによって作成する。
【数6】

【0031】
ここで、z(t)は、t番目のフレームにおけるSNRと正規化スペクトルエントロピーを含む単一フレーム特徴量を表す。また、Zは、結合する前後のフレーム数を表しており、3〜5程度に設定しておくことが望ましい。特徴ベクトルx(t)は、複数フレームの特徴量を結合したベクトルであり、スペクトルの時間変化情報を含んでいる。そのため、単一フレームから抽出した特徴量と比較して音声/非音声判別にとってより有効な情報を有している。
【0032】
特徴ベクトル作成部107段で作成されたk次元の特徴ベクトルx(t)は、複数フレームの情報を利用した特徴量であり、単一フレーム特徴量と比較して一般に高次元の特徴ベクトルになる。
【0033】
線形変換部108は、演算量の削減を目的として、特徴ベクトル作成部107で得られたk次元特徴ベクトルx(t)を、予め定められた変換行列Pによって線形変換する。例えば、線形変換部108は、以下の(15)式によって、j次元(j<k)の特徴ベクトルy(t)に変換する。
【数7】

【0034】
ここで、Pはj×kの変換行列を表している。変換行列Pの値は、分布の最良近似を目的とした主成分分析やKL展開などの手法を用いて予め学習することが可能である。なお、線形変換部108は、k=jである変換行列、すなわち、次元を変更しない変換行列を用いて特徴ベクトルを線形変換するように構成してもよい。次元削除を目的としない場合であっても、線形変換を施すことにより、特徴ベクトルの各要素の無相関化や、識別にとって有利な特徴空間の選択することができる。
【0035】
なお、線形変換部108を備えず、特徴ベクトル作成部107によって作成された特徴ベクトルを、後述する尤度算出で利用するように構成してもよい。
【0036】
尤度算出部109は、線形変換部108で得られたj次元の特徴ベクトルy(t)と、音声および非音声を識別するための識別モデルとを用いて、音声尤度LRを算出する。尤度算出部109は、音声および非音声の識別モデルとしてGMMを用い、以下の(16)式によって音声尤度LRを算出する。
【数8】

【0037】
ここで、g( | speech)は音声GMM、g( | nonspeech)は非音声GMMの対数尤度を表している。各GMMは、予めEMアルゴリズム(Expectation-Maximization algorithm)を用いた最大尤度基準により学習することが可能である。なお、特開2007−114413で提案されているように、射影行列PおよびGMMのパラメータを識別的に学習することもできる。
【0038】
判定部110は、尤度算出部109で得られた音声らしさを表す評価値LRを基に、以下の(17)式により、各フレームが音声を含む音声フレームであるか、音声を含まない非音声フレームであるかを判別する。
【数9】

【0039】
こで、θは音声らしさの閾値を表しており、例えば、θ=0のように音声/非音声にとって最適な値を予め選択しておく。
【0040】
次に、このように構成された第1の実施の形態にかかる音声判定装置100による音声判定処理について図2を用いて説明する。図2は、第1の実施の形態における音声判定処理の全体の流れを示すフローチャートである。
【0041】
まず、音響信号取得部101は、マイク等から入力したアナログ信号をデジタル信号に変換した音響信号を取得する(ステップS201)。次に、フレーム分割部102が、取得された音響信号を、所定長のフレーム単位に分割する(ステップS202)。
【0042】
次に、スペクトル算出部103が、フレームごとに、各フレームに含まれる音響信号から離散フーリエ変換によりパワースペクトルを算出する(ステップS203)。次に、雑音推定部104が、上記(1)式または(2)式によって、算出されたパワースペクトルから背景雑音のパワースペクトル(雑音スペクトル)を推定する(ステップS204)。
【0043】
次に、SNR算出部105が、上記(3)式によって、音響信号のパワースペクトルおよび雑音スペクトルからSNRを算出する(ステップS205)。また、エントロピー算出部106が、上記(8)式〜(10)式によって、雑音スペクトルとパワースペクトルとから正規化スペクトルエントロピーを算出する(ステップS206)。
【0044】
次に、特徴ベクトル作成部107が、複数フレームに対して算出されたSNRおよび正規化スペクトルエントロピーを含む特徴ベクトルを作成する(ステップS207)。具体的には、特徴ベクトル作成部107は、上記(13)式によって各フレームに対して算出される単一フレーム特徴量を、音声/非音声の判別対象となるt番目のフレームの前後Zフレーム分結合した、上記(14)式で示すような特徴ベクトルを作成する。次に、線形変換部108が、上記(15)式によって、特徴ベクトルを線形変換する(ステップS208)。
【0045】
次に、尤度算出部109が、GMMを識別モデルとし、上記(16)式により、線形変換した特徴ベクトルから音声尤度LRを算出する(ステップS209)。そして、判定部110が、算出された音声尤度LRが、所定の閾値θより大きいか否かを判断する(ステップS210)。
【0046】
音声尤度LRが閾値θより大きい場合(ステップS210:YES)、判定部110は、算出した特徴ベクトルに対応するフレームが音声フレームであると判定する(ステップS211)。音声尤度LRが閾値θより大きくない場合(ステップS210:NO)、判定部110は、算出した特徴ベクトルに対応するフレームが非音声フレームであると判定する(ステップS212)。
【0047】
次に、第1の実施の形態による音声/非音声判別性能について説明する。第1の実施の形態の方法により、5dBのバブルノイズに対してフレーム単位の音声/非音声判別を行った際のEER(Equal Error Rate)は16.24%であった。なお、正規化スペクトルエントロピーのみを用いる従来の手法では、同じ条件で音声/非音声判別を行った際のEERは8.22%であって。この結果から、第1の実施の形態の方法を用いることにより、正規化スペクトルエントロピーのみを音響特徴量として利用する方法と比較して、バブルノイズなどの非定常雑音に対する音声/非音声判別性能が向上することが確認できる。
【0048】
このように、第1の実施の形態にかかる音声判定装置では、入力信号のスペクトル形状に依存した特徴量である正規化スペクトルエントロピーと、この正規化スペクトルエントロピーと補完関係にあるエネルギー特徴量とを組み合わせて作成した特徴ベクトルを音声/非音声の判別に利用することができる。このため、非定常雑音に対しても音声/非音声の判定の精度を向上することができる
【0049】
また、エネルギー特徴量は、入力信号と背景雑音の相対的な大きさを表した値であり、マイクゲインに依存しない。このため、マイクゲインを十分に調整することができない実環境における音声/非音声判別性能の向上を図ることができる。また、学習データの振幅レベルの影響を受けずに、GMMなどによる音声/非音声モデルを作成することができる。
【0050】
また、第1の実施の形態では、単一フレームではなく、複数フレームから得られた情報を利用して特徴ベクトルを作成している。これにより、スペクトルの動的変化情報を利用した高性能な音声/非音声判別処理を実現することができる。
【0051】
(第2の実施の形態)
第2の実施の形態にかかる音声判定装置は、スペクトルの動的特徴量であるデルタ特徴量を算出し、デルタ特徴量を含む特徴ベクトルを作成して音声/非音声判別に利用する。
【0052】
図3は、第2の実施の形態にかかる音声判定装置300の構成を示すブロック図である。図3に示すように、音声判定装置300は、音響信号取得部101と、フレーム分割部102と、スペクトル算出部103と、雑音推定部104と、SNR算出部105と、エントロピー算出部106と、特徴ベクトル作成部307と、尤度算出部309と、判定部310とを備えている。
【0053】
第2の実施の形態では、線形変換部108を削除したことと、特徴ベクトル作成部307、尤度算出部309、および判定部310の機能とが第1の実施の形態と異なっている。その他の構成および機能は、第1の実施の形態にかかる音声判定装置100の構成を表すブロック図である図1と同様であるので、同一符号を付し、ここでの説明は省略する。
【0054】
特徴ベクトル作成部307は、t番目のフレームにおける前後WフレームのSNRおよび正規化スペクトルエントロピーから、スペクトルの動的特徴量であるデルタ特徴量を計算し、静的特徴量であるt番目のフレームのSNRおよび正規化スペクトルエントロピーと結合した4次元の特徴ベクトルx(t)を作成する。
【0055】
具体的には、特徴ベクトル作成部307は、以下の(18)式および(19)式によって、それぞれSNRのデルタ特徴量であるΔsnr(t)および正規化スペクトルエントロピーのデルタ特徴量であるΔentropy’(t)を算出する。
【数10】

【0056】
なお、Wはデルタ特徴量を算出する際のフレームの窓幅を表している。Wは3〜5フレーム程度が好ましい。
【0057】
次に、特徴ベクトル作成部307は、以下の(20)式により、t番目のフレームの静的特徴量であるSNR(t)およびentropy’(t)と、算出した動的特徴量であるΔsnr(t)およびΔentropy’(t)とを結合した特徴ベクトルx(t)を作成する。
【0058】
【数11】

【0059】
この特徴ベクトルx(t)は、静的特徴量および動的特徴量を結合させたベクトルであり、スペクトルの時間変化情報を利用した特徴量である。そのため、単一フレームから抽出した特徴量と比較した場合、音声/非音声判別にとってより有効な情報を含んでいる。
【0060】
尤度算出部309は、GMMの代わりにSVM(Support Vector Machine)を用いて音声尤度を算出する点が、第1の実施の形態と異なっている。なお、第1の実施の形態と同様に、GMMを用いて音声尤度を算出するように構成してもよい。
【0061】
SVMは、2クラスの判別を行う識別器であり、分離超平面と学習データのマージンを最大化するように識別境界を構成するものである。Dong Enqing, Liu Guizhong, Zhou Yatong, and Zhang Xiaodi, "Applying support vector machines to voice activity detection," in Proc. ICSP 2002.(以下、文献Bという)では、音声区間検出の識別器としてSVMを用いている。尤度算出部309は、文献Bと同様の方法により音声/非音声の判別のためにSVMを利用する。
【0062】
判定部310は、SVMからの出力を音声尤度として、上記(17)式によって音声/非音声を判別する。
【0063】
次に、このように構成された第2の実施の形態にかかる音声判定装置300による音声判定処理について図4を用いて説明する。図4は、第2の実施の形態における音声判定処理の全体の流れを示すフローチャートである。
【0064】
ステップS401からステップS406までの、音響信号取得処理、フレーム分割処理、スペクトル算出処理、雑音推定処理、SNR算出処理、およびエントロピー算出処理は、第1の実施の形態にかかる音声判定装置100におけるステップS201からステップS206までと同様の処理なので、その説明を省略する。
【0065】
SNRおよび正規化スペクトルエントロピーが算出された後、特徴ベクトル作成部307は、上記(18)式および(19)式によって、前後のWフレームのSNRおよび正規化スペクトルエントロピーからSNRのデルタ特徴量および正規化スペクトルエントロピーのデルタ特徴量を算出する(ステップS407)。さらに、特徴ベクトル作成部307は、上記(20)式によって、t番目のフレームのSNRおよび正規化スペクトルエントロピーと、算出した2つのデルタ特徴量を含む特徴ベクトルを作成する(ステップS408)。
【0066】
次に、尤度算出部309が、SVMを識別モデルとし、作成した特徴ベクトルから音声尤度を算出する(ステップS409)。そして、判定部310が、算出された音声尤度が、所定の閾値θより大きいか否かを判断する(ステップS410)。
【0067】
音声尤度が閾値θより大きい場合(ステップS410:YES)、判定部310は、算出した特徴ベクトルに対応するフレームが音声フレームであると判定する(ステップS411)。音声尤度が閾値θより大きくない場合(ステップS410:NO)、判定部310は、算出した特徴ベクトルに対応するフレームが非音声フレームであると判定する(ステップS412)。
【0068】
このように、第2の実施の形態にかかる音声判定装置では、判別対象となるフレームを中心とした所定窓幅における動的特徴量と当該判別対象フレームの静的特徴量を結合させて特徴ベクトルを作成し、音声/非音声判別に利用することができる。これにより、静的特徴量のみを用いる方法と比較して、より高性能な音声/非音声判別処理を実現することができる。
【0069】
次に、第1または第2の実施の形態にかかる音声判定装置のハードウェア構成について図5を用いて説明する。図5は、第1または第2の実施の形態にかかる音声判定装置のハードウェア構成を示す説明図である。
【0070】
第1または第2の実施の形態にかかる音声判定装置は、CPU(Central Processing Unit)51などの制御装置と、ROM(Read Only Memory)52やRAM(Random Access Memory)53などの記憶装置と、ネットワークに接続して通信を行う通信I/F54と、HDD(Hard Disk Drive)、CD(Compact Disc)ドライブ装置などの外部記憶装置と、ディスプレイ装置などの表示装置と、キーボードやマウスなどの入力装置と、各部を接続するバス61を備えており、通常のコンピュータを利用したハードウェア構成となっている。
【0071】
第1または第2の実施の形態にかかる音声判定装置で実行される音声判定プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録されて提供される。
【0072】
また、第1または第2の実施の形態にかかる音声判定装置で実行される音声判定プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第1または第2の実施の形態にかかる音声判定装置で実行される音声判定プログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。
【0073】
また、第1または第2の実施の形態の音声判定プログラムを、ROM等に予め組み込んで提供するように構成してもよい。
【0074】
第1または第2の実施の形態にかかる音声判定装置で実行される音声判定プログラムは、上述した各部(音響信号取得部、フレーム分割部、スペクトル算出部、雑音推定部、SNR算出部、エントロピー算出部、特徴ベクトル作成部、線形変換部、尤度算出部、判定部)を含むモジュール構成となっており、実際のハードウェアとしてはCPU51(プロセッサ)が上記記憶媒体から音声判定プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、上述した各部が主記憶装置上に生成されるようになっている。
【産業上の利用可能性】
【0075】
以上のように、本発明にかかる装置、方法およびプログラムは、非定常雑音下の音響信号が音声であるか非音声であるかを判定する装置、方法およびプログラムに適している。
【図面の簡単な説明】
【0076】
【図1】第1の実施の形態にかかる音声判定装置の構成を示すブロック図である。
【図2】第1の実施の形態における音声判定処理の全体の流れを示すフローチャートである。
【図3】第2の実施の形態にかかる音声判定装置の構成を示すブロック図である。
【図4】第2の実施の形態における音声判定処理の全体の流れを示すフローチャートである。
【図5】第1または第2の実施の形態にかかる音声判定装置のハードウェア構成を示す説明図である。
【符号の説明】
【0077】
51 CPU
52 ROM
53 RAM
54 通信I/F
61 バス
100 音声判定装置
101 音響信号取得部
102 フレーム分割部
103 スペクトル算出部
104 雑音推定部
105 SNR算出部
106 エントロピー算出部
107 特徴ベクトル作成部
108 線形変換部
109 尤度算出部
110 判定部
300 音声判定装置
307 特徴ベクトル作成部
309 尤度算出部
310 判定部

【特許請求の範囲】
【請求項1】
雑音信号を含む音響信号を取得する取得部と、
取得された前記音響信号を予め定められた時間間隔を表すフレーム単位に分割する分割部と、
フレームごとに前記音響信号を周波数分析して前記音響信号のスペクトルを算出するスペクトル算出部と、
算出された前記スペクトルに基づいて前記雑音信号のスペクトルを表す雑音スペクトルを推定する推定部と、
前記雑音信号のエネルギーに対する前記音響信号のエネルギーの相対的な大きさを表すエネルギー特徴量をフレームごとに算出するエネルギー算出部と、
前記音響信号のスペクトルについての分布の特徴を表すスペクトルエントロピーを、推定された前記雑音スペクトルによって正規化した正規化スペクトルエントロピーを算出するエントロピー算出部と、
フレームに予め定められた個数の前後のフレームを加えた複数のフレームのそれぞれに対して算出された前記エネルギー特徴量と、前記複数のフレームのそれぞれに対して算出された前記正規化スペクトルエントロピーとに基づいて、前記音響信号の特徴を表す特徴ベクトルをフレームごとに作成する作成部と、
音声を含む音響信号のフレームである音声フレームに対応する前記特徴ベクトルを予め学習した識別モデルと、作成された前記特徴ベクトルとに基づいて、前記音響信号のフレームが前記音声フレームであることの確からしさを表す音声尤度を算出する尤度算出部と、
前記音声尤度と予め定められた第1閾値とを比較し、前記音声尤度が前記第1閾値より大きい場合に、前記音響信号のフレームが前記音声フレームであると判定する判定部と、
を備えたことを特徴とする音声判定装置。
【請求項2】
前記エネルギー算出部は、推定された前記雑音スペクトルに対する前記スペクトルの相対的な大きさを表す前記エネルギー特徴量をフレームごとに算出すること、
を特徴とする請求項1に記載の音声判定装置。
【請求項3】
前記作成部は、前記複数のフレームのそれぞれに対して算出された前記エネルギー特徴量と、前記複数のフレームのそれぞれに対して算出された前記正規化スペクトルエントロピーとを要素として含む前記特徴ベクトルをフレームごとに作成すること、
を特徴とする請求項1に記載の音声判定装置。
【請求項4】
前記作成部は、フレームの前記エネルギー特徴量と、フレームの前記正規化スペクトルエントロピーと、前記複数のフレームでの前記エネルギー特徴量の変化の特徴を表す動的特徴量と、前記複数のフレームでの前記正規化スペクトルエントロピーの変化の特徴を表す動的特徴量と、を要素として含む前記特徴ベクトルをフレームごとに作成すること、
を特徴とする請求項1に記載の音声判定装置。
【請求項5】
前記推定部は、算出された前記エネルギー特徴量と予め定められた第2閾値とを比較し、算出された前記エネルギー特徴量が前記第2閾値より小さい場合に、算出された前記スペクトルと推定された前記雑音スペクトルとを予め定められた重み付け係数で重み付け加算した値を、前記エネルギー特徴量を算出した前記フレームの次のフレームの雑音スペクトルとして推定すること、
を特徴とする請求項1に記載の音声判定装置。
【請求項6】
作成された前記特徴ベクトルを予め定められた変換行列によって変換する変換部をさらに備え、
前記尤度算出部は、前記識別モデルと変換された前記特徴ベクトルとに基づいて、前記音響信号のフレームの前記音声尤度を算出すること、
を特徴とする請求項1に記載の音声判定装置。
【請求項7】
前記変換部は、前記特徴ベクトルより低次元のベクトルに変換する前記変換行列によって、作成された前記特徴ベクトルを変換すること、
を特徴とする請求項6に記載の音声判定装置。
【請求項8】
前記変換部は、前記特徴ベクトルと同次元のベクトルに変換する前記変換行列によって、作成された前記特徴ベクトルを変換すること、
を特徴とする請求項6に記載の音声判定装置。
【請求項9】
取得部が、雑音信号を含む音響信号を取得する取得ステップと、
分割部が、取得された前記音響信号を予め定められた時間間隔を表すフレーム単位に分割する分割ステップと、
スペクトル算出部が、フレームごとに前記音響信号を周波数分析して前記音響信号のスペクトルを算出するスペクトル算出ステップと、
推定部が、算出された前記スペクトルに基づいて前記雑音信号のスペクトルを表す雑音スペクトルを推定する推定ステップと、
エネルギー算出部が、前記雑音信号のエネルギーに対する前記音響信号のエネルギーの相対的な大きさを表すエネルギー特徴量をフレームごとに算出するエネルギー算出ステップと、
エントロピー算出部が、前記音響信号のスペクトルについての分布の特徴を表すスペクトルエントロピーを、推定された前記雑音スペクトルによって正規化した正規化スペクトルエントロピーを算出するエントロピー算出ステップと、
作成部が、フレームに予め定められた個数の前後のフレームを加えた複数のフレームのそれぞれに対して算出された前記エネルギー特徴量と、前記複数のフレームのそれぞれに対して算出された前記正規化スペクトルエントロピーとに基づいて、前記音響信号の特徴を表す特徴ベクトルをフレームごとに作成する作成ステップと、
尤度算出部が、音声を含む音響信号のフレームである音声フレームに対応する前記特徴ベクトルを予め学習した識別モデルと、作成された前記特徴ベクトルとに基づいて、前記音響信号のフレームが前記音声フレームであることの確からしさを表す音声尤度を算出する尤度算出ステップと、
判定部が、前記音声尤度と予め定められた第1閾値とを比較し、前記音声尤度が前記第1閾値より大きい場合に、前記音響信号のフレームが前記音声フレームであると判定する判定ステップと、
を備えたことを特徴とする音声判定方法。
【請求項10】
コンピュータを、
雑音信号を含む音響信号を取得する取得部と、
取得された前記音響信号を予め定められた時間間隔を表すフレーム単位に分割する分割部と、
フレームごとに前記音響信号を周波数分析して前記音響信号のスペクトルを算出するスペクトル算出部と、
算出された前記スペクトルに基づいて前記雑音信号のスペクトルを表す雑音スペクトルを推定する推定部と、
前記雑音信号のエネルギーに対する前記音響信号のエネルギーの相対的な大きさを表すエネルギー特徴量をフレームごとに算出するエネルギー算出部と、
前記音響信号のスペクトルについての分布の特徴を表すスペクトルエントロピーを、推定された前記雑音スペクトルによって正規化した正規化スペクトルエントロピーを算出するエントロピー算出部と、
フレームに予め定められた個数の前後のフレームを加えた複数のフレームのそれぞれに対して算出された前記エネルギー特徴量と、前記複数のフレームのそれぞれに対して算出された前記正規化スペクトルエントロピーとに基づいて、前記音響信号の特徴を表す特徴ベクトルをフレームごとに作成する作成部と、
音声を含む音響信号のフレームである音声フレームに対応する前記特徴ベクトルを予め学習した識別モデルと、作成された前記特徴ベクトルとに基づいて、前記音響信号のフレームが前記音声フレームであることの確からしさを表す音声尤度を算出する尤度算出部と、
前記音声尤度と予め定められた第1閾値とを比較し、前記音声尤度が前記第1閾値より大きい場合に、前記音響信号のフレームが前記音声フレームであると判定する判定部と、
として機能させる音声判定プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2009−251134(P2009−251134A)
【公開日】平成21年10月29日(2009.10.29)
【国際特許分類】
【出願番号】特願2008−96715(P2008−96715)
【出願日】平成20年4月3日(2008.4.3)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】