オーディオ信号分析方法、その方法を用いた音声認識方法、それらの装置、プログラムおよびその記録媒体
【課題】加法性歪の影響を抑圧する。
【解決手段】音声信号をフィルタバンク11により複数の帯域信号に分割し、各帯域信号の非周期成分パワー(13,14,15A)と、周期成分パワー(15F,16)とを求め、周期成分、非周期成分パワーの各雑音区間をそれぞれ時間平均手段21P,21Aで長時間平均し、これら周期成分,非周期成分長時間平均で、周期成分,非周期成分パワーをそれぞれ減算し、これら周期成分,非周期成分の減算結果をそれぞれ離散コサイン変換し(18P,18A)、周期成分,非周期成分離散コサイン係数の各時間的又は/及び次数番的に少なくとも一部をベクトル連結して特徴パラメータとする。
【解決手段】音声信号をフィルタバンク11により複数の帯域信号に分割し、各帯域信号の非周期成分パワー(13,14,15A)と、周期成分パワー(15F,16)とを求め、周期成分、非周期成分パワーの各雑音区間をそれぞれ時間平均手段21P,21Aで長時間平均し、これら周期成分,非周期成分長時間平均で、周期成分,非周期成分パワーをそれぞれ減算し、これら周期成分,非周期成分の減算結果をそれぞれ離散コサイン変換し(18P,18A)、周期成分,非周期成分離散コサイン係数の各時間的又は/及び次数番的に少なくとも一部をベクトル連結して特徴パラメータとする。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は、音声信号や音楽信号などのオーディオ信号の特徴表現を抽出するオーディオ信号分析方法、その方法を用いた音声認識方法、それらの装置、プログラムおよびその記録媒体に関する。
【背景技術】
【0002】
自動音声認識装置においては、音声特徴表現抽出のための音声信号分析が行われる。頑健性の高い、つまり雑音に影響され難い音声特徴抽出法として、音声信号の周期的な成分と非周期的な成分を分離してそれらを連結して出力する音声信号分析方法がある(非特許文献1参照)。この音声信号分析方法のこの従来の音声信号分析方法を実行する装置の機能構成例を図1に、その処理手順を図2にそれぞれ示す。この音声信号分析装置10は帯域通過フィルタバンク11と、音声波形切出手段12と、周期推定手段13と、櫛型フィルタ手段14と、パワー算出手段15F及び15Aと、減算手段16と、離散コサイン変換手段18P及び18Aと、ベクトル連結手段18とを備える。
【0003】
入力端子100より音声信号分析装置10へ入力される音声信号は、例えば16,000Hzのサンプリングレートでサンプリングされ、その各サンプルがデジタル値に変換された離散音声信号である。
帯域通過フィルタバンク11では、複数の帯域通過デジタルフィルタ111,…,11Bを用いて、入力された離散音声信号を帯域分割して出力する(ステップS1)。ここで用いられる帯域通過フィルタバンク11は、例えば聴知覚の特性に基づく、等価矩形帯域幅の大きさに対応した中心周波数を持つガンマトーンフィルタバンクを用いるとよい(M.Slaney,“An Efficient Implementation of the Patterson-Holdsworth Auditory Filter Bank,”Apple Computer Technical Report #35,1993)。このガンマトーンフィルタバンクでは、帯域通過フィルタ11b(b=1,…,B)であるガンマトーンフィルタを、通過帯域が重なり合うように、かつそれぞれのフィルタの中心周波数が等価矩形帯域幅の大きさ(おおよそ対数スケール)に従うように、例えば24帯域分用意する。このフィルタバンク11の各フィルタの周波数特性の例を図3に示す。図3には複数の帯域通過フィルタ111,…,1124(ガンマトーンフィルタ)の周波数特性が同時に示されている。入力である離散音声信号をフィルタバンク11中のそれぞれの帯域通過フィルタ111,…,11Bでフィルタ処理した結果としてフィルタ数Bだけの離散信号が帯域通過フィルタバンク11から出力される。帯域通過フィルタバンク11の入力信号と出力信号の例として、帯域通過フィルタ11bとして図3に示した24個のフィルタ特性のうちの3つの特性をそれぞれもつガンマトーンフィルタを用いた場合を図4に示す。図4Aは入力離散音声信号の時間的変化を示す波形を示し、図4Bは中心周波数がfc1,fc2及びfc3の帯域通過フィルタ11bの各周波数特性をそれぞれ示し、図4Cはこれら3つの帯域通過フィルタの各出力信号波形をそれぞれ示す。
【0004】
音声波形切出手段12は、帯域通過フィルタバンク11の各帯域通過フィルタ111,…,11Bの出力信号から例えば時間軸方向に10msづつ移動しながら、30msの時間長の信号を各切出部121,…,12Bでそれぞれ切り出す(ステップS2)の結果、例えば480サンプル点(16,000Hz×30ms)の離散信号を160サンプル点(16,000Hz×10ms)づつ移動しながら切り出した信号が音声波形切出手段12の切出部121,…,12Bから出力される。つまり各帯域通過フィルタ111,…,11Bよりの各帯域信号が分析区間(フレーム)ごとに分割される。
【0005】
周期推定手段13は音声波形切出手段12の各切出部121,…,12Bよりの出力信号を入力とし、その各分析区間ごとの各出力信号の周期性の周期を周期推定部131,…,13Bでそれぞれ推定する(ステップS3)。この周期性の推定には例えば基本周波数抽出法の一つである自己相関法(W.Hess,“Pitch determination of speech signals,”Springer-Verlag,New York,1983)を用いる。自己相関法では、まず入力信号の自己相関関数係数を求める。入力信号の全サンプル点数(1分析区間のサンプル点数)をN、j番目のサンプル点の信号の振幅をsjとすると、入力信号の自己相関関数係数aciは以下の式に従って求まる。
【0006】
aci=(1/N)Σj=1N-1-isjsi+j , i=1,…,N
図5Aに入力信号波形の例を、図5Bにこの自己相関関数係数をそれぞれ示す。次に、この自己相関関数係数におけるiの一定の探索範囲内、例えば80≦i≦200(サンプリング周波数16,000Hzの場合の80Hzから200Hzの周期に該当)の範囲内においてaciが最大となるiを検出する。その結果得られたiをnとする。このnは入力信号の探索範囲において最も支配的な周期性成分の周期長を表し、入力信号が単一の完全な周期信号(例えば正弦波)の場合にはその周期長に相当する値になる。周期推定手段13の各周期推定部131,…,13Bから各推定周期nが出力される。
【0007】
櫛型フィルタ手段14は周期推定手段13で得られた周期に基づいた離散櫛型フィルタを設定し、音声波形切出手段12の出力信号をフィルタ処理する(ステップS4)。ここで用いる離散櫛型フィルタの周波数特性は、例えば周期推定手段13の出力周期nに対し、z領域表現で次式とされる。
H(z)=1−z-n
音声波形切出手段12の出力信号をこの離散櫛型フィルタによってフィルタ処理することで得られる出力信号は、その櫛型フィルタの周波数特性における零点に相当する部分(基本周波数成分とその整数倍の周波数成分)のパワーが抑圧された離散信号となる。各周期推定部13b(b=1,…,B)で推定された周期nは櫛型フィルタ手段14の対応するフィルタ部14bに設定され、各切出部12bよりの分析区間ごとの帯域離散音声信号が対応するフィルタ部14bに入力される。図4に示した帯域通過周波数特性中から選んだ3個と帯域通過フィルタの出力信号を音声波形切出手段12によりそれぞれ切り出した信号波形例を図6Aに、これら信号からそれぞれ推定された周期に設定された離散櫛型フィルタのそれぞれの周波数特性を図6Bに、その各フィルタ処理された各出力信号を図6Cにそれぞれ示す。
【0008】
パワー算出手段15Fの各計算部15Fbは音声波形切出手段12の各切出部12bにより出力信号のパワーを計算し、パワー算出手段15Aの各計算部15Abは櫛型フィルタ手段14の各フィルタ部14bの出力信号のパワーを計算する(ステップS5)。各計算部15Fb及び15Abでのパワーの計算Wは例えば次式に示す二乗和を行う。ここで、sjは入力離散信号のサンプル点jにおける振幅を、Nは入力信号の全サンプル点数をそれぞれ表す。
W=Σj=1Nsj2
減算手段16の各減算部16bでは、パワー算出手段15Fの各計算部15Fbの出力パワー値、つまり音声波形切出手段12の切出部12bの出力信号のパワー値WPbから、対応するパワー算出手段15Aの計算部15Abの出力パワー値、つまり切出部12bの出力に対応する櫛型フィルタ手段14のフィルタ部14bの出力信号から算出されたパワー値WAbを減算する(ステップS6)。この結果、各減算部16bから櫛型フィルタ手段14の各フィルタ部14bによって抑圧された周波数成分のパワー値(powersp)、すなわち各帯域離散音声信号の周期成分パワー値WPbを求めることができる。この減算操作を次式に示す。
【0009】
WPb=WFb−WAb
周期成分パワーベクトル化手段17Pは各周期成分パワーWPbが入力され、これらをその対応帯域通過フィルタ11b(b=1,…,B)の中心周波数順に整列したベクトルとし、非周期成分パワーベクトル化手段17Aは同様に各非周期成分パワーWAbをベクトルとする(ステップS7)。離散コサイン変換手段18Pでは、周期成分パワーベクトルに対しその対数値を取って離散コサイン変換を行う(この離散コサイン変換については例えば鹿野他2名著、“音声認識システム”、オーム社,2001年発行,14頁参照)。同様に離散コサイン変換手段18Aは非周期成パワーベクトルを離散コサイン変換する(ステップS8)。例えば24帯域分の帯域通過フィルタ11bを用いた場合、WPbおよびWAbはそれぞれ24通り算出される。これらをそれぞれ対応する帯域通過フィルタの中心周波数順に整列し、それぞれ24次元のベクトルとして扱う。その各ベクトルに対し、離散コサイン変換を例えば下記の式に従って行う。
【0010】
【数1】
ここで、pjは対応する帯域通過フィルタの中心周波数順に整列されたWPbまたはWAbによって構成されるB次元ベクトルのj番目の要素(パワー値)を表し、ciは離散コサイン変換後に得られるB次元ベクトルCのi番目の離散コサイン係数を表す。ciはi=1,…,Bのすべてについて求める。離散コサイン変換手段18P及び18Aでは、WPbおよびWAbそれぞれから得られる離散コサイン係数ciPおよびciAを出力とする。
【0011】
ベクトル連結手段19は、離散コサイン変換手段18Pおよび18Aの出力であるWPbおよびWAbに対応するそれぞれN次元の離散コサイン係数ciPおよびciAを入力とし、それぞれの一部または全体を連結して一連のベクトルC=(c1,c2,…,ck)として出力する(ステップS9)。例えばWPbおよびWAbそれぞれの24次元の離散コサイン係数ciPおよびciAが入力とされた場合、それぞれ次数の低い方から12次元の係数を連結して一連の24次元ベクトルとして出力する。この分析方法を用いた場合、雑音下での自動音声認識において所定の頑健性が得られる。
【0012】
音声信号の周期的な成分と非周期的な成分を分離することなく、雑音が定常であると仮定し、音声信号の含まれない区間のパワースペクトルを時間平均することで雑音のパワースペクトルを求め、それを音声区間のパワースペクトルから減算することで雑音による加法性歪の影響を補正した音声特徴パラメータを出力する音声信号分析方法(非特許文献2参照)がある。この方法の機能構成を図7に示す。音声信号は音声波形切出部1で分析フレームごとに切出され、各分析フレームごとに離散フーリエ変換部2で離散的フーリエ変換される。そのフーリエ変換結果の離散フーリエ変換係数ベクトルは時間平均手段6で時間平均され、この時間平均ベクトルが、離散フーリエ変換係数ベクトルから減算手段7で減算される。この減算結果は、三角窓フィルタ31,…,3Lによりメル周波数軸上で、等間隔かつ両隣接帯域の中心に達する三角窓が掛けられたL個の帯域に分割される。これらL個の帯域スペクトルはパワー算出部41,…,4Lでそれぞれパワーが計算され、これらL個のパワーがパワーベクトル化部8で対応フィルタの中心周波数の低い順に並べられたパワーベクトルとして離散コサイン変換部5で離散コサイン変換され、特徴パラメータとして出力される。
【非特許文献1】Kentaro Ishizuka,Noboru Miyazaki,“Speech feature extraction method representing periodicity and aperiodicity in sub bands for robust speech recognition ,”Proceedings of the 29th International Conference on Acoustics, Speech,and Signal Processing,Vol.1,pp.141-144,2004.
【非特許文献2】Xuedong Huang,Alex Acero,Hsiao-Wuen Hon,“Spoken Language Processing,” Prentice-Hall,2001.516〜519頁
【発明の開示】
【発明が解決しようとする課題】
【0013】
非特許文献1に示す方法は、雑音が極めて強い場合に発生する強い加法性歪に対しては、音声の特徴を十分表わした特徴パラメータを抽出できず、十分な認識精度が得られない。
一方、非特許文献2に示す方法は、雑音のパワースペクトル(パワー値ベクトル)長時間平均が一定に近づくことを前提とするものであるが、特徴パラメータの抽出にパワースペクトルの形状を利用するものであり、全体として処理しているため、パワースペクトルの一部の急激な変動などの影響を受け易く、音声特徴を十分表わした特徴パラメータを抽出することができず、高い認識精度が得られない。
【0014】
音声信号のみならず、音楽信号など、周期性成分を含む信号の特徴を表わすパラメータの抽出においても同様の問題がある。よってこの明細書では音声信号、音楽信号などをオーディオ信号という。
【課題を解決するための手段】
【0015】
この発明によればオーディオ信号を複数の帯域に分割し、これら各分割された帯域信号をそれぞれ周期成分と非周期成分に分離し、これら帯域の周期成分を要素とする周期成分ベクトル及び非周期成分を要素とする非周期成分ベクトルをそれぞれ時間平均し、これら時間平均周期成分ベクトル及び時間平均非周期成分ベクトルをそれぞれ周期成分ベクトル及び非周期成分ベクトルから減算し、これら減算結果又はその離散コサイン変換係数をベクトル連結して特徴パラメータとする。
【発明の効果】
【0016】
このようにこの発明によれば帯域分割しかつ周期成分と、非周期成分とを分離して時間平均をとっているため、時間的又は要素的に一部は雑音パワー値の長時間平均が正しいものとなり、それだけオーディオ信号の特徴をよく表現する特徴パラメータが得られる。
【発明を実施するための最良の形態】
【0017】
以下この発明の実施形態を図面を参照して説明するが、図1およびこれから説明する各図中の対応する部分は同一参照番号を付けて重複説明を省略する。また以下の説明ではオーディオ信号として音声信号にこの発明を適用した場合である。
[第1実施形態]
この発明の第1実施形態の機能構成例を図8に、処理手順の例を図9にそれぞれ示す。
入力端子100よりの入力音声信号は信号分析装置10内の帯域通過フィルタバンク11に入力される。この入力音声信号は帯域通過フィルタバンク11で帯域分割され各帯域信号は櫛型フィルタ14にてフィルタ処理され、各帯域信号の周期成分パワー値WPb及び非周期成分パワー値WAbがそれぞれ計算され、更に周期成分パワー値ベクトルWP及び非周期成分パワー値ベクトルWAがそれぞれ得られる構成及び処理手順は図1及び図2に示したものと同様である。
【0018】
この実施形態では区間検出手段19において入力音声信号から音声が含まれていない雑音区間、例えば認識される音声信号の直前の定常的雑音レベルが得られる適当な区間と認識されるべき音声区間とが検出される(ステップS11)。この区間検出手段20aの検出出力により分配手段20P及び20Aがそれぞれ制御され、周期成分パワー値ベクトルWP及び非周期成分パワー値ベクトルWAの各雑音区間は時間平均手段21P及び21Aに、各音声区間は減算手段22P及び22Aにそれぞれ分配供給される(ステップS12)。
【0019】
周期成分パワー値ベクトルWP及び非周期成分パワー値ベクトルWAは時間方向について音声波形切出手段12が切出しを実施する回数、つまり入力された信号区間におけるフレーム(分析区間)の数だけ出力される。音声波形切出手段12における、ある時点(フレーム)τの周期成分パワー値ベクトルWPのb番目のパワー値をWPb(τ)と表す。τは、波形切出手段12によって離散化された時間を表す。例えば、音声波形切出手段12が1秒間の信号区間に対し10msづつ移動しながら30msの長さで入力信号を切出す場合、τは1から97(=(1,000(ms)−30(ms))/10(ms))の値をとる。
【0020】
時間平均手段21Pは入力された周期成分パワー値ベクトルWPを時間平均して周期成分時間平均パワー値ベクトルWPnを出力する(ステップS13)。例えば時間平均手段31Pは雑音区間の周期成分時間平均パワー値ベクトルWPnを次の式の計算により求める。
【0021】
【数2】
βとαは、時間平均を取る範囲を表し、β>αを満たす。α=1で、βがτの最大値なら、全ての雑音区間を利用することになり、それ以外の場合は一部の雑音区間を利用することに相当する。b=1,…,B、Bはフィルタバンク11のフィルタ数である。γk(τ)は係数を加算する際の重みで、例えば1を用いる。この雑音区間の周期成分時間平均パワー値ベクトルWPnb は、全てまたは一部のbについて求める。
【0022】
求めた周期成分時間平均パワー値ベクトルWPnは減算手段22Pに入力され、減算手段22Pは音声区間の周期成分パワー値ベクトルWPsから周期成分時間平均パワー値ベクトルWPnが減算される(ステップS14)。つまり次式が計算される。
NWPb(τ)=WPsb(τ)−φb(τ)・WPn (2)
ここでφb(τ)は減算する際に時間平均パワー値に乗じる重みで、例えば2を用いる。
またはNWPb(τ)が負の値を取らないように、次式を計算する。ここでμは定数で例えば0.1を用いる。
【0023】
WPsb(τ)>(φb(τ)+μ)・WPnの場合、
NWPb(τ)=Wsb(τ)−φb(τ)・WPn (3)
その他の場合 NWPb(τ)=μ・WPn
この減算を全てまたは一部のτ、および全てまたは一部のbについて求める。
同様に非周期成分パワー値ベクトルWAについても時間平均手段21Aにおいて、雑音区間の時間平均、つまり式(1)と同様な計算により非周期成分時間平均パワー値ベクトルWAnが計算され(ステップS13)、減算手段22Aにおいて、音声区間の非周期成分パワー値ベクトルWAsから非周期成分時間平均パワー値ベクトルWAnが減算され、式(2)又は(3)と同様な計算により、NWAb(τ)が全てまたは一部のτ、および全てまたは一部のbについて求められる(ステップS14)。
【0024】
このようにして加法性歪の補正された周期成分パワー値ベクトル及び非周期成分パワー値ベクトルが減算手段22P及び22Aから出力される。
これらは離散コサイン変換手段18P及び18Aでそれぞれ離散コサイン変換される(ステップS15)。この離散コサイン変換は従来技術の項で示したものと同様であり、例えば減算手段22Pよりの減算結果ベクトルに対する変換は次式の計算により行われる。
【0025】
【数3】
cPiは離散コサイン変換後に得られるB次元ベクトルのi番目の離散コサイン係数を表わし、i=1,…,Bである。
離散コサイン変換手段18P及び18Aからの周期成分離散コサイン係数ベクトル及び非周期成分離散コサイン係数ベクトルのそれぞれ一部または全体がベクトル連結手段19で一連のベクトルとして連結され、分析結果(特徴パラメータ)として出力される(ステップS16)。例えば24次元の各周期成分係数ベクトル、非周期成分係数ベクトルからそれぞれ次数の低い方から12次元の係数が連結され、24次元ベクトルとして出力される。
【0026】
なお帯域通過フィルタバンク11中の帯域通過フィルタの数Bは例えば、入力音声信号のサンプリング周波数が8kHzの場合、24個とされ、サンプリング周波数が高くなるに従って帯域通過フィルタの数Bを大きくするのが好ましい。
[変形実施形態]
以下にこの発明の変形例を説明する。図8中に1点鎖線で示すように、離散コサイン変換手段18P及び18Aを省略して、減算手段22P及び20Aの各歪補正された周期成分パワー値ベクトル及び非周期成分パワー値ベクトルをベクトル連結手段19へ直接入力してもよい。この場合は図9中に1点鎖線で示すように、ステップS15が省略され、ステップS14からステップS16へ直ちに移る。
【0027】
上述において、櫛型フィルタ手段14として、周期推定手段13で推定した周期成分と、その整数倍を阻止する阻止型櫛型フィルタを用いたが、推定した周期成分と、その整数倍を通過させる通過型櫛型フィルタを用いてもよい。その場合の処理手順を図10に示す。いままでの説明と同様に入力音声信号は、帯域分割(ステップS1)、各帯域ごとの基本周期推定(ステップS2)の各処理が行われる。その後、各帯域信号ごとに、櫛型フィルタ手段14′(図8中の括弧書、以下同様)の各フィルタ部141′,…,14B′で対応帯域の推定周期成分とその整数倍成分とのみが通過選出される(ステップS21)。これら選出された各帯域ごとの基本周期成分と、その整数倍成分とのパワー、つまり周期成分パワーWPb(b=1,…,B)が、パワー計算手段15Pの計算部15Pbでそれぞれ計算され(ステップS22)、また各帯域信号のパワーWFbがパワー計算手段15Fの各計算部15Fbで計算される(ステップS23)。減算手段16の各減算部16bにおいて計算部15Fbの出力パワーWFbから、計算部15Pbからの出力パワーWPbが減算されて帯域ごとの非周期成分パワーWAbが求められる(ステップS43)。減算手段16よりの非周期成分パワー値が非周期成分パワーベクトル化手段20Aでベクトル化され、またパワー計算手段15Pよりの周期成分パワー値が周期成分パワーベクトル化手段20Pでベクトル化される(ステップS7)。これより後の処理は先に述べた各実施形態と同様である。この場合も、図8中に一点鎖線で示すように、離散コサイン変換を行うことなく得られた周期成分パワー値ベクトルと非周期成分パワー値ベクトルとをベクトル連結手段18でベクトル連結してもよい。
[第2実施形態]
第2実施形態は第1実施形態、変形実施形態のいずれかにより入力音声信号を分析して音声認識を行う装置および方法の実施形態である。第2実施形態の機能構成例を図11に、処理手順を図12にそれぞれ示す。この例ではこの音声認識装置60の入力端子200に学習音声データが入力され(ステップS51)、学習処理がされる。つまりこの学習音声データは信号分析部62で分析され、特徴パラメータが抽出される(ステップS52)。入力端子200に入力される学習音声データや認識されるべき音声信号は所定のサンプリング周波数でサンプリングされ、ディジタル値とされた信号系列である。信号分析部62は第1実施形態、変形実施形態のいずれかと同様な信号分析装置であり、学習音声データの特徴パラメータが信号分析部62から出力される。
【0028】
この学習音声特徴パラメータはパターン(学習)識別部64に入力され、パターン(学習)識別部64は学習音声特徴パラメータから標準パターンを生成して標準パターン記憶部66に格納する(ステップS53)。標準パターンは例えばHMM(隠れマルコフモデル)であり、状態数及び分布数とその各音素ごとの遷移確率、出現確率などのパラメータである。
次に入力端子200に認識されるべき音声信号が入力され(ステップS54)、その入力音声信号は信号分析部62で特徴パラメータが抽出される(ステップS55)。
【0029】
この特徴パラメータはパターン(学習)識別部64で、標準パターン記憶部66に予め格納されている標準パターンと比較され、最も類似度が高い標準パターンと対応する、音素、単語などを表わすデータが出力される(ステップS56)。なおこの学習及び認識の具体的処理は例えば北研二他2名著「音声言語処理」森北出版株式会社、1996年発行37〜43頁を参照されたい。
この例ではまず学習音声データによる標準パターンの学習を行ったが、信号分析部62で抽出される特徴パラメータと同一種類の特徴パラメータによりあらかじめ生成された標準パターンが格納された標準パターン記憶部66を用い、つまり図20において、ステップS51〜ステップS53を省略し、入力された音声信号の認識のみを行うものでもよい。その場合はパターン識別部64は認識処理のみを行う。
【0030】
また標準パターンを生成する学習音声データは、被認識音声が収音される環境雑音と同様な環境雑音が重畳されたものが好ましく、学習音声データから特徴パラメータを抽出する信号分析部としては、被認識入力音声信号より特徴パラメータを抽出する信号分析部と同一または同様のものがよい。
第1実施形態および変形実施形態の各オーディオ信号分析装置、第2実施形態の音声認識装置はいずれも、コンピュータにより機能させることができる。コンピュータに、例えば図8に示したオーディオ信号分析装置としてコンピュータを機能させるためのプログラムを磁気ディスク、CD−ROM、半導体記憶装置などの記録媒体からインストールし、または通信回線を介してダウンロードし、そのプログラムをそのコンピュータに実行させればよい。なおコンピュータを分析装置あるいは認識装置として機能させる場合はその対象信号を一旦コンピュータ内の記憶装置に取り込んだ後、処理することになる。
[実験例]
以下にこの発明の効果を示すために、この発明による音声信号分析方法によって得られた音声特徴パラメータを用いた音声認識装置と、[従来の技術]項に記載の非特許文献1に示す音声認識装置(単に従来装置という)の、雑音下での数字認識における音声認識精度を比較したのちに行った実験を説明する。
【0031】
この実験は第1実施形態の効果を明らかにするためであり、この実験には、(社)情報処理学会 音声言語情報処理研究会 雑音下音声認識評価ワーキンググループ 雑音下音声認識評価環境(AURORA−2J)を利用した。この第1実施形態の装置および従来装置とも24チャネルのガンマトーンフィルタバンクをフィルタバンク11として用い音声波形切出手段12での音声波形の切出しは25ms長で10msごとに行い、周期成分パワーWPbおよび非周期成分パワーWAbに対応する離散コサイン変換後の係数ベクトルはそれぞれ12次元、他に入力信号全体のパワーを表すパワー値、あわせて25次元のベクトルを特徴ベクトルとして用い、その動的特徴であるΔパラメータとΔΔパラメータを、ΔMFCC,ΔΔMFCC,Δパワー,ΔΔパワーを求める方法(鹿野他2名著“音声認識システム”,オーム社,2001年発行、13頁参照)と同様にして求め、その結果75次元のベクトルを特徴パラメータとして用いた。
【0032】
この第1実施形態の装置での加法性歪の補正は、発話データ冒頭の100msの雑音のみが含まれる音声区間の時間平均パワー値を利用して、発話データ全体のパワー値ベクトルを補正した。
パターン(学習)識別部64での学習処理には16状態24ガウス分布混合の数字HMMを用い、前記AURORA−2Jに付属する学習音声データ中の8,440発話の雑音が混入した数字読み上げ学習音声データとHMM学習用スクリプト(学習プログラム)とを用いHMM学習を行った。また、同様にAURORA−2Jに付属する評価データにおいて雑音下での数字読み上げ音声のうち強い加法性歪を伴う自動車中雑音が音声と同じパワーで重畳されている評価データ(信号対雑音比0dB、1,001発話)を用い雑音下での数字認識精度の評価を行った。
【0033】
各認識精度の結果を図13に示す。図13に示されたとおり、第1実施形態による加法性歪を補正する音声信号分析方法を用いた場合の音声認識装置の認識精度が従来装置の認識精度よりも10%近く向上し、第1実施形態の手法が効果的に頑健性を高くすることが明らかにされた。
従来との差の理由
図7に示した従来手法においては、離散フーリエ変換の結果得られる、パワースペクトルの時間平均を入力音声信号から減算することにより、雑音の影響をまず軽減した後に、各三角窓のパワー演算、ならびにその音声特徴パラメータへの変換を行っている。これは雑音のパワースペクトル長時間平均が一定に近づくことを前提としている。
【0034】
それに対し、図1に示した従来手法においてパワーベクトル化手段17P,17Aで得られるパワー値ベクトルは、パワースペクトルと異なったものであり、加えて音声信号が周期性成分と非周期性成分に分割されているため、雑音のパワー値ベクトルの長時間平均が一定に近づく保証はなく、そのパワー値ベクトルの減算によって雑音の影響を軽減することは通常は考えられない。
しかし、周期成分と非周期成分とに分離して、各帯域ごとにパワー値を求める場合においても、bやτの一部についてみれば雑音のパワー値ベクトルの長時間平均が一定値に近づくことに注目して、この発明を完成したものである。つまり、図8にしめした第1実施形態の装置においては減算手段22P、22Aでは雑音のパワー値ベクトルが長時間平均で一定の値に近づく性質を持つものに限ることができ、τ及びbについて一部のパワー値ベクトルのみについての減算を行うことにより、加法性歪の影響を効果的に補正することができる。
【0035】
前記実験では、b、τの一部ではなく、全てに対して歪補正をしているが、この発明方法が優れている結果となっている。これは前記雑音パワー値ベクトルの一部に基づく歪補正が大きく影響しているためと思われ、長時間平均がほぼ一定値になる部分のみについて歪補正をすればより大きな効果が得られると思われる。
【図面の簡単な説明】
【0036】
【図1】非特許文献1の技術を説明するための音声信号分析装置の機能構成を示すブロック図。
【図2】図1に示した装置の処理手順を示す流れ図。
【図3】ガンマトーンフィルタバンクの周波数特性の例を示す図。
【図4】Aは入力音声波形例を、Bは3つのガンマトーンフィルタの特性例を、Cはその各フィルタの出力信号をそれぞれ示す図である。
【図5】Aは切り出された音声波形例を、Bはその自己相関関数をそれぞれ示す図である。
【図6】Aは3つの櫛型フィルタの入力信号例を、Bは上記櫛型フィルタの周波数特性例を、Cはその各出力信号の例をそれぞれ示す図である。
【図7】非特許文献2の技術を説明するための音声信号分析装置の機能構成を示すブロック図。
【図8】第1実施形態の装置の機能構成例を示すブロック図。
【図9】第1実施形態の分析方法の手順例を示す流れ図。
【図10】第1実施形態の方法における変形例を示す流れ図。
【図11】第2実施形態の特色の機能構成例を示すブロック図。
【図12】第2実施形態の方法の処理手順例を示す流れ図。
【図13】実験結果を示すグラフ。
【技術分野】
【0001】
この発明は、音声信号や音楽信号などのオーディオ信号の特徴表現を抽出するオーディオ信号分析方法、その方法を用いた音声認識方法、それらの装置、プログラムおよびその記録媒体に関する。
【背景技術】
【0002】
自動音声認識装置においては、音声特徴表現抽出のための音声信号分析が行われる。頑健性の高い、つまり雑音に影響され難い音声特徴抽出法として、音声信号の周期的な成分と非周期的な成分を分離してそれらを連結して出力する音声信号分析方法がある(非特許文献1参照)。この音声信号分析方法のこの従来の音声信号分析方法を実行する装置の機能構成例を図1に、その処理手順を図2にそれぞれ示す。この音声信号分析装置10は帯域通過フィルタバンク11と、音声波形切出手段12と、周期推定手段13と、櫛型フィルタ手段14と、パワー算出手段15F及び15Aと、減算手段16と、離散コサイン変換手段18P及び18Aと、ベクトル連結手段18とを備える。
【0003】
入力端子100より音声信号分析装置10へ入力される音声信号は、例えば16,000Hzのサンプリングレートでサンプリングされ、その各サンプルがデジタル値に変換された離散音声信号である。
帯域通過フィルタバンク11では、複数の帯域通過デジタルフィルタ111,…,11Bを用いて、入力された離散音声信号を帯域分割して出力する(ステップS1)。ここで用いられる帯域通過フィルタバンク11は、例えば聴知覚の特性に基づく、等価矩形帯域幅の大きさに対応した中心周波数を持つガンマトーンフィルタバンクを用いるとよい(M.Slaney,“An Efficient Implementation of the Patterson-Holdsworth Auditory Filter Bank,”Apple Computer Technical Report #35,1993)。このガンマトーンフィルタバンクでは、帯域通過フィルタ11b(b=1,…,B)であるガンマトーンフィルタを、通過帯域が重なり合うように、かつそれぞれのフィルタの中心周波数が等価矩形帯域幅の大きさ(おおよそ対数スケール)に従うように、例えば24帯域分用意する。このフィルタバンク11の各フィルタの周波数特性の例を図3に示す。図3には複数の帯域通過フィルタ111,…,1124(ガンマトーンフィルタ)の周波数特性が同時に示されている。入力である離散音声信号をフィルタバンク11中のそれぞれの帯域通過フィルタ111,…,11Bでフィルタ処理した結果としてフィルタ数Bだけの離散信号が帯域通過フィルタバンク11から出力される。帯域通過フィルタバンク11の入力信号と出力信号の例として、帯域通過フィルタ11bとして図3に示した24個のフィルタ特性のうちの3つの特性をそれぞれもつガンマトーンフィルタを用いた場合を図4に示す。図4Aは入力離散音声信号の時間的変化を示す波形を示し、図4Bは中心周波数がfc1,fc2及びfc3の帯域通過フィルタ11bの各周波数特性をそれぞれ示し、図4Cはこれら3つの帯域通過フィルタの各出力信号波形をそれぞれ示す。
【0004】
音声波形切出手段12は、帯域通過フィルタバンク11の各帯域通過フィルタ111,…,11Bの出力信号から例えば時間軸方向に10msづつ移動しながら、30msの時間長の信号を各切出部121,…,12Bでそれぞれ切り出す(ステップS2)の結果、例えば480サンプル点(16,000Hz×30ms)の離散信号を160サンプル点(16,000Hz×10ms)づつ移動しながら切り出した信号が音声波形切出手段12の切出部121,…,12Bから出力される。つまり各帯域通過フィルタ111,…,11Bよりの各帯域信号が分析区間(フレーム)ごとに分割される。
【0005】
周期推定手段13は音声波形切出手段12の各切出部121,…,12Bよりの出力信号を入力とし、その各分析区間ごとの各出力信号の周期性の周期を周期推定部131,…,13Bでそれぞれ推定する(ステップS3)。この周期性の推定には例えば基本周波数抽出法の一つである自己相関法(W.Hess,“Pitch determination of speech signals,”Springer-Verlag,New York,1983)を用いる。自己相関法では、まず入力信号の自己相関関数係数を求める。入力信号の全サンプル点数(1分析区間のサンプル点数)をN、j番目のサンプル点の信号の振幅をsjとすると、入力信号の自己相関関数係数aciは以下の式に従って求まる。
【0006】
aci=(1/N)Σj=1N-1-isjsi+j , i=1,…,N
図5Aに入力信号波形の例を、図5Bにこの自己相関関数係数をそれぞれ示す。次に、この自己相関関数係数におけるiの一定の探索範囲内、例えば80≦i≦200(サンプリング周波数16,000Hzの場合の80Hzから200Hzの周期に該当)の範囲内においてaciが最大となるiを検出する。その結果得られたiをnとする。このnは入力信号の探索範囲において最も支配的な周期性成分の周期長を表し、入力信号が単一の完全な周期信号(例えば正弦波)の場合にはその周期長に相当する値になる。周期推定手段13の各周期推定部131,…,13Bから各推定周期nが出力される。
【0007】
櫛型フィルタ手段14は周期推定手段13で得られた周期に基づいた離散櫛型フィルタを設定し、音声波形切出手段12の出力信号をフィルタ処理する(ステップS4)。ここで用いる離散櫛型フィルタの周波数特性は、例えば周期推定手段13の出力周期nに対し、z領域表現で次式とされる。
H(z)=1−z-n
音声波形切出手段12の出力信号をこの離散櫛型フィルタによってフィルタ処理することで得られる出力信号は、その櫛型フィルタの周波数特性における零点に相当する部分(基本周波数成分とその整数倍の周波数成分)のパワーが抑圧された離散信号となる。各周期推定部13b(b=1,…,B)で推定された周期nは櫛型フィルタ手段14の対応するフィルタ部14bに設定され、各切出部12bよりの分析区間ごとの帯域離散音声信号が対応するフィルタ部14bに入力される。図4に示した帯域通過周波数特性中から選んだ3個と帯域通過フィルタの出力信号を音声波形切出手段12によりそれぞれ切り出した信号波形例を図6Aに、これら信号からそれぞれ推定された周期に設定された離散櫛型フィルタのそれぞれの周波数特性を図6Bに、その各フィルタ処理された各出力信号を図6Cにそれぞれ示す。
【0008】
パワー算出手段15Fの各計算部15Fbは音声波形切出手段12の各切出部12bにより出力信号のパワーを計算し、パワー算出手段15Aの各計算部15Abは櫛型フィルタ手段14の各フィルタ部14bの出力信号のパワーを計算する(ステップS5)。各計算部15Fb及び15Abでのパワーの計算Wは例えば次式に示す二乗和を行う。ここで、sjは入力離散信号のサンプル点jにおける振幅を、Nは入力信号の全サンプル点数をそれぞれ表す。
W=Σj=1Nsj2
減算手段16の各減算部16bでは、パワー算出手段15Fの各計算部15Fbの出力パワー値、つまり音声波形切出手段12の切出部12bの出力信号のパワー値WPbから、対応するパワー算出手段15Aの計算部15Abの出力パワー値、つまり切出部12bの出力に対応する櫛型フィルタ手段14のフィルタ部14bの出力信号から算出されたパワー値WAbを減算する(ステップS6)。この結果、各減算部16bから櫛型フィルタ手段14の各フィルタ部14bによって抑圧された周波数成分のパワー値(powersp)、すなわち各帯域離散音声信号の周期成分パワー値WPbを求めることができる。この減算操作を次式に示す。
【0009】
WPb=WFb−WAb
周期成分パワーベクトル化手段17Pは各周期成分パワーWPbが入力され、これらをその対応帯域通過フィルタ11b(b=1,…,B)の中心周波数順に整列したベクトルとし、非周期成分パワーベクトル化手段17Aは同様に各非周期成分パワーWAbをベクトルとする(ステップS7)。離散コサイン変換手段18Pでは、周期成分パワーベクトルに対しその対数値を取って離散コサイン変換を行う(この離散コサイン変換については例えば鹿野他2名著、“音声認識システム”、オーム社,2001年発行,14頁参照)。同様に離散コサイン変換手段18Aは非周期成パワーベクトルを離散コサイン変換する(ステップS8)。例えば24帯域分の帯域通過フィルタ11bを用いた場合、WPbおよびWAbはそれぞれ24通り算出される。これらをそれぞれ対応する帯域通過フィルタの中心周波数順に整列し、それぞれ24次元のベクトルとして扱う。その各ベクトルに対し、離散コサイン変換を例えば下記の式に従って行う。
【0010】
【数1】
ここで、pjは対応する帯域通過フィルタの中心周波数順に整列されたWPbまたはWAbによって構成されるB次元ベクトルのj番目の要素(パワー値)を表し、ciは離散コサイン変換後に得られるB次元ベクトルCのi番目の離散コサイン係数を表す。ciはi=1,…,Bのすべてについて求める。離散コサイン変換手段18P及び18Aでは、WPbおよびWAbそれぞれから得られる離散コサイン係数ciPおよびciAを出力とする。
【0011】
ベクトル連結手段19は、離散コサイン変換手段18Pおよび18Aの出力であるWPbおよびWAbに対応するそれぞれN次元の離散コサイン係数ciPおよびciAを入力とし、それぞれの一部または全体を連結して一連のベクトルC=(c1,c2,…,ck)として出力する(ステップS9)。例えばWPbおよびWAbそれぞれの24次元の離散コサイン係数ciPおよびciAが入力とされた場合、それぞれ次数の低い方から12次元の係数を連結して一連の24次元ベクトルとして出力する。この分析方法を用いた場合、雑音下での自動音声認識において所定の頑健性が得られる。
【0012】
音声信号の周期的な成分と非周期的な成分を分離することなく、雑音が定常であると仮定し、音声信号の含まれない区間のパワースペクトルを時間平均することで雑音のパワースペクトルを求め、それを音声区間のパワースペクトルから減算することで雑音による加法性歪の影響を補正した音声特徴パラメータを出力する音声信号分析方法(非特許文献2参照)がある。この方法の機能構成を図7に示す。音声信号は音声波形切出部1で分析フレームごとに切出され、各分析フレームごとに離散フーリエ変換部2で離散的フーリエ変換される。そのフーリエ変換結果の離散フーリエ変換係数ベクトルは時間平均手段6で時間平均され、この時間平均ベクトルが、離散フーリエ変換係数ベクトルから減算手段7で減算される。この減算結果は、三角窓フィルタ31,…,3Lによりメル周波数軸上で、等間隔かつ両隣接帯域の中心に達する三角窓が掛けられたL個の帯域に分割される。これらL個の帯域スペクトルはパワー算出部41,…,4Lでそれぞれパワーが計算され、これらL個のパワーがパワーベクトル化部8で対応フィルタの中心周波数の低い順に並べられたパワーベクトルとして離散コサイン変換部5で離散コサイン変換され、特徴パラメータとして出力される。
【非特許文献1】Kentaro Ishizuka,Noboru Miyazaki,“Speech feature extraction method representing periodicity and aperiodicity in sub bands for robust speech recognition ,”Proceedings of the 29th International Conference on Acoustics, Speech,and Signal Processing,Vol.1,pp.141-144,2004.
【非特許文献2】Xuedong Huang,Alex Acero,Hsiao-Wuen Hon,“Spoken Language Processing,” Prentice-Hall,2001.516〜519頁
【発明の開示】
【発明が解決しようとする課題】
【0013】
非特許文献1に示す方法は、雑音が極めて強い場合に発生する強い加法性歪に対しては、音声の特徴を十分表わした特徴パラメータを抽出できず、十分な認識精度が得られない。
一方、非特許文献2に示す方法は、雑音のパワースペクトル(パワー値ベクトル)長時間平均が一定に近づくことを前提とするものであるが、特徴パラメータの抽出にパワースペクトルの形状を利用するものであり、全体として処理しているため、パワースペクトルの一部の急激な変動などの影響を受け易く、音声特徴を十分表わした特徴パラメータを抽出することができず、高い認識精度が得られない。
【0014】
音声信号のみならず、音楽信号など、周期性成分を含む信号の特徴を表わすパラメータの抽出においても同様の問題がある。よってこの明細書では音声信号、音楽信号などをオーディオ信号という。
【課題を解決するための手段】
【0015】
この発明によればオーディオ信号を複数の帯域に分割し、これら各分割された帯域信号をそれぞれ周期成分と非周期成分に分離し、これら帯域の周期成分を要素とする周期成分ベクトル及び非周期成分を要素とする非周期成分ベクトルをそれぞれ時間平均し、これら時間平均周期成分ベクトル及び時間平均非周期成分ベクトルをそれぞれ周期成分ベクトル及び非周期成分ベクトルから減算し、これら減算結果又はその離散コサイン変換係数をベクトル連結して特徴パラメータとする。
【発明の効果】
【0016】
このようにこの発明によれば帯域分割しかつ周期成分と、非周期成分とを分離して時間平均をとっているため、時間的又は要素的に一部は雑音パワー値の長時間平均が正しいものとなり、それだけオーディオ信号の特徴をよく表現する特徴パラメータが得られる。
【発明を実施するための最良の形態】
【0017】
以下この発明の実施形態を図面を参照して説明するが、図1およびこれから説明する各図中の対応する部分は同一参照番号を付けて重複説明を省略する。また以下の説明ではオーディオ信号として音声信号にこの発明を適用した場合である。
[第1実施形態]
この発明の第1実施形態の機能構成例を図8に、処理手順の例を図9にそれぞれ示す。
入力端子100よりの入力音声信号は信号分析装置10内の帯域通過フィルタバンク11に入力される。この入力音声信号は帯域通過フィルタバンク11で帯域分割され各帯域信号は櫛型フィルタ14にてフィルタ処理され、各帯域信号の周期成分パワー値WPb及び非周期成分パワー値WAbがそれぞれ計算され、更に周期成分パワー値ベクトルWP及び非周期成分パワー値ベクトルWAがそれぞれ得られる構成及び処理手順は図1及び図2に示したものと同様である。
【0018】
この実施形態では区間検出手段19において入力音声信号から音声が含まれていない雑音区間、例えば認識される音声信号の直前の定常的雑音レベルが得られる適当な区間と認識されるべき音声区間とが検出される(ステップS11)。この区間検出手段20aの検出出力により分配手段20P及び20Aがそれぞれ制御され、周期成分パワー値ベクトルWP及び非周期成分パワー値ベクトルWAの各雑音区間は時間平均手段21P及び21Aに、各音声区間は減算手段22P及び22Aにそれぞれ分配供給される(ステップS12)。
【0019】
周期成分パワー値ベクトルWP及び非周期成分パワー値ベクトルWAは時間方向について音声波形切出手段12が切出しを実施する回数、つまり入力された信号区間におけるフレーム(分析区間)の数だけ出力される。音声波形切出手段12における、ある時点(フレーム)τの周期成分パワー値ベクトルWPのb番目のパワー値をWPb(τ)と表す。τは、波形切出手段12によって離散化された時間を表す。例えば、音声波形切出手段12が1秒間の信号区間に対し10msづつ移動しながら30msの長さで入力信号を切出す場合、τは1から97(=(1,000(ms)−30(ms))/10(ms))の値をとる。
【0020】
時間平均手段21Pは入力された周期成分パワー値ベクトルWPを時間平均して周期成分時間平均パワー値ベクトルWPnを出力する(ステップS13)。例えば時間平均手段31Pは雑音区間の周期成分時間平均パワー値ベクトルWPnを次の式の計算により求める。
【0021】
【数2】
βとαは、時間平均を取る範囲を表し、β>αを満たす。α=1で、βがτの最大値なら、全ての雑音区間を利用することになり、それ以外の場合は一部の雑音区間を利用することに相当する。b=1,…,B、Bはフィルタバンク11のフィルタ数である。γk(τ)は係数を加算する際の重みで、例えば1を用いる。この雑音区間の周期成分時間平均パワー値ベクトルWPnb は、全てまたは一部のbについて求める。
【0022】
求めた周期成分時間平均パワー値ベクトルWPnは減算手段22Pに入力され、減算手段22Pは音声区間の周期成分パワー値ベクトルWPsから周期成分時間平均パワー値ベクトルWPnが減算される(ステップS14)。つまり次式が計算される。
NWPb(τ)=WPsb(τ)−φb(τ)・WPn (2)
ここでφb(τ)は減算する際に時間平均パワー値に乗じる重みで、例えば2を用いる。
またはNWPb(τ)が負の値を取らないように、次式を計算する。ここでμは定数で例えば0.1を用いる。
【0023】
WPsb(τ)>(φb(τ)+μ)・WPnの場合、
NWPb(τ)=Wsb(τ)−φb(τ)・WPn (3)
その他の場合 NWPb(τ)=μ・WPn
この減算を全てまたは一部のτ、および全てまたは一部のbについて求める。
同様に非周期成分パワー値ベクトルWAについても時間平均手段21Aにおいて、雑音区間の時間平均、つまり式(1)と同様な計算により非周期成分時間平均パワー値ベクトルWAnが計算され(ステップS13)、減算手段22Aにおいて、音声区間の非周期成分パワー値ベクトルWAsから非周期成分時間平均パワー値ベクトルWAnが減算され、式(2)又は(3)と同様な計算により、NWAb(τ)が全てまたは一部のτ、および全てまたは一部のbについて求められる(ステップS14)。
【0024】
このようにして加法性歪の補正された周期成分パワー値ベクトル及び非周期成分パワー値ベクトルが減算手段22P及び22Aから出力される。
これらは離散コサイン変換手段18P及び18Aでそれぞれ離散コサイン変換される(ステップS15)。この離散コサイン変換は従来技術の項で示したものと同様であり、例えば減算手段22Pよりの減算結果ベクトルに対する変換は次式の計算により行われる。
【0025】
【数3】
cPiは離散コサイン変換後に得られるB次元ベクトルのi番目の離散コサイン係数を表わし、i=1,…,Bである。
離散コサイン変換手段18P及び18Aからの周期成分離散コサイン係数ベクトル及び非周期成分離散コサイン係数ベクトルのそれぞれ一部または全体がベクトル連結手段19で一連のベクトルとして連結され、分析結果(特徴パラメータ)として出力される(ステップS16)。例えば24次元の各周期成分係数ベクトル、非周期成分係数ベクトルからそれぞれ次数の低い方から12次元の係数が連結され、24次元ベクトルとして出力される。
【0026】
なお帯域通過フィルタバンク11中の帯域通過フィルタの数Bは例えば、入力音声信号のサンプリング周波数が8kHzの場合、24個とされ、サンプリング周波数が高くなるに従って帯域通過フィルタの数Bを大きくするのが好ましい。
[変形実施形態]
以下にこの発明の変形例を説明する。図8中に1点鎖線で示すように、離散コサイン変換手段18P及び18Aを省略して、減算手段22P及び20Aの各歪補正された周期成分パワー値ベクトル及び非周期成分パワー値ベクトルをベクトル連結手段19へ直接入力してもよい。この場合は図9中に1点鎖線で示すように、ステップS15が省略され、ステップS14からステップS16へ直ちに移る。
【0027】
上述において、櫛型フィルタ手段14として、周期推定手段13で推定した周期成分と、その整数倍を阻止する阻止型櫛型フィルタを用いたが、推定した周期成分と、その整数倍を通過させる通過型櫛型フィルタを用いてもよい。その場合の処理手順を図10に示す。いままでの説明と同様に入力音声信号は、帯域分割(ステップS1)、各帯域ごとの基本周期推定(ステップS2)の各処理が行われる。その後、各帯域信号ごとに、櫛型フィルタ手段14′(図8中の括弧書、以下同様)の各フィルタ部141′,…,14B′で対応帯域の推定周期成分とその整数倍成分とのみが通過選出される(ステップS21)。これら選出された各帯域ごとの基本周期成分と、その整数倍成分とのパワー、つまり周期成分パワーWPb(b=1,…,B)が、パワー計算手段15Pの計算部15Pbでそれぞれ計算され(ステップS22)、また各帯域信号のパワーWFbがパワー計算手段15Fの各計算部15Fbで計算される(ステップS23)。減算手段16の各減算部16bにおいて計算部15Fbの出力パワーWFbから、計算部15Pbからの出力パワーWPbが減算されて帯域ごとの非周期成分パワーWAbが求められる(ステップS43)。減算手段16よりの非周期成分パワー値が非周期成分パワーベクトル化手段20Aでベクトル化され、またパワー計算手段15Pよりの周期成分パワー値が周期成分パワーベクトル化手段20Pでベクトル化される(ステップS7)。これより後の処理は先に述べた各実施形態と同様である。この場合も、図8中に一点鎖線で示すように、離散コサイン変換を行うことなく得られた周期成分パワー値ベクトルと非周期成分パワー値ベクトルとをベクトル連結手段18でベクトル連結してもよい。
[第2実施形態]
第2実施形態は第1実施形態、変形実施形態のいずれかにより入力音声信号を分析して音声認識を行う装置および方法の実施形態である。第2実施形態の機能構成例を図11に、処理手順を図12にそれぞれ示す。この例ではこの音声認識装置60の入力端子200に学習音声データが入力され(ステップS51)、学習処理がされる。つまりこの学習音声データは信号分析部62で分析され、特徴パラメータが抽出される(ステップS52)。入力端子200に入力される学習音声データや認識されるべき音声信号は所定のサンプリング周波数でサンプリングされ、ディジタル値とされた信号系列である。信号分析部62は第1実施形態、変形実施形態のいずれかと同様な信号分析装置であり、学習音声データの特徴パラメータが信号分析部62から出力される。
【0028】
この学習音声特徴パラメータはパターン(学習)識別部64に入力され、パターン(学習)識別部64は学習音声特徴パラメータから標準パターンを生成して標準パターン記憶部66に格納する(ステップS53)。標準パターンは例えばHMM(隠れマルコフモデル)であり、状態数及び分布数とその各音素ごとの遷移確率、出現確率などのパラメータである。
次に入力端子200に認識されるべき音声信号が入力され(ステップS54)、その入力音声信号は信号分析部62で特徴パラメータが抽出される(ステップS55)。
【0029】
この特徴パラメータはパターン(学習)識別部64で、標準パターン記憶部66に予め格納されている標準パターンと比較され、最も類似度が高い標準パターンと対応する、音素、単語などを表わすデータが出力される(ステップS56)。なおこの学習及び認識の具体的処理は例えば北研二他2名著「音声言語処理」森北出版株式会社、1996年発行37〜43頁を参照されたい。
この例ではまず学習音声データによる標準パターンの学習を行ったが、信号分析部62で抽出される特徴パラメータと同一種類の特徴パラメータによりあらかじめ生成された標準パターンが格納された標準パターン記憶部66を用い、つまり図20において、ステップS51〜ステップS53を省略し、入力された音声信号の認識のみを行うものでもよい。その場合はパターン識別部64は認識処理のみを行う。
【0030】
また標準パターンを生成する学習音声データは、被認識音声が収音される環境雑音と同様な環境雑音が重畳されたものが好ましく、学習音声データから特徴パラメータを抽出する信号分析部としては、被認識入力音声信号より特徴パラメータを抽出する信号分析部と同一または同様のものがよい。
第1実施形態および変形実施形態の各オーディオ信号分析装置、第2実施形態の音声認識装置はいずれも、コンピュータにより機能させることができる。コンピュータに、例えば図8に示したオーディオ信号分析装置としてコンピュータを機能させるためのプログラムを磁気ディスク、CD−ROM、半導体記憶装置などの記録媒体からインストールし、または通信回線を介してダウンロードし、そのプログラムをそのコンピュータに実行させればよい。なおコンピュータを分析装置あるいは認識装置として機能させる場合はその対象信号を一旦コンピュータ内の記憶装置に取り込んだ後、処理することになる。
[実験例]
以下にこの発明の効果を示すために、この発明による音声信号分析方法によって得られた音声特徴パラメータを用いた音声認識装置と、[従来の技術]項に記載の非特許文献1に示す音声認識装置(単に従来装置という)の、雑音下での数字認識における音声認識精度を比較したのちに行った実験を説明する。
【0031】
この実験は第1実施形態の効果を明らかにするためであり、この実験には、(社)情報処理学会 音声言語情報処理研究会 雑音下音声認識評価ワーキンググループ 雑音下音声認識評価環境(AURORA−2J)を利用した。この第1実施形態の装置および従来装置とも24チャネルのガンマトーンフィルタバンクをフィルタバンク11として用い音声波形切出手段12での音声波形の切出しは25ms長で10msごとに行い、周期成分パワーWPbおよび非周期成分パワーWAbに対応する離散コサイン変換後の係数ベクトルはそれぞれ12次元、他に入力信号全体のパワーを表すパワー値、あわせて25次元のベクトルを特徴ベクトルとして用い、その動的特徴であるΔパラメータとΔΔパラメータを、ΔMFCC,ΔΔMFCC,Δパワー,ΔΔパワーを求める方法(鹿野他2名著“音声認識システム”,オーム社,2001年発行、13頁参照)と同様にして求め、その結果75次元のベクトルを特徴パラメータとして用いた。
【0032】
この第1実施形態の装置での加法性歪の補正は、発話データ冒頭の100msの雑音のみが含まれる音声区間の時間平均パワー値を利用して、発話データ全体のパワー値ベクトルを補正した。
パターン(学習)識別部64での学習処理には16状態24ガウス分布混合の数字HMMを用い、前記AURORA−2Jに付属する学習音声データ中の8,440発話の雑音が混入した数字読み上げ学習音声データとHMM学習用スクリプト(学習プログラム)とを用いHMM学習を行った。また、同様にAURORA−2Jに付属する評価データにおいて雑音下での数字読み上げ音声のうち強い加法性歪を伴う自動車中雑音が音声と同じパワーで重畳されている評価データ(信号対雑音比0dB、1,001発話)を用い雑音下での数字認識精度の評価を行った。
【0033】
各認識精度の結果を図13に示す。図13に示されたとおり、第1実施形態による加法性歪を補正する音声信号分析方法を用いた場合の音声認識装置の認識精度が従来装置の認識精度よりも10%近く向上し、第1実施形態の手法が効果的に頑健性を高くすることが明らかにされた。
従来との差の理由
図7に示した従来手法においては、離散フーリエ変換の結果得られる、パワースペクトルの時間平均を入力音声信号から減算することにより、雑音の影響をまず軽減した後に、各三角窓のパワー演算、ならびにその音声特徴パラメータへの変換を行っている。これは雑音のパワースペクトル長時間平均が一定に近づくことを前提としている。
【0034】
それに対し、図1に示した従来手法においてパワーベクトル化手段17P,17Aで得られるパワー値ベクトルは、パワースペクトルと異なったものであり、加えて音声信号が周期性成分と非周期性成分に分割されているため、雑音のパワー値ベクトルの長時間平均が一定に近づく保証はなく、そのパワー値ベクトルの減算によって雑音の影響を軽減することは通常は考えられない。
しかし、周期成分と非周期成分とに分離して、各帯域ごとにパワー値を求める場合においても、bやτの一部についてみれば雑音のパワー値ベクトルの長時間平均が一定値に近づくことに注目して、この発明を完成したものである。つまり、図8にしめした第1実施形態の装置においては減算手段22P、22Aでは雑音のパワー値ベクトルが長時間平均で一定の値に近づく性質を持つものに限ることができ、τ及びbについて一部のパワー値ベクトルのみについての減算を行うことにより、加法性歪の影響を効果的に補正することができる。
【0035】
前記実験では、b、τの一部ではなく、全てに対して歪補正をしているが、この発明方法が優れている結果となっている。これは前記雑音パワー値ベクトルの一部に基づく歪補正が大きく影響しているためと思われ、長時間平均がほぼ一定値になる部分のみについて歪補正をすればより大きな効果が得られると思われる。
【図面の簡単な説明】
【0036】
【図1】非特許文献1の技術を説明するための音声信号分析装置の機能構成を示すブロック図。
【図2】図1に示した装置の処理手順を示す流れ図。
【図3】ガンマトーンフィルタバンクの周波数特性の例を示す図。
【図4】Aは入力音声波形例を、Bは3つのガンマトーンフィルタの特性例を、Cはその各フィルタの出力信号をそれぞれ示す図である。
【図5】Aは切り出された音声波形例を、Bはその自己相関関数をそれぞれ示す図である。
【図6】Aは3つの櫛型フィルタの入力信号例を、Bは上記櫛型フィルタの周波数特性例を、Cはその各出力信号の例をそれぞれ示す図である。
【図7】非特許文献2の技術を説明するための音声信号分析装置の機能構成を示すブロック図。
【図8】第1実施形態の装置の機能構成例を示すブロック図。
【図9】第1実施形態の分析方法の手順例を示す流れ図。
【図10】第1実施形態の方法における変形例を示す流れ図。
【図11】第2実施形態の特色の機能構成例を示すブロック図。
【図12】第2実施形態の方法の処理手順例を示す流れ図。
【図13】実験結果を示すグラフ。
【特許請求の範囲】
【請求項1】
入力オーディオ信号をフィルタ処理して複数の帯域信号に分割する帯域通過フィルタバンクと、
上記各帯域信号に含まれる基本周期を推定する基本周期推定部と、
上記各基本周期がそれぞれ設定され、その各帯域信号を阻止及び通過の一方のフィルタ処理をしてその帯域信号に含まれる周期成分及び非周期成分の対応する一方を出力する櫛型フィルタと、
各帯域の周期成分及び非周期成分の上記一方のパワーを計算する第1パワー計算手段と、
上記各帯域信号のパワーを計算する第2パワー計算手段と、
上記第2パワー計算部の出力パワー値から上記第1パワー計算部の出力パワー値を減算して上記各帯域の周期成分及び非周期成分の他方を出力する減算手段と、
上記各帯域の周期成分パワー値及び上記各帯域の非周期成分パワー値をそれぞれベクトル化する第1及び第2ベクトル化手段と、
上記オーディオ信号が含まれない区間の上記周期成分パワー値ベクトルの少くとも一部を時間平均して周期成分時間平均パワー値ベクトルを計算する第1時間平均手段と、
上記周期成分パワー値ベクトルの上記少くとも一部から上記周期成分時間平均パワー値ベクトルの対応するものを減算する第2減算手段と、
上記オーディオ信号が含まれない区間の上記非周期成分パワー値ベクトルの少くとも一部を時間平均して非周期成分時間平均パワー値ベクトルを計算する第2時間平均手段と、
上記非周期成分パワー値ベクトルの上記少くとも一部から上記非周期成分時間平均パワー値ベクトルの対応するものを減算する第3減算手段と、
上記第2減算手段の減算結果と上記第3減算手段の減算結果をベクトル連結して分析結果として出力するベクトル連結手段と
を具備するオーディオ信号分析装置。
【請求項2】
請求項1記載の装置において、
上記第2減算手段と上記ベクトル連結手段との間に挿入され、上記第2減算手段の減算結果を離散コサイン変換して離散コサイン係数ベクトルとして上記ベクトル連結手段へ出力する第1離散コサイン変換手段と、
上記第3減算手段と上記ベクトル連結手段との間に挿入され、上記第3減算手段の減算結果を離散コサイン変換して離散コサイン係数ベクトルとして上記ベクトル連結手段へ出力する第2離散コサイン変換手段とを具備することを特徴とするオーディオ信号分析装置。
【請求項3】
入力オーディオ信号をフィルタ処理して複数の帯域信号に分割する第1過程と、
上記各帯域信号に含まれる基本周期を推定する第2過程と、
上記各帯域信号をその上記推定した基本周期に基づき櫛型フィルタ処理してその帯域信号に含まれる周期成分及び非周期成分の一方を得る第3過程と、
各帯域の周期成分及び非周期成分の上記一方のパワー値及び上記各帯域信号のパワー値をそれぞれ計算する第4過程と、
上記各帯域信号のパワー値から上記一方のパワー値を減算して上記各帯域の周期成分及び非周期成分の他方のパワー値を求める第5過程と、
上記各帯域の周期成分パワー値及び上記各帯域の非周期成分パワー値をそれぞれベクトル化する第6過程と、
上記オーディオ信号が含まれない区間の上記周期成分パワー値ベクトルの少くとも一部及び上記非周期成分パワー値ベクトルの少くとも一部をそれぞれ時間平均して周期成分時間平均パワー値ベクトル及び非周期成分時間平均パワー値ベクトルを求める第7過程と、
上記周期成分パワー値ベクトルの上記少くとも一部及び上記非周期成分パワー値ベクトルの上記少くとも一部から上記周期成分時間平均パワー値ベクトルの対応するもの及び上記非周期成分時間平均パワー値ベクトルの対応するものを減算する第8過程と、
上記第8過程の減算結果をベクトル連結して分析結果とする第9過程と
を有するオーディオ信号分析方法。
【請求項4】
請求項3記載の方法において、
上記第9過程のベクトル連結は、
上記第8過程における上記周期成分パワー値ベクトルの減算結果及び上記非周期成分パワー値ベクトルの減算結果をそれぞれ離散コサイン変換し、これら変換結果の離散コサイン係数ベクトルをベクトル連結する過程であることを特徴とするオーディオ信号分析方法。
【請求項5】
請求項1又は2に記載のオーディオ信号分析装置としてコンピュータを機能させるためのプログラム。
【請求項6】
請求項5記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
【請求項1】
入力オーディオ信号をフィルタ処理して複数の帯域信号に分割する帯域通過フィルタバンクと、
上記各帯域信号に含まれる基本周期を推定する基本周期推定部と、
上記各基本周期がそれぞれ設定され、その各帯域信号を阻止及び通過の一方のフィルタ処理をしてその帯域信号に含まれる周期成分及び非周期成分の対応する一方を出力する櫛型フィルタと、
各帯域の周期成分及び非周期成分の上記一方のパワーを計算する第1パワー計算手段と、
上記各帯域信号のパワーを計算する第2パワー計算手段と、
上記第2パワー計算部の出力パワー値から上記第1パワー計算部の出力パワー値を減算して上記各帯域の周期成分及び非周期成分の他方を出力する減算手段と、
上記各帯域の周期成分パワー値及び上記各帯域の非周期成分パワー値をそれぞれベクトル化する第1及び第2ベクトル化手段と、
上記オーディオ信号が含まれない区間の上記周期成分パワー値ベクトルの少くとも一部を時間平均して周期成分時間平均パワー値ベクトルを計算する第1時間平均手段と、
上記周期成分パワー値ベクトルの上記少くとも一部から上記周期成分時間平均パワー値ベクトルの対応するものを減算する第2減算手段と、
上記オーディオ信号が含まれない区間の上記非周期成分パワー値ベクトルの少くとも一部を時間平均して非周期成分時間平均パワー値ベクトルを計算する第2時間平均手段と、
上記非周期成分パワー値ベクトルの上記少くとも一部から上記非周期成分時間平均パワー値ベクトルの対応するものを減算する第3減算手段と、
上記第2減算手段の減算結果と上記第3減算手段の減算結果をベクトル連結して分析結果として出力するベクトル連結手段と
を具備するオーディオ信号分析装置。
【請求項2】
請求項1記載の装置において、
上記第2減算手段と上記ベクトル連結手段との間に挿入され、上記第2減算手段の減算結果を離散コサイン変換して離散コサイン係数ベクトルとして上記ベクトル連結手段へ出力する第1離散コサイン変換手段と、
上記第3減算手段と上記ベクトル連結手段との間に挿入され、上記第3減算手段の減算結果を離散コサイン変換して離散コサイン係数ベクトルとして上記ベクトル連結手段へ出力する第2離散コサイン変換手段とを具備することを特徴とするオーディオ信号分析装置。
【請求項3】
入力オーディオ信号をフィルタ処理して複数の帯域信号に分割する第1過程と、
上記各帯域信号に含まれる基本周期を推定する第2過程と、
上記各帯域信号をその上記推定した基本周期に基づき櫛型フィルタ処理してその帯域信号に含まれる周期成分及び非周期成分の一方を得る第3過程と、
各帯域の周期成分及び非周期成分の上記一方のパワー値及び上記各帯域信号のパワー値をそれぞれ計算する第4過程と、
上記各帯域信号のパワー値から上記一方のパワー値を減算して上記各帯域の周期成分及び非周期成分の他方のパワー値を求める第5過程と、
上記各帯域の周期成分パワー値及び上記各帯域の非周期成分パワー値をそれぞれベクトル化する第6過程と、
上記オーディオ信号が含まれない区間の上記周期成分パワー値ベクトルの少くとも一部及び上記非周期成分パワー値ベクトルの少くとも一部をそれぞれ時間平均して周期成分時間平均パワー値ベクトル及び非周期成分時間平均パワー値ベクトルを求める第7過程と、
上記周期成分パワー値ベクトルの上記少くとも一部及び上記非周期成分パワー値ベクトルの上記少くとも一部から上記周期成分時間平均パワー値ベクトルの対応するもの及び上記非周期成分時間平均パワー値ベクトルの対応するものを減算する第8過程と、
上記第8過程の減算結果をベクトル連結して分析結果とする第9過程と
を有するオーディオ信号分析方法。
【請求項4】
請求項3記載の方法において、
上記第9過程のベクトル連結は、
上記第8過程における上記周期成分パワー値ベクトルの減算結果及び上記非周期成分パワー値ベクトルの減算結果をそれぞれ離散コサイン変換し、これら変換結果の離散コサイン係数ベクトルをベクトル連結する過程であることを特徴とするオーディオ信号分析方法。
【請求項5】
請求項1又は2に記載のオーディオ信号分析装置としてコンピュータを機能させるためのプログラム。
【請求項6】
請求項5記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【公開番号】特開2006−84665(P2006−84665A)
【公開日】平成18年3月30日(2006.3.30)
【国際特許分類】
【出願番号】特願2004−268194(P2004−268194)
【出願日】平成16年9月15日(2004.9.15)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】
【公開日】平成18年3月30日(2006.3.30)
【国際特許分類】
【出願日】平成16年9月15日(2004.9.15)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】
[ Back to top ]