オーディオ信号分析方法、その方法を用いた音声認識方法、それらの装置、プログラムおよびその記録媒体

【課題】加法性歪の影響を抑圧する。
【解決手段】音声信号をフィルタバンク１１により複数の帯域信号に分割し、各帯域信号の非周期成分パワー（１３，１４，１５Ａ）と、周期成分パワー（１５Ｆ，１６）とを求め、周期成分、非周期成分パワーの各雑音区間をそれぞれ時間平均手段２１Ｐ，２１Ａで長時間平均し、これら周期成分，非周期成分長時間平均で、周期成分，非周期成分パワーをそれぞれ減算し、これら周期成分，非周期成分の減算結果をそれぞれ離散コサイン変換し（１８Ｐ，１８Ａ）、周期成分，非周期成分離散コサイン係数の各時間的又は／及び次数番的に少なくとも一部をベクトル連結して特徴パラメータとする。

【発明の詳細な説明】
【技術分野】
【０００１】
この発明は、音声信号や音楽信号などのオーディオ信号の特徴表現を抽出するオーディオ信号分析方法、その方法を用いた音声認識方法、それらの装置、プログラムおよびその記録媒体に関する。
【背景技術】
【０００２】
自動音声認識装置においては、音声特徴表現抽出のための音声信号分析が行われる。頑健性の高い、つまり雑音に影響され難い音声特徴抽出法として、音声信号の周期的な成分と非周期的な成分を分離してそれらを連結して出力する音声信号分析方法がある（非特許文献１参照）。この音声信号分析方法のこの従来の音声信号分析方法を実行する装置の機能構成例を図１に、その処理手順を図２にそれぞれ示す。この音声信号分析装置１０は帯域通過フィルタバンク１１と、音声波形切出手段１２と、周期推定手段１３と、櫛型フィルタ手段１４と、パワー算出手段１５Ｆ及び１５Ａと、減算手段１６と、離散コサイン変換手段１８Ｐ及び１８Ａと、ベクトル連結手段１８とを備える。
【０００３】
入力端子１００より音声信号分析装置１０へ入力される音声信号は、例えば１６，０００Ｈｚのサンプリングレートでサンプリングされ、その各サンプルがデジタル値に変換された離散音声信号である。
帯域通過フィルタバンク１１では、複数の帯域通過デジタルフィルタ１１_１，…，１１_Ｂを用いて、入力された離散音声信号を帯域分割して出力する（ステップＳ１）。ここで用いられる帯域通過フィルタバンク１１は、例えば聴知覚の特性に基づく、等価矩形帯域幅の大きさに対応した中心周波数を持つガンマトーンフィルタバンクを用いるとよい（M.Slaney,“An Efficient Implementation of the Patterson-Holdsworth Auditory Filter Bank,”Apple Computer Technical Report #35,1993）。このガンマトーンフィルタバンクでは、帯域通過フィルタ１１_ｂ（ｂ＝１，…，Ｂ）であるガンマトーンフィルタを、通過帯域が重なり合うように、かつそれぞれのフィルタの中心周波数が等価矩形帯域幅の大きさ（おおよそ対数スケール）に従うように、例えば２４帯域分用意する。このフィルタバンク１１の各フィルタの周波数特性の例を図３に示す。図３には複数の帯域通過フィルタ１１_１，…，１１₂₄（ガンマトーンフィルタ）の周波数特性が同時に示されている。入力である離散音声信号をフィルタバンク１１中のそれぞれの帯域通過フィルタ１１_１，…，１１_Ｂでフィルタ処理した結果としてフィルタ数Ｂだけの離散信号が帯域通過フィルタバンク１１から出力される。帯域通過フィルタバンク１１の入力信号と出力信号の例として、帯域通過フィルタ１１_ｂとして図３に示した２４個のフィルタ特性のうちの３つの特性をそれぞれもつガンマトーンフィルタを用いた場合を図４に示す。図４Ａは入力離散音声信号の時間的変化を示す波形を示し、図４Ｂは中心周波数がｆ_c1，ｆ_c2及びｆ_c3の帯域通過フィルタ１１_ｂの各周波数特性をそれぞれ示し、図４Ｃはこれら３つの帯域通過フィルタの各出力信号波形をそれぞれ示す。
【０００４】
音声波形切出手段１２は、帯域通過フィルタバンク１１の各帯域通過フィルタ１１_１，…，１１_Ｂの出力信号から例えば時間軸方向に１０ｍｓづつ移動しながら、３０ｍｓの時間長の信号を各切出部１２_１，…，１２_Ｂでそれぞれ切り出す（ステップＳ２）の結果、例えば４８０サンプル点（１６，０００Ｈｚ×３０ｍｓ）の離散信号を１６０サンプル点（１６，０００Ｈｚ×１０ｍｓ）づつ移動しながら切り出した信号が音声波形切出手段１２の切出部１２_１，…，１２_Ｂから出力される。つまり各帯域通過フィルタ１１_１，…，１１_Ｂよりの各帯域信号が分析区間（フレーム）ごとに分割される。
【０００５】
周期推定手段１３は音声波形切出手段１２の各切出部１２_１，…，１２_Ｂよりの出力信号を入力とし、その各分析区間ごとの各出力信号の周期性の周期を周期推定部１３_１，…，１３_Ｂでそれぞれ推定する（ステップＳ３）。この周期性の推定には例えば基本周波数抽出法の一つである自己相関法（W.Hess,“Pitch determination of speech signals,”Springer-Verlag,New York,1983）を用いる。自己相関法では、まず入力信号の自己相関関数係数を求める。入力信号の全サンプル点数（１分析区間のサンプル点数）をＮ、ｊ番目のサンプル点の信号の振幅をｓ_ｊとすると、入力信号の自己相関関数係数ａｃ_ｉは以下の式に従って求まる。
【０００６】
ａｃ_ｉ＝（１／Ｎ）Σ_j=1^N-1-iｓ_ｊｓ_i+j ，ｉ＝１，…，Ｎ
図５Ａに入力信号波形の例を、図５Ｂにこの自己相関関数係数をそれぞれ示す。次に、この自己相関関数係数におけるｉの一定の探索範囲内、例えば８０≦ｉ≦２００（サンプリング周波数１６，０００Ｈｚの場合の８０Ｈｚから２００Ｈｚの周期に該当）の範囲内においてａｃ_ｉが最大となるｉを検出する。その結果得られたｉをｎとする。このｎは入力信号の探索範囲において最も支配的な周期性成分の周期長を表し、入力信号が単一の完全な周期信号（例えば正弦波）の場合にはその周期長に相当する値になる。周期推定手段１３の各周期推定部１３_１，…，１３_Ｂから各推定周期ｎが出力される。
【０００７】
櫛型フィルタ手段１４は周期推定手段１３で得られた周期に基づいた離散櫛型フィルタを設定し、音声波形切出手段１２の出力信号をフィルタ処理する（ステップＳ４）。ここで用いる離散櫛型フィルタの周波数特性は、例えば周期推定手段１３の出力周期ｎに対し、ｚ領域表現で次式とされる。
Ｈ（ｚ）＝１−ｚ^-n
音声波形切出手段１２の出力信号をこの離散櫛型フィルタによってフィルタ処理することで得られる出力信号は、その櫛型フィルタの周波数特性における零点に相当する部分（基本周波数成分とその整数倍の周波数成分）のパワーが抑圧された離散信号となる。各周期推定部１３_ｂ（ｂ＝１，…，Ｂ）で推定された周期ｎは櫛型フィルタ手段１４の対応するフィルタ部１４ｂに設定され、各切出部１２_ｂよりの分析区間ごとの帯域離散音声信号が対応するフィルタ部１４_ｂに入力される。図４に示した帯域通過周波数特性中から選んだ３個と帯域通過フィルタの出力信号を音声波形切出手段１２によりそれぞれ切り出した信号波形例を図６Ａに、これら信号からそれぞれ推定された周期に設定された離散櫛型フィルタのそれぞれの周波数特性を図６Ｂに、その各フィルタ処理された各出力信号を図６Ｃにそれぞれ示す。
【０００８】
パワー算出手段１５Ｆの各計算部１５Ｆ_ｂは音声波形切出手段１２の各切出部１２_ｂにより出力信号のパワーを計算し、パワー算出手段１５Ａの各計算部１５Ａ_ｂは櫛型フィルタ手段１４の各フィルタ部１４_ｂの出力信号のパワーを計算する（ステップＳ５）。各計算部１５Ｆ_ｂ及び１５Ａ_ｂでのパワーの計算Ｗは例えば次式に示す二乗和を行う。ここで、ｓ_ｊは入力離散信号のサンプル点ｊにおける振幅を、Ｎは入力信号の全サンプル点数をそれぞれ表す。
Ｗ＝Σ_j=1^Nｓ_j²
減算手段１６の各減算部１６_ｂでは、パワー算出手段１５Ｆの各計算部１５Ｆ_ｂの出力パワー値、つまり音声波形切出手段１２の切出部１２_ｂの出力信号のパワー値ＷＰ_ｂから、対応するパワー算出手段１５Ａの計算部１５Ａ_ｂの出力パワー値、つまり切出部１２_ｂの出力に対応する櫛型フィルタ手段１４のフィルタ部１４_ｂの出力信号から算出されたパワー値ＷＡ_ｂを減算する（ステップＳ６）。この結果、各減算部１６_ｂから櫛型フィルタ手段１４の各フィルタ部１４_ｂによって抑圧された周波数成分のパワー値（power_sp）、すなわち各帯域離散音声信号の周期成分パワー値ＷＰ_ｂを求めることができる。この減算操作を次式に示す。
【０００９】
ＷＰ_ｂ＝ＷＦ_ｂ−ＷＡ_ｂ
周期成分パワーベクトル化手段１７Ｐは各周期成分パワーＷＰ_ｂが入力され、これらをその対応帯域通過フィルタ１１_ｂ（ｂ＝１，…，Ｂ）の中心周波数順に整列したベクトルとし、非周期成分パワーベクトル化手段１７Ａは同様に各非周期成分パワーＷＡ_ｂをベクトルとする（ステップＳ７）。離散コサイン変換手段１８Ｐでは、周期成分パワーベクトルに対しその対数値を取って離散コサイン変換を行う（この離散コサイン変換については例えば鹿野他２名著、“音声認識システム”、オーム社，２００１年発行，１４頁参照）。同様に離散コサイン変換手段１８Ａは非周期成パワーベクトルを離散コサイン変換する（ステップＳ８）。例えば２４帯域分の帯域通過フィルタ１１_ｂを用いた場合、ＷＰ_ｂおよびＷＡ_ｂはそれぞれ２４通り算出される。これらをそれぞれ対応する帯域通過フィルタの中心周波数順に整列し、それぞれ２４次元のベクトルとして扱う。その各ベクトルに対し、離散コサイン変換を例えば下記の式に従って行う。
【００１０】
【数１】

ここで、ｐ_ｊは対応する帯域通過フィルタの中心周波数順に整列されたＷＰ_ｂまたはＷＡ_ｂによって構成されるＢ次元ベクトルのｊ番目の要素（パワー値）を表し、ｃ_ｉは離散コサイン変換後に得られるＢ次元ベクトルＣのｉ番目の離散コサイン係数を表す。ｃ_ｉはｉ＝１，…，Ｂのすべてについて求める。離散コサイン変換手段１８Ｐ及び１８Ａでは、ＷＰ_ｂおよびＷＡ_ｂそれぞれから得られる離散コサイン係数ｃ_iPおよびｃ_iAを出力とする。
【００１１】
ベクトル連結手段１９は、離散コサイン変換手段１８Ｐおよび１８Ａの出力であるＷＰ_ｂおよびＷＡ_ｂに対応するそれぞれＮ次元の離散コサイン係数ｃ_iPおよびｃ_iAを入力とし、それぞれの一部または全体を連結して一連のベクトルＣ＝（ｃ_１，ｃ_２，…，ｃ_ｋ）として出力する（ステップＳ９）。例えばＷＰ_ｂおよびＷＡ_ｂそれぞれの２４次元の離散コサイン係数ｃ_iPおよびｃ_iAが入力とされた場合、それぞれ次数の低い方から１２次元の係数を連結して一連の２４次元ベクトルとして出力する。この分析方法を用いた場合、雑音下での自動音声認識において所定の頑健性が得られる。
【００１２】
音声信号の周期的な成分と非周期的な成分を分離することなく、雑音が定常であると仮定し、音声信号の含まれない区間のパワースペクトルを時間平均することで雑音のパワースペクトルを求め、それを音声区間のパワースペクトルから減算することで雑音による加法性歪の影響を補正した音声特徴パラメータを出力する音声信号分析方法（非特許文献２参照）がある。この方法の機能構成を図７に示す。音声信号は音声波形切出部１で分析フレームごとに切出され、各分析フレームごとに離散フーリエ変換部２で離散的フーリエ変換される。そのフーリエ変換結果の離散フーリエ変換係数ベクトルは時間平均手段６で時間平均され、この時間平均ベクトルが、離散フーリエ変換係数ベクトルから減算手段７で減算される。この減算結果は、三角窓フィルタ３_１，…，３_Ｌによりメル周波数軸上で、等間隔かつ両隣接帯域の中心に達する三角窓が掛けられたＬ個の帯域に分割される。これらＬ個の帯域スペクトルはパワー算出部４_１，…，４_Ｌでそれぞれパワーが計算され、これらＬ個のパワーがパワーベクトル化部８で対応フィルタの中心周波数の低い順に並べられたパワーベクトルとして離散コサイン変換部５で離散コサイン変換され、特徴パラメータとして出力される。
【非特許文献１】Kentaro Ishizuka,Noboru Miyazaki,“Speech feature extraction method representing periodicity and aperiodicity in sub bands for robust speech recognition ,”Proceedings of the 29th International Conference on Acoustics, Speech,and Signal Processing,Vol.1,pp.141-144,2004.
【非特許文献２】Xuedong Huang,Alex Acero,Hsiao-Wuen Hon,“Spoken Language Processing,” Prentice-Hall,2001.516〜519頁
【発明の開示】
【発明が解決しようとする課題】
【００１３】
非特許文献１に示す方法は、雑音が極めて強い場合に発生する強い加法性歪に対しては、音声の特徴を十分表わした特徴パラメータを抽出できず、十分な認識精度が得られない。
一方、非特許文献２に示す方法は、雑音のパワースペクトル（パワー値ベクトル）長時間平均が一定に近づくことを前提とするものであるが、特徴パラメータの抽出にパワースペクトルの形状を利用するものであり、全体として処理しているため、パワースペクトルの一部の急激な変動などの影響を受け易く、音声特徴を十分表わした特徴パラメータを抽出することができず、高い認識精度が得られない。
【００１４】
音声信号のみならず、音楽信号など、周期性成分を含む信号の特徴を表わすパラメータの抽出においても同様の問題がある。よってこの明細書では音声信号、音楽信号などをオーディオ信号という。
【課題を解決するための手段】
【００１５】
この発明によればオーディオ信号を複数の帯域に分割し、これら各分割された帯域信号をそれぞれ周期成分と非周期成分に分離し、これら帯域の周期成分を要素とする周期成分ベクトル及び非周期成分を要素とする非周期成分ベクトルをそれぞれ時間平均し、これら時間平均周期成分ベクトル及び時間平均非周期成分ベクトルをそれぞれ周期成分ベクトル及び非周期成分ベクトルから減算し、これら減算結果又はその離散コサイン変換係数をベクトル連結して特徴パラメータとする。
【発明の効果】
【００１６】
このようにこの発明によれば帯域分割しかつ周期成分と、非周期成分とを分離して時間平均をとっているため、時間的又は要素的に一部は雑音パワー値の長時間平均が正しいものとなり、それだけオーディオ信号の特徴をよく表現する特徴パラメータが得られる。
【発明を実施するための最良の形態】
【００１７】
以下この発明の実施形態を図面を参照して説明するが、図１およびこれから説明する各図中の対応する部分は同一参照番号を付けて重複説明を省略する。また以下の説明ではオーディオ信号として音声信号にこの発明を適用した場合である。
［第１実施形態］
この発明の第１実施形態の機能構成例を図８に、処理手順の例を図９にそれぞれ示す。
入力端子１００よりの入力音声信号は信号分析装置１０内の帯域通過フィルタバンク１１に入力される。この入力音声信号は帯域通過フィルタバンク１１で帯域分割され各帯域信号は櫛型フィルタ１４にてフィルタ処理され、各帯域信号の周期成分パワー値ＷＰ_ｂ及び非周期成分パワー値ＷＡ_ｂがそれぞれ計算され、更に周期成分パワー値ベクトルＷＰ及び非周期成分パワー値ベクトルＷＡがそれぞれ得られる構成及び処理手順は図１及び図２に示したものと同様である。
【００１８】
この実施形態では区間検出手段１９において入力音声信号から音声が含まれていない雑音区間、例えば認識される音声信号の直前の定常的雑音レベルが得られる適当な区間と認識されるべき音声区間とが検出される（ステップＳ１１）。この区間検出手段２０ａの検出出力により分配手段２０Ｐ及び２０Ａがそれぞれ制御され、周期成分パワー値ベクトルＷＰ及び非周期成分パワー値ベクトルＷＡの各雑音区間は時間平均手段２１Ｐ及び２１Ａに、各音声区間は減算手段２２Ｐ及び２２Ａにそれぞれ分配供給される（ステップＳ１２）。
【００１９】
周期成分パワー値ベクトルＷＰ及び非周期成分パワー値ベクトルＷＡは時間方向について音声波形切出手段１２が切出しを実施する回数、つまり入力された信号区間におけるフレーム（分析区間）の数だけ出力される。音声波形切出手段１２における、ある時点（フレーム）τの周期成分パワー値ベクトルＷＰのｂ番目のパワー値をＷＰ_ｂ（τ）と表す。τは、波形切出手段１２によって離散化された時間を表す。例えば、音声波形切出手段１２が１秒間の信号区間に対し１０ｍｓづつ移動しながら３０ｍｓの長さで入力信号を切出す場合、τは１から９７（＝（１，０００（ｍｓ）−３０（ｍｓ））／１０（ｍｓ））の値をとる。
【００２０】
時間平均手段２１Ｐは入力された周期成分パワー値ベクトルＷＰを時間平均して周期成分時間平均パワー値ベクトルＷＰ_ｎを出力する（ステップＳ１３）。例えば時間平均手段３１Ｐは雑音区間の周期成分時間平均パワー値ベクトルＷＰ_ｎを次の式の計算により求める。
【００２１】
【数２】

βとαは、時間平均を取る範囲を表し、β＞αを満たす。α＝１で、βがτの最大値なら、全ての雑音区間を利用することになり、それ以外の場合は一部の雑音区間を利用することに相当する。ｂ＝１，…，Ｂ、Ｂはフィルタバンク１１のフィルタ数である。γ_ｋ（τ）は係数を加算する際の重みで、例えば１を用いる。この雑音区間の周期成分時間平均パワー値ベクトルＷＰ_nbは、全てまたは一部のｂについて求める。
【００２２】
求めた周期成分時間平均パワー値ベクトルＷＰ_ｎは減算手段２２Ｐに入力され、減算手段２２Ｐは音声区間の周期成分パワー値ベクトルＷＰ_ｓから周期成分時間平均パワー値ベクトルＷＰ_ｎが減算される（ステップＳ１４）。つまり次式が計算される。
ＮＷＰ_ｂ（τ）＝ＷＰ_sb（τ）−φ_ｂ（τ）・ＷＰ_ｎ（２）
ここでφ_ｂ（τ）は減算する際に時間平均パワー値に乗じる重みで、例えば２を用いる。
またはＮＷＰ_ｂ（τ）が負の値を取らないように、次式を計算する。ここでμは定数で例えば０．１を用いる。
【００２３】
ＷＰ_sb（τ）＞（φ_ｂ（τ）＋μ）・ＷＰ_ｎの場合、
ＮＷＰ_ｂ（τ）＝Ｗ_sb（τ）−φ_ｂ（τ）・ＷＰ_ｎ（３）
その他の場合ＮＷＰ_ｂ（τ）＝μ・ＷＰ_ｎ
この減算を全てまたは一部のτ、および全てまたは一部のｂについて求める。
同様に非周期成分パワー値ベクトルＷＡについても時間平均手段２１Ａにおいて、雑音区間の時間平均、つまり式（１）と同様な計算により非周期成分時間平均パワー値ベクトルＷＡ_ｎが計算され（ステップＳ１３）、減算手段２２Ａにおいて、音声区間の非周期成分パワー値ベクトルＷＡ_ｓから非周期成分時間平均パワー値ベクトルＷＡ_ｎが減算され、式（２）又は（３）と同様な計算により、ＮＷＡ_ｂ（τ）が全てまたは一部のτ、および全てまたは一部のｂについて求められる（ステップＳ１４）。
【００２４】
このようにして加法性歪の補正された周期成分パワー値ベクトル及び非周期成分パワー値ベクトルが減算手段２２Ｐ及び２２Ａから出力される。
これらは離散コサイン変換手段１８Ｐ及び１８Ａでそれぞれ離散コサイン変換される（ステップＳ１５）。この離散コサイン変換は従来技術の項で示したものと同様であり、例えば減算手段２２Ｐよりの減算結果ベクトルに対する変換は次式の計算により行われる。
【００２５】
【数３】

ｃ_Piは離散コサイン変換後に得られるＢ次元ベクトルのｉ番目の離散コサイン係数を表わし、ｉ＝１，…，Ｂである。
離散コサイン変換手段１８Ｐ及び１８Ａからの周期成分離散コサイン係数ベクトル及び非周期成分離散コサイン係数ベクトルのそれぞれ一部または全体がベクトル連結手段１９で一連のベクトルとして連結され、分析結果（特徴パラメータ）として出力される（ステップＳ１６）。例えば２４次元の各周期成分係数ベクトル、非周期成分係数ベクトルからそれぞれ次数の低い方から１２次元の係数が連結され、２４次元ベクトルとして出力される。
【００２６】
なお帯域通過フィルタバンク１１中の帯域通過フィルタの数Ｂは例えば、入力音声信号のサンプリング周波数が８ｋＨｚの場合、２４個とされ、サンプリング周波数が高くなるに従って帯域通過フィルタの数Ｂを大きくするのが好ましい。
［変形実施形態］
以下にこの発明の変形例を説明する。図８中に１点鎖線で示すように、離散コサイン変換手段１８Ｐ及び１８Ａを省略して、減算手段２２Ｐ及び２０Ａの各歪補正された周期成分パワー値ベクトル及び非周期成分パワー値ベクトルをベクトル連結手段１９へ直接入力してもよい。この場合は図９中に１点鎖線で示すように、ステップＳ１５が省略され、ステップＳ１４からステップＳ１６へ直ちに移る。
【００２７】
上述において、櫛型フィルタ手段１４として、周期推定手段１３で推定した周期成分と、その整数倍を阻止する阻止型櫛型フィルタを用いたが、推定した周期成分と、その整数倍を通過させる通過型櫛型フィルタを用いてもよい。その場合の処理手順を図１０に示す。いままでの説明と同様に入力音声信号は、帯域分割（ステップＳ１）、各帯域ごとの基本周期推定（ステップＳ２）の各処理が行われる。その後、各帯域信号ごとに、櫛型フィルタ手段１４′（図８中の括弧書、以下同様）の各フィルタ部１４_１′，…，１４_Ｂ′で対応帯域の推定周期成分とその整数倍成分とのみが通過選出される（ステップＳ２１）。これら選出された各帯域ごとの基本周期成分と、その整数倍成分とのパワー、つまり周期成分パワーＷＰ_ｂ（ｂ＝１，…，Ｂ）が、パワー計算手段１５Ｐの計算部１５Ｐ_ｂでそれぞれ計算され（ステップＳ２２）、また各帯域信号のパワーＷＦ_ｂがパワー計算手段１５Ｆの各計算部１５Ｆ_ｂで計算される（ステップＳ２３）。減算手段１６の各減算部１６_ｂにおいて計算部１５Ｆ_ｂの出力パワーＷＦ_ｂから、計算部１５Ｐ_ｂからの出力パワーＷＰ_ｂが減算されて帯域ごとの非周期成分パワーＷＡ_ｂが求められる（ステップＳ４３）。減算手段１６よりの非周期成分パワー値が非周期成分パワーベクトル化手段２０Ａでベクトル化され、またパワー計算手段１５Ｐよりの周期成分パワー値が周期成分パワーベクトル化手段２０Ｐでベクトル化される（ステップＳ７）。これより後の処理は先に述べた各実施形態と同様である。この場合も、図８中に一点鎖線で示すように、離散コサイン変換を行うことなく得られた周期成分パワー値ベクトルと非周期成分パワー値ベクトルとをベクトル連結手段１８でベクトル連結してもよい。
［第２実施形態］
第２実施形態は第１実施形態、変形実施形態のいずれかにより入力音声信号を分析して音声認識を行う装置および方法の実施形態である。第２実施形態の機能構成例を図１１に、処理手順を図１２にそれぞれ示す。この例ではこの音声認識装置６０の入力端子２００に学習音声データが入力され（ステップＳ５１）、学習処理がされる。つまりこの学習音声データは信号分析部６２で分析され、特徴パラメータが抽出される（ステップＳ５２）。入力端子２００に入力される学習音声データや認識されるべき音声信号は所定のサンプリング周波数でサンプリングされ、ディジタル値とされた信号系列である。信号分析部６２は第１実施形態、変形実施形態のいずれかと同様な信号分析装置であり、学習音声データの特徴パラメータが信号分析部６２から出力される。
【００２８】
この学習音声特徴パラメータはパターン（学習）識別部６４に入力され、パターン（学習）識別部６４は学習音声特徴パラメータから標準パターンを生成して標準パターン記憶部６６に格納する（ステップＳ５３）。標準パターンは例えばＨＭＭ（隠れマルコフモデル）であり、状態数及び分布数とその各音素ごとの遷移確率、出現確率などのパラメータである。
次に入力端子２００に認識されるべき音声信号が入力され（ステップＳ５４）、その入力音声信号は信号分析部６２で特徴パラメータが抽出される（ステップＳ５５）。
【００２９】
この特徴パラメータはパターン（学習）識別部６４で、標準パターン記憶部６６に予め格納されている標準パターンと比較され、最も類似度が高い標準パターンと対応する、音素、単語などを表わすデータが出力される（ステップＳ５６）。なおこの学習及び認識の具体的処理は例えば北研二他２名著「音声言語処理」森北出版株式会社、１９９６年発行３７〜４３頁を参照されたい。
この例ではまず学習音声データによる標準パターンの学習を行ったが、信号分析部６２で抽出される特徴パラメータと同一種類の特徴パラメータによりあらかじめ生成された標準パターンが格納された標準パターン記憶部６６を用い、つまり図２０において、ステップＳ５１〜ステップＳ５３を省略し、入力された音声信号の認識のみを行うものでもよい。その場合はパターン識別部６４は認識処理のみを行う。
【００３０】
また標準パターンを生成する学習音声データは、被認識音声が収音される環境雑音と同様な環境雑音が重畳されたものが好ましく、学習音声データから特徴パラメータを抽出する信号分析部としては、被認識入力音声信号より特徴パラメータを抽出する信号分析部と同一または同様のものがよい。
第１実施形態および変形実施形態の各オーディオ信号分析装置、第２実施形態の音声認識装置はいずれも、コンピュータにより機能させることができる。コンピュータに、例えば図８に示したオーディオ信号分析装置としてコンピュータを機能させるためのプログラムを磁気ディスク、ＣＤ−ＲＯＭ、半導体記憶装置などの記録媒体からインストールし、または通信回線を介してダウンロードし、そのプログラムをそのコンピュータに実行させればよい。なおコンピュータを分析装置あるいは認識装置として機能させる場合はその対象信号を一旦コンピュータ内の記憶装置に取り込んだ後、処理することになる。
［実験例］
以下にこの発明の効果を示すために、この発明による音声信号分析方法によって得られた音声特徴パラメータを用いた音声認識装置と、［従来の技術］項に記載の非特許文献１に示す音声認識装置（単に従来装置という）の、雑音下での数字認識における音声認識精度を比較したのちに行った実験を説明する。
【００３１】
この実験は第１実施形態の効果を明らかにするためであり、この実験には、（社）情報処理学会音声言語情報処理研究会雑音下音声認識評価ワーキンググループ雑音下音声認識評価環境（ＡＵＲＯＲＡ−２Ｊ）を利用した。この第１実施形態の装置および従来装置とも２４チャネルのガンマトーンフィルタバンクをフィルタバンク１１として用い音声波形切出手段１２での音声波形の切出しは２５ｍｓ長で１０ｍｓごとに行い、周期成分パワーＷＰ_ｂおよび非周期成分パワーＷＡ_ｂに対応する離散コサイン変換後の係数ベクトルはそれぞれ１２次元、他に入力信号全体のパワーを表すパワー値、あわせて２５次元のベクトルを特徴ベクトルとして用い、その動的特徴であるΔパラメータとΔΔパラメータを、ΔＭＦＣＣ，ΔΔＭＦＣＣ，Δパワー，ΔΔパワーを求める方法（鹿野他２名著“音声認識システム”，オーム社，２００１年発行、１３頁参照）と同様にして求め、その結果７５次元のベクトルを特徴パラメータとして用いた。
【００３２】
この第１実施形態の装置での加法性歪の補正は、発話データ冒頭の１００ｍｓの雑音のみが含まれる音声区間の時間平均パワー値を利用して、発話データ全体のパワー値ベクトルを補正した。
パターン（学習）識別部６４での学習処理には１６状態２４ガウス分布混合の数字ＨＭＭを用い、前記ＡＵＲＯＲＡ−２Ｊに付属する学習音声データ中の８，４４０発話の雑音が混入した数字読み上げ学習音声データとＨＭＭ学習用スクリプト（学習プログラム）とを用いＨＭＭ学習を行った。また、同様にＡＵＲＯＲＡ−２Ｊに付属する評価データにおいて雑音下での数字読み上げ音声のうち強い加法性歪を伴う自動車中雑音が音声と同じパワーで重畳されている評価データ（信号対雑音比０ｄＢ、１，００１発話）を用い雑音下での数字認識精度の評価を行った。
【００３３】
各認識精度の結果を図１３に示す。図１３に示されたとおり、第１実施形態による加法性歪を補正する音声信号分析方法を用いた場合の音声認識装置の認識精度が従来装置の認識精度よりも１０％近く向上し、第１実施形態の手法が効果的に頑健性を高くすることが明らかにされた。
従来との差の理由
図７に示した従来手法においては、離散フーリエ変換の結果得られる、パワースペクトルの時間平均を入力音声信号から減算することにより、雑音の影響をまず軽減した後に、各三角窓のパワー演算、ならびにその音声特徴パラメータへの変換を行っている。これは雑音のパワースペクトル長時間平均が一定に近づくことを前提としている。
【００３４】
それに対し、図１に示した従来手法においてパワーベクトル化手段１７Ｐ，１７Ａで得られるパワー値ベクトルは、パワースペクトルと異なったものであり、加えて音声信号が周期性成分と非周期性成分に分割されているため、雑音のパワー値ベクトルの長時間平均が一定に近づく保証はなく、そのパワー値ベクトルの減算によって雑音の影響を軽減することは通常は考えられない。
しかし、周期成分と非周期成分とに分離して、各帯域ごとにパワー値を求める場合においても、ｂやτの一部についてみれば雑音のパワー値ベクトルの長時間平均が一定値に近づくことに注目して、この発明を完成したものである。つまり、図８にしめした第１実施形態の装置においては減算手段２２Ｐ、２２Ａでは雑音のパワー値ベクトルが長時間平均で一定の値に近づく性質を持つものに限ることができ、τ及びｂについて一部のパワー値ベクトルのみについての減算を行うことにより、加法性歪の影響を効果的に補正することができる。
【００３５】
前記実験では、ｂ、τの一部ではなく、全てに対して歪補正をしているが、この発明方法が優れている結果となっている。これは前記雑音パワー値ベクトルの一部に基づく歪補正が大きく影響しているためと思われ、長時間平均がほぼ一定値になる部分のみについて歪補正をすればより大きな効果が得られると思われる。
【図面の簡単な説明】
【００３６】
【図１】非特許文献１の技術を説明するための音声信号分析装置の機能構成を示すブロック図。
【図２】図１に示した装置の処理手順を示す流れ図。
【図３】ガンマトーンフィルタバンクの周波数特性の例を示す図。
【図４】Ａは入力音声波形例を、Ｂは３つのガンマトーンフィルタの特性例を、Ｃはその各フィルタの出力信号をそれぞれ示す図である。
【図５】Ａは切り出された音声波形例を、Ｂはその自己相関関数をそれぞれ示す図である。
【図６】Ａは３つの櫛型フィルタの入力信号例を、Ｂは上記櫛型フィルタの周波数特性例を、Ｃはその各出力信号の例をそれぞれ示す図である。
【図７】非特許文献２の技術を説明するための音声信号分析装置の機能構成を示すブロック図。
【図８】第１実施形態の装置の機能構成例を示すブロック図。
【図９】第１実施形態の分析方法の手順例を示す流れ図。
【図１０】第１実施形態の方法における変形例を示す流れ図。
【図１１】第２実施形態の特色の機能構成例を示すブロック図。
【図１２】第２実施形態の方法の処理手順例を示す流れ図。
【図１３】実験結果を示すグラフ。

【特許請求の範囲】
【請求項１】
入力オーディオ信号をフィルタ処理して複数の帯域信号に分割する帯域通過フィルタバンクと、
上記各帯域信号に含まれる基本周期を推定する基本周期推定部と、
上記各基本周期がそれぞれ設定され、その各帯域信号を阻止及び通過の一方のフィルタ処理をしてその帯域信号に含まれる周期成分及び非周期成分の対応する一方を出力する櫛型フィルタと、
各帯域の周期成分及び非周期成分の上記一方のパワーを計算する第１パワー計算手段と、
上記各帯域信号のパワーを計算する第２パワー計算手段と、
上記第２パワー計算部の出力パワー値から上記第１パワー計算部の出力パワー値を減算して上記各帯域の周期成分及び非周期成分の他方を出力する減算手段と、
上記各帯域の周期成分パワー値及び上記各帯域の非周期成分パワー値をそれぞれベクトル化する第１及び第２ベクトル化手段と、
上記オーディオ信号が含まれない区間の上記周期成分パワー値ベクトルの少くとも一部を時間平均して周期成分時間平均パワー値ベクトルを計算する第１時間平均手段と、
上記周期成分パワー値ベクトルの上記少くとも一部から上記周期成分時間平均パワー値ベクトルの対応するものを減算する第２減算手段と、
上記オーディオ信号が含まれない区間の上記非周期成分パワー値ベクトルの少くとも一部を時間平均して非周期成分時間平均パワー値ベクトルを計算する第２時間平均手段と、
上記非周期成分パワー値ベクトルの上記少くとも一部から上記非周期成分時間平均パワー値ベクトルの対応するものを減算する第３減算手段と、
上記第２減算手段の減算結果と上記第３減算手段の減算結果をベクトル連結して分析結果として出力するベクトル連結手段と
を具備するオーディオ信号分析装置。
【請求項２】
請求項１記載の装置において、
上記第２減算手段と上記ベクトル連結手段との間に挿入され、上記第２減算手段の減算結果を離散コサイン変換して離散コサイン係数ベクトルとして上記ベクトル連結手段へ出力する第１離散コサイン変換手段と、
上記第３減算手段と上記ベクトル連結手段との間に挿入され、上記第３減算手段の減算結果を離散コサイン変換して離散コサイン係数ベクトルとして上記ベクトル連結手段へ出力する第２離散コサイン変換手段とを具備することを特徴とするオーディオ信号分析装置。
【請求項３】
入力オーディオ信号をフィルタ処理して複数の帯域信号に分割する第１過程と、
上記各帯域信号に含まれる基本周期を推定する第２過程と、
上記各帯域信号をその上記推定した基本周期に基づき櫛型フィルタ処理してその帯域信号に含まれる周期成分及び非周期成分の一方を得る第３過程と、
各帯域の周期成分及び非周期成分の上記一方のパワー値及び上記各帯域信号のパワー値をそれぞれ計算する第４過程と、
上記各帯域信号のパワー値から上記一方のパワー値を減算して上記各帯域の周期成分及び非周期成分の他方のパワー値を求める第５過程と、
上記各帯域の周期成分パワー値及び上記各帯域の非周期成分パワー値をそれぞれベクトル化する第６過程と、
上記オーディオ信号が含まれない区間の上記周期成分パワー値ベクトルの少くとも一部及び上記非周期成分パワー値ベクトルの少くとも一部をそれぞれ時間平均して周期成分時間平均パワー値ベクトル及び非周期成分時間平均パワー値ベクトルを求める第７過程と、
上記周期成分パワー値ベクトルの上記少くとも一部及び上記非周期成分パワー値ベクトルの上記少くとも一部から上記周期成分時間平均パワー値ベクトルの対応するもの及び上記非周期成分時間平均パワー値ベクトルの対応するものを減算する第８過程と、
上記第８過程の減算結果をベクトル連結して分析結果とする第９過程と
を有するオーディオ信号分析方法。
【請求項４】
請求項３記載の方法において、
上記第９過程のベクトル連結は、
上記第８過程における上記周期成分パワー値ベクトルの減算結果及び上記非周期成分パワー値ベクトルの減算結果をそれぞれ離散コサイン変換し、これら変換結果の離散コサイン係数ベクトルをベクトル連結する過程であることを特徴とするオーディオ信号分析方法。
【請求項５】
請求項１又は２に記載のオーディオ信号分析装置としてコンピュータを機能させるためのプログラム。
【請求項６】
請求項５記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。

【図１】