オーディオ信号分析方法、その方法を用いた音声認識方法、それらの装置、プログラムおよびその記録媒体

【課題】雑音などに基づく乗法性歪や加法性歪の影響を補正する。
【解決手段】音声信号をフィルタバンク１１により複数の帯域信号に分割し、各帯域信号の非周期成分パワー（１３、１４、１５Ａ）と、周期成分パワー（１５Ｆ、１６）とを求め、周期成分、非周期成分パワーを離散コサイン変換し（１７Ｐ、１７Ａ）、これら離散コサイン係数をベクトル連結する（１８）。このようにして得られた特徴パラメータの時間的及び／又はベクトル要素的に少なくとも一部の分散値（又は標準偏差）を求め、この分散値で、連結ベクトルの対応要素を除算（正規化）して（２２ｂ）、前記特徴パラメータに対し、乗法性歪や加法性歪の影響を補正する。

【発明の詳細な説明】
【技術分野】
【０００１】
この発明は、音声信号や音楽信号などのオーディオ信号の特徴表現を抽出するオーディオ信号分析方法、その方法を用いた音声認識方法、それらの装置、プログラムおよびその記録媒体に関する。
【背景技術】
【０００２】
自動音声認識装置においては、音声特徴表現抽出のための音声信号分析が行われる。頑健性の高い、つまり雑音に影響され難い音声特徴抽出法として、音声信号の周期的な成分と非周期的な成分を分離してそれらを連結して出力する音声信号分析方法がある（非特許文献１参照）。この音声信号分析方法のこの従来の音声信号分析方法を実行する装置の機能構成例を図１に、その処理手順を図２にそれぞれ示す。この音声信号分析装置１０は帯域通過フィルタバンク１１と、音声波形切出手段１２と、周期推定手段１３と、櫛型フィルタ手段１４と、パワー算出手段１５Ｆ及び１５Ａと、減算手段１６と、離散コサイン変換手段１８Ｐ及び１８Ａと、ベクトル連結手段１８とを備える。
【０００３】
入力端子１００より音声信号分析装置１０へ入力される音声信号は、例えば１６，０００Ｈｚのサンプリングレートでサンプリングされ、その各サンプルがデジタル値に変換された離散音声信号である。
帯域通過フィルタバンク１１では、複数の帯域通過デジタルフィルタ１１_１，…，１１_Ｂを用いて、入力された離散音声信号を帯域分割して出力する（ステップＳ１）。ここで用いられる帯域通過フィルタバンク１１は、例えば聴知覚の特性に基づく、等価矩形帯域幅の大きさに対応した中心周波数を持つガンマトーンフィルタバンクを用いるとよい（M.Slaney,“An Efficient Implementation of the Patterson-Holdsworth Auditory Filter Bank,”Apple Computer Technical Report #35,1993）。このガンマトーンフィルタバンクでは、帯域通過フィルタ１１_ｂ（ｂ＝１，…，Ｂ）であるガンマトーンフィルタを、通過帯域が重なり合うように、かつそれぞれのフィルタの中心周波数が等価矩形帯域幅の大きさ（おおよそ対数スケール）に従うように、例えば２４帯域分用意する。このフィルタバンク１１の各フィルタの周波数特性の例を図３に示す。図３には複数の帯域通過フィルタ１１_１，…，１１₂₄（ガンマトーンフィルタ）の周波数特性が同時に示されている。入力である離散音声信号をフィルタバンク１１中のそれぞれの帯域通過フィルタ１１_１，…，１１_Ｂでフィルタ処理した結果としてフィルタ数Ｂだけの離散信号が帯域通過フィルタバンク１１から出力される。帯域通過フィルタバンク１１の入力信号と出力信号の例として、帯域通過フィルタ１１_ｂとして図３に示した２４個のフィルタ特性のうちの３つの特性をそれぞれもつガンマトーンフィルタを用いた場合を図４に示す。図４Ａは入力離散音声信号の時間的変化を示す波形を示し、図４Ｂは中心周波数がｆ_c1，ｆ_c2及びｆ_c3の帯域通過フィルタ１１_ｂの各周波数特性をそれぞれ示し、図４Ｃはこれら３つの帯域通過フィルタの各出力信号波形をそれぞれ示す。
【０００４】
音声波形切出手段１２は、帯域通過フィルタバンク１１の各帯域通過フィルタ１１_１，…，１１_Ｂの出力信号から例えば時間軸方向に１０ｍｓづつ移動しながら、３０ｍｓの時間長の信号を各切出部１２_１，…，１２_Ｂでそれぞれ切り出す（ステップＳ２）の結果、例えば４８０サンプル点（１６，０００Ｈｚ×３０ｍｓ）の離散信号を１６０サンプル点（１６，０００Ｈｚ×１０ｍｓ）づつ移動しながら切り出した信号が音声波形切出手段１２の切出部１２_１，…，１２_Ｂから出力される。つまり各帯域通過フィルタ１１_１，…，１１_Ｂよりの各帯域信号が分析区間（フレーム）ごとに分割される。
【０００５】
周期推定手段１３は音声波形切出手段１２の各切出部１２_１，…，１２_Ｂよりの出力信号を入力とし、その各分析区間ごとの各出力信号の周期性の周期を周期推定部１３_１，…，１３_Ｂでそれぞれ推定する（ステップＳ３）。この周期性の推定には例えば基本周波数抽出法の一つである自己相関法（W.Hess,“Pitch determination of speech signals,”Springer-Verlag,New York,1983）を用いる。自己相関法では、まず入力信号の自己相関関数係数を求める。入力信号の全サンプル点数（１分析区間のサンプル点数）をＮ、ｊ番目のサンプル点の信号の振幅をｓ_ｊとすると、入力信号の自己相関関数係数ａｃ_ｉは以下の式に従って求まる。
【０００６】
ａｃ_ｉ＝（１／Ｎ）Σ_j=1^N-1-iｓ_ｊｓ_i+j ，ｉ＝１，…，Ｎ
図５Ａに入力信号波形の例を、図５Ｂにこの自己相関関数係数をそれぞれ示す。次に、この自己相関関数係数におけるｉの一定の探索範囲内、例えば８０≦ｉ≦２００（サンプリング周波数１６，０００Ｈｚの場合の８０Ｈｚから２００Ｈｚの周期に該当）の範囲内においてａｃ_ｉが最大となるｉを検出する。その結果得られたｉをｎとする。このｎは入力信号の探索範囲において最も支配的な周期性成分の周期長を表し、入力信号が単一の完全な周期信号（例えば正弦波）の場合にはその周期長に相当する値になる。周期推定手段１３の各周期推定部１３_１，…，１３_Ｂから各推定周期ｎが出力される。
【０００７】
櫛型フィルタ手段１４は周期推定手段１３で得られた周期に基づいた離散櫛型フィルタを設定し、音声波形切出手段１２の出力信号をフィルタ処理する（ステップＳ４）。ここで用いる離散櫛型フィルタの周波数特性は、例えば周期推定手段１３の出力周期ｎに対し、ｚ領域表現で次式とされる。
Ｈ（ｚ）＝１−ｚ^-n
音声波形切出手段１２の出力信号をこの離散櫛型フィルタによってフィルタ処理することで得られる出力信号は、その櫛型フィルタの周波数特性における零点に相当する部分（基本周波数成分とその整数倍の周波数成分）のパワーが抑圧された離散信号となる。各周期推定部１３_ｂ（ｂ＝１，…，Ｂ）で推定された周期ｎは櫛型フィルタ手段１４の対応するフィルタ部１４ｂに設定され、各切出部１２_ｂよりの分析区間ごとの帯域離散音声信号が対応するフィルタ部１４_ｂに入力される。図４に示した帯域通過周波数特性中から選んだ３個と帯域通過フィルタの出力信号を音声波形切出手段１２によりそれぞれ切り出した信号波形例を図６Ａに、これら信号からそれぞれ推定された周期に設定された離散櫛型フィルタのそれぞれの周波数特性を図６Ｂに、その各フィルタ処理された各出力信号を図６Ｃにそれぞれ示す。
【０００８】
パワー算出手段１５Ｆの各計算部１５Ｆ_ｂは音声波形切出手段１２の各切出部１２_ｂにより出力信号のパワーを計算し、パワー算出手段１５Ａの各計算部１５Ａ_ｂは櫛型フィルタ手段１４の各フィルタ部１４_ｂの出力信号のパワーを計算する（ステップＳ５）。各計算部１５Ｆ_ｂ及び１５Ａ_ｂでのパワーの計算Ｗは例えば次式に示す二乗和を行う。ここで、ｓ_ｊは入力離散信号のサンプル点ｊにおける振幅を、Ｎは入力信号の全サンプル点数をそれぞれ表す。
Ｗ＝Σ_j=1^Nｓ_j²
減算手段１６の各減算部１６_ｂでは、パワー算出手段１５Ｆの各計算部１５Ｆ_ｂの出力パワー値、つまり音声波形切出手段１２の切出部１２_ｂの出力信号のパワー値ＷＰ_ｂから、対応するパワー算出手段１５Ａの計算部１５Ａ_ｂの出力パワー値、つまり切出部１２_ｂの出力に対応する櫛型フィルタ手段１４のフィルタ部１４_ｂの出力信号から算出されたパワー値ＷＡ_ｂを減算する（ステップＳ６）。この結果、各減算部１６_ｂから櫛型フィルタ手段１４の各フィルタ部１４_ｂによって抑圧された周波数成分のパワー値（power_sp）、すなわち各帯域離散音声信号の周期成分パワー値ＷＰ_ｂを求めることができる。この減算操作を次式に示す。
【０００９】
ＷＰ_ｂ＝ＷＦ_ｂ−ＷＡ_ｂ
周期成分パワーベクトル化手段２０Ｐは各周期成分パワーＷＰ_ｂが入力され、これらをその対応帯域通過フィルタ１１_ｂ（ｂ＝１，…，Ｂ）の中心周波数順に整列したベクトルとし、非周期成分パワーベクトル化手段２０Ａは同様に各非周期成分パワーＷＡ_ｂをベクトルとする（ステップＳ７）。離散コサイン変換手段１７Ｐでは、周期成分パワーベクトルに対しその対数値を取って離散コサイン変換を行う（この離散コサイン変換については例えば非特許文献３、1４頁参照）。同様に離散コサイン変換手段１７Ａは非周期成パワーベクトルを離散コサイン変換する（ステップＳ８）。例えば２４帯域分の帯域通過フィルタ１１_ｂを用いた場合、ＷＰ_ｂおよびＷＡ_ｂはそれぞれ２４通り算出される。これらをそれぞれ対応する帯域通過フィルタの中心周波数順に整列し、それぞれ２４次元のベクトルとして扱う。その各ベクトルに対し、離散コサイン変換を例えば下記の式に従って行う。
【００１０】
【数１】

ここで、ｐ_ｊは対応する帯域通過フィルタの中心周波数順に整列されたＷＰ_ｂまたはＷＡ_ｂによって構成されるＢ次元ベクトルのｊ番目の要素（パワー値）を表し、ｃ_ｉは離散コサイン変換後に得られるＢ次元ベクトルＣのｉ番目の離散コサイン係数を表す。ｃ_ｉはｉ＝１，…，Ｂのすべてについて求める。離散コサイン変換手段１７Ｐ及び１７Ａでは、ＷＰ_ｂおよびＷＡ_ｂそれぞれから得られる離散コサイン係数ｃ_iPおよびｃ_iAを出力とする。
【００１１】
ベクトル連結手段１８は、離散コサイン変換手段１７Ｐおよび１７Ａの出力であるＷＰ_ｂおよびＷＡ_ｂに対応するそれぞれＮ次元の離散コサイン係数ｃ_iPおよびｃ_iAを入力とし、それぞれの一部または全体を連結して一連のベクトルＣ＝（ｃ_１，ｃ_２，…，ｃ_ｋ）として出力する（ステップＳ９）。例えばＷＰ_ｂおよびＷＡ_ｂそれぞれの２４次元の離散コサイン係数ｃ_iPおよびｃ_iAが入力とされた場合、それぞれ次数の低い方から１２次元の係数を連結して一連の２４次元ベクトルとして出力する。この分析方法を用いた場合、雑音下での自動音声認識において所定の頑健性が得られる。
【００１２】
音声信号の周期的な成分と非周期的な成分を分離することなく、音声特徴表現を抽出する音声分析方法において次のようなことが知られている。
（１）音声特徴パラメータであるＭＦＣＣ（メル周波数ケプストラム係数）などの特徴パラメータの分散値によりパラメータを正規化して加法性歪の影響を補正するケプストラム分散正規化法（非特許文献２参照）。
（２）音声認識用モデル作成に用いた音声信号と認識対象音声信号とでマイクロホンや伝送路の違いなどに起因する乗法性歪に対処するため、ＭＦＣＣなどの特徴パラメータを時間平均し、元のパラメータより減算して乗法性歪の影響を補正するケプストラム平均除去法（非特許文献３、１４〜１５頁参照）。
【００１３】
（３）加法性歪に対処するため、ＭＦＣＣなどの特徴パラメータのゲイン（大きさ）を正規化して加法性歪の影響を補正するケプストラムゲイン正規化法（非特許文献４参照）。
前記（２）の平均除去法を図７を参照して簡単に説明する。音声信号は音声波形切出部１で分析フレームごとに切出され、各分析フレームごとに離散フーリエ変換部２で離散的フーリエ変換される。そのフーリエ変換結果のスペクトルは、三角窓フィルタ３_１，…，３_Ｌによりメル周波数軸上で、等間隔かつ両隣接帯域の中心に達する三角窓が掛けられたＬ個の帯域に分割される。これらＬ個の帯域スペクトルはパワー算出部４_１，…，４_Ｌでそれぞれパワーが計算され、これらＬ個のパワーが対応フィルタの中心周波数の低い順に並べられたパワーベクトルとして離散コサイン変換部５で離散コサイン変換され、ＭＦＣＣが得られる。
【００１４】
このＭＦＣＣを時間平均部６で十分な分析フレーム数分の平均をとり、ほぼ一定値となる平均ベクトルが求められ、これがＭＦＣＣから減算部７で減算され、音声特徴パラメータとして出力される。なお前記時間平均、減算はそれぞれ対数計算により行われる。
【非特許文献１】Kentaro Ishizuka,Noboru Miyazaki,“Speech feature extraction method representing periodicity and aperiodicity in sub bands for robust speech recognition ,”Proceedings of the 29th International Conference on Acoustics, Speech,and Signal Processing,Vol.1,pp.141-144,2004.
【非特許文献２】Chia-Ping Chen,Karim Filali,Jeff A.Bilmes,“Frontend post-processing and backend model enhancement on the Aurora 2.0/3.0 databases,”Proceedings of the 7th International Conference on Spoken Language Processing, pp.241-244,2002.
【非特許文献３】鹿野清宏，伊藤克亘，河原達也，武田一哉，山本幹雄編著，“音声認識システム”，オーム社，２００１，１４〜１５頁
【非特許文献４】Shingo Yoshizawa,Noboru Hayasaka,Naoya Wada,Yoshikazu Miyanaga,“Cepstral gain normalization for noise robust speech recognition,”Proceedings of the 29th International Conference on Acoustics,Speech, and Signal Processing,Vol.1, pp.209-212,2004.
【発明の開示】
【発明が解決しようとする課題】
【００１５】
非特許文献１に示す、音声信号を周期性と非周期性との２つの成分に分離して特徴パラメータを抽出する方法は、雑音などの加法性歪や乗法性歪などの外部変動要因および音声に内在する変動要因に対し、十分な頑健性が得られない問題がある。非特許文献２〜４に示す技術は、いずれもパワースペクトルの長時間平均がほぼ一定形状になることを前提としているため、その前提に無理があり、同様に前記変動要因に対する十分な頑健性が得られない。
音声信号のみならず、音楽信号などの周期性成分と非周期性成分とが混在する音響信号の特徴を表現するパラメータの分析においても、非特許文献１〜４の各方法を個別に適用しても、同様の問題が生じる。音声信号および音楽信号などの周期性成分と非周期性成分とが混在する信号をオーディオ信号と総称する。
【００１６】
この発明の目的は少くともいずれかの歪に基づく変動要因の影響が補正されたオーディオ特徴パラメータを得ることができるオーディオ信号分析方法、その方法を用いた音声認識方法、その装置、プログラムおよびその記録媒体を提供することにある。
【課題を解決するための手段】
【００１７】
この発明によればオーディオ信号を周期性成分と非周期性成分とに分離してその特徴パラメータを抽出し、その抽出した特徴パラメータの少なくとも一部について統計パラメータを計算し、その統計パラメータにより上記特徴パラメータの対応するものを正規化して分析結果の特徴パラメータとする。
【発明の効果】
【００１８】
この構成によれば周期性成分と非周期性成分とを分離して特徴パラメータを抽出し、その特徴パラメータを、その統計パラメータにより正規化して歪補正をしているため、外部変動要因および内部変動要因の少くとも一方に影響され難い特徴パラメータを得ることができる。
【発明を実施するための最良の形態】
【００１９】
以下この発明の実施形態を図面を参照して説明するが、図１およびこれから説明する各図中の対応する部分は同一参照番号を付けて重複説明を省略する。また以下の説明ではオーディオ信号として音声信号にこの発明を適用した場合である。
［第１実施形態］
この発明ではオーディオ信号を周期性成分と非周期性成分とに分離して、特徴パラメータを抽出し、その特徴パラメータの少なくとも一部について統計パラメータを求め、その統計パラメータにより特徴パラメータ中の対応するものを正規化して歪補正を行うが、第１実施形態では統計パラメータとして分散あるいは標準偏差を求めて、外部変動要因ならびに音声に内在する変動要因（内部変動要因）の影響を減ずる歪補正にこの発明を適用した形態である。図８にその機能構成例を図９に処理手順の例をそれぞれ示す。
【００２０】
入力端子１００よりの入力音声信号は音声区間検出部２１で音声区間と検出された部分が信号分析手段１０内の帯域通過フィルタバンク１１に入力される（ステップＳ１１）。音声区間検出部２１は入力信号中の認識すべき音声信号の始めから終わりまでの全区間を音声区間信号として検出する。
この検出された音声信号は信号分析手段１０で音声信号が複数の帯域信号に分割され、各帯域信号ごとに周期性成分と非周期性成分とに分離され、音声特徴を表現する特徴パラメータが抽出されて信号分析される（ステップＳ１２）。この信号分析手段１０はこの例では図１に示した音声分析装置１０と同一構成であり、信号分析処理（ステップＳ１２）は図２に示した処理手順と同一である。なお図８中の離散コサイン変換手段１７Ｐ及び１７Ａとベクトル連結手段１８は特徴ベクトル生成手段を構成している。
【００２１】
この実施形態においては信号分析手段１０で分析抽出された特徴パラメータに対し、歪補正手段２２で歪補正がなされる（ステップＳ１３）。歪補正手段２２においては入力された特徴パラメータ、つまり信号分析手段１０内のベクトル連結手段１８よりの連結ベクトルの分散値が分散値演算手段２２ａにより演算される（ステップＳ１３ａ）。その分散値により信号分析手段１０よりの特徴パラメータが除算手段２２ｂで除算されて、歪補正される（ステップＳ１３ｂ）。
これらの処理を更に具体的に説明する。ベクトル連結手段１８の出力する離散コサイン係数ベクトルＣは、時間方向について音声波形切出手段１２を実施する回数、つまり音声区間検出部２１で検出された１つの音声区間におけるフレーム（分析区間）の数だけ出力される。音声波形切出手段１２における、ある時点（フレーム）τのベクトル連結手段１８の出力する離散コサイン係数ベクトルＣのｋ番目の係数をｃ_ｋ（τ）と表す。τは、波形切出手段１２によって離散化された時間を表す。例えば、音声波形切出手段１２が１秒間の音声区間に対し１０ｍｓづつ移動しながら３０ｍｓの長さで音声波形を切出す場合、τは１から９７（＝（１，０００（ｍｓ）−３０（ｍｓ））／１０（ｍｓ））の値をとる。このとき、分散値演算手段２２ａにおいて、ｋ番目の離散コサイン係数の分散値σ_ｋ^２を、次式のようにｃ_ｋ（τ）のτについての分散値σ_ｋ^２として求める。
【００２２】
【数２】

βとαは、分散値を計算する範囲を表し、β≧αを満たす。α＝１で、βがτの最大値なら、全ての音声区間のパラメータを利用することになり、それ以外の場合は一部の音声区間を利用することに相当する。離散コサイン係数の分散値σ_ｋ^２は、全てまたは一部のｋについて求める。
除算手段２２ｂでは、ベクトル連結手段１８で得られたｋ番目の離散コサイン係数ｃ_ｋ（τ）を、その分散値σ_ｋ^２により除算して特徴パラメータを正規化補正する。補正済み離散コサイン係数Ｎｃ_ｋ（τ）を次式により求める。
【００２３】
Ｎｃ_ｋ（τ）＝φ_ｋ（τ）・ｃ_ｋ（τ）／σ_ｋ^２
ここでφ_ｋ（τ）は除算した結果得られる、正規化された特徴パラメータのスケールを調整する実数パラメータで、例えば１を用いる。
この正規化補正を全てまたは一部のτ、および全てまたは一部のｋについて求める。このようにして外部変動要因および音声に内在される変動要因の影響が補正された離散コサイン係数ベクトルＣを得ることができる。
図８および図９中に破線で示すように、分散値演算手段２２ａよりの出力分散値σ_ｋ^２の平方根を開平演算部２２ｃで取り、標準偏差値σ_ｋ＝√（σ_ｋ^２）を求め（ステップＳ１３ｃ）、これを除算手段２２ｂに入力してもよい。
【００２４】
この場合、出力される正規化補正特徴パラメータＮｃ_ｋ（τ）は以下のようになる。
Ｎｃ_ｋ（τ）＝φ_ｋ（τ）・ｃ_ｋ（τ）／σ_ｋ
［第２実施形態］
第２実施形態は統計パラメータとして信号分析により得られた特徴パラメータの時間平均を用いて歪補正を行う。図１０にその機能構成例を、図１１にその処理手順の例を示す。
入力端子１００よりの音声信号は音声区間検出部２１を通じて信号分析手段１０に入力される。この例では信号分析手段１０は図１に示した音声分析装置１０と同一構成とした場合である。この信号分析手段１０より出力される特徴パラメータに対し、歪補正手段３１により乗法性歪の影響を減ずるための処理が行われる（ステップＳ２１）。このため歪補正手段３１に入力された特徴パラメータはまず時間平均手段３１ａにより時間平均される（ステップＳ２１ａ）。
【００２５】
具体的には例えばベクトル連結手段１８の出力する離散コサイン係数ベクトルＣは、時間方向について音声波形切出手段１２による切出し回数、つまり１音声区間における分析区間数だけ出力される。第１実施形態の場合と同様に、ある時点τのベクトル連結手段１８の出力する離散コサイン係数ベクトルのｋ番目の係数をｃ_ｋ（τ）のτを波形切出手段１２によって離散化された時間を表し、例えば、音声波形切出手段１２が１秒間の音声区間に対し１０ｍｓづつ移動しながら３０ｍｓの長さで音声波形を切出す場合、τは１から９７（＝（１，０００（ｍｓ）−３０（ｍｓ））／１０（ｍｓ））の値をとる。このとき、時間平均手段３１ａにおいて、時間平均離散コサイン係数ｍ_ｋを次の式（１）の計算により求める。
【００２６】
【数３】

βとαは、時間平均を取る範囲を表し、β＞αを満たす。α＝１で、βがτの最大値なら、全ての音声区間を利用することになり、それ以外の場合は一部の音声区間を利用することに相当する。γ_ｋ（τ）は係数を加算する際の重みで、例えば１を用いる。時間平均離散コサイン係数ｍ_ｋは、全てまたは一部のｋについて求める。
次に、減算手段３１ｂにおいて、時間平均手段３１ａで得られた時間平均離散コサイン係数ｍ_ｋを、ベクトル連結手段１８で得られた離散コサイン係数ｃ_ｋ（τ）から減算して補正済み離散コサイン係数Ｎｃ_ｋ（τ）を求める（ステップＳ３１ｂ）。この減算式（２）により行う。
【００２７】
Ｎｃ_ｋ（τ）＝ｃ_ｋ（τ）−φ_ｋ（τ）・ｍ_ｋ …（２）
ここでφ_ｋ（τ）は減算する際に時間平均離散コサイン係数に乗ずる重みで、例えば１を用いる。
これを全てまたは一部のτ、および全てまたは一部のｋについて求めることで、乗法性歪が補正された離散コサイン係数ベクトルを得る。
［第３実施形態］
第３実施形態は信号分析により得られた特徴パラメータの変動範囲を統計パラメータとして歪補正を行う。図１２にその例の機能構成例を、図１３に処理手順の例をそれぞれ示す。
【００２８】
入力端子１００よりの音声信号は音声区間検出部２１を通じて信号分析手段１０に入力される。この例では信号分析手段１０は図１に示した音声分析装置１０と同一構成とした場合である。この信号分析手段１０より出力される特徴パラメータに対し、歪補正手段３３により加法性歪の影響を減ずるための補正を行う（ステップＳ２３）。歪補正手段３３は特徴パラメータの変動範囲を変動範囲検出手段３３ａにより検出し（ステップＳ２３ａ）、その検出した変動範囲で特徴パラメータを除算手段３３ｂにおいて割算する（ステップＳ２３ｂ）。
【００２９】
具体的には例えばベクトル連結手段１８の出力する離散コサイン係数ベクトルＣは、時間方向について音声波形切出手段１２による切出し回数だけ出力される。これは第１ベクトルのｉ番目の係数をｃ_ｋ（τ）と表す。τは、波形切出手段１２によって離散化された時間実施形態及び第２実施形態と同様であって、例えば、音声波形切出手段１２が１秒間の音声区間に対し１０ｍｓづつ移動しながら３０ｍｓの長さで音声波形を切出す場合、τは１から９７の値をとる。変動範囲検出手段３３ａにおいて最大値選出手段３３ａ１により、次式で与えられる最大離散コサイン係数Ｍａｘ_ｋを、ｃ_ｋ（τ）のτについての最大値として選出する。
【００３０】
【数４】

βとαは、最大値を探索する範囲を表し、β≧αを満たす。α＝１で、βがτの最大値なら、全ての音声区間を探索することになり、それ以外の場合は一部の音声区間を探索することに相当する。最大離散コサイン係数Ｍａｘ_ｋは、全てまたは一部のｋについて求める。同様に、最小値選出手段３３ａ２によって、次式で与えられる最小離散コサイン係数Ｍｉｎ_ｋを、ｃ_ｋ（τ）のτについての最小値として求める（ステップＳ２３ａ１）。
【００３１】
【数５】

次に、減算手段３３ａ３において、最大値選出手段３３ａ１および最小値選出手段３３ａ２で得られた最大離散コサイン係数Ｍａｘ_ｋから最小離散コサイン係数Ｍｉｎ_ｋを減算して、離散コサイン係数変化範囲Ｇａｉｎ_ｋ＝Ｍａｘ_ｋ−Ｍｉｎ_ｋを全てまたは一部のｋについて求める（ステップＳ２３ａ２）。
除算手段３３ｂでは、ベクトル連結手段１８で得られた離散コサイン係数ｃ_ｋ（τ）を、検出した範囲Ｇａｉｎ_ｋにより除算してパラメータを正規化し、補正済み離散コサイン係数Ｎｃ_ｋ（τ）＝φ_ｋ（τ）・ｃ_ｋ（τ）／Ｇａｉｎ_ｋを求める。ここでφ_ｋ（τ）は除算した結果得られる、正規化されたパラメータのスケールを調整する実数パラメータで、例えば１を用いる。このようなＮｃ_ｋ（τ）を全てまたは一部のτ、および全てまたは一部のｋについて求めることで、加法性歪が補正された離散コサイン係数ベクトルを得る。
［変形実施形態］
この発明のオーディオ信号分析における変形実施形態を説明する。その１つとして第１〜第３実施形態において、離散コサイン変換手段１７Ｐおよび１７Ａを省略する。その場合の機能構成例を図１４に、処理手順の例を図１５にそれぞれ示す。
【００３２】
入力端子１００よりの音声信号は必要に応じて音声区間検出部２１を通じて信号分析手段３５に入力され、信号分析が行われる（ステップＳ２５）。この信号分析手段３５は図１中の音声分析装置１０中から離散コサイン変換手段１７Ｐおよび１７Ａが省略され、減算手段１６よりの各周期成分と、パワー算出手段１５Ａよりの各非周期成分との各パワー値がベクトル連結手段１８により連結され、この連結されたベクトルの対数値が対数計算手段３７で計算される。従って処理手順においては図１５中のステップＳ２５に示すように、図２中のステップＳ１〜Ｓ６を実行し、その後、ステップＳ７の離散コサイン変換を行うことなく、前記パワー値のベクトル連結を行い（ステップＳ２７）、この連結ベクトルの各パワー値の対数値を計算する（ステップＳ２９）。図１４中のベクトル連結手段１８と対数計算手段３７は特徴ベクトル生成手段を構成している。
【００３３】
この信号分析手段３５よりの特徴パラメータ、この例では対数パワー値ベクトルが歪補正手段３９に入力され、歪補正手段３９は対数パワー値ベクトルに対し、歪補正を行う（ステップＳ３１）。歪補正手段３７は図８中の歪補正手段２２、図１０中の歪補正手段３１、図１２中の歪補正手段３３などである。ステップＳ１の歪補正処理は、図９中のステップＳ１３、図１１中のステップＳ２１、図１３中のステップＳ２３などである。
第１実施形態及び第３実施形態においては、信号分析結果の特徴パラメータに対し、乗法性歪の影響を補正した後に歪補正を行ってもよい。例えば図１６に示すように、信号分析手段１０からの離散コサイン係数ベクトルを歪補正手段３１に入力して、乗法性歪の影響を補正する。この歪補正は例えば、第２実施形態において図１０中に示した歪補正手段３１と同様の構成により行う。この歪補正された特徴パラメータを、歪補正手段４１により更に歪補正を行う。この歪補正手段４１は第１実施形態における図８中の歪補正手段２２又は第３実施形態における図１２中の歪補正手段３３である。
【００３４】
この処理手順は例えば図１７に示すように、図９中のステップ１２の信号分析処理の後、その離散コサインベクトルに対し、乗法性歪の影響を補正するための歪補正を行い（ステップＳ２１）、その歪補正された離散コサインベクトルに対し更に、歪補正を行う（ステップＳ３３）。このステップＳ３３における歪補正は図９中のステップＳ１３の歪補正又は図１３中のステップＳ２３の歪補正である。
このように特徴パラメータを乗法性歪の影響を補正した後に、更に歪補正することは信号分析手段３５から得られる対数パワー値ベクトルに対しても適用することができる。このことを明らかにするために図１０中に括弧書きで信号分析手段３５及び対数値計算手段３７を示し、また図１７中に括弧書きで信号分析ステップＳ２５及び対数計算ステップＳ２９をそれぞれ示した。
【００３５】
なお帯域通過フィルタバンク１１中の帯域通過フィルタの数Ｂは例えば、入力音声信号のサンプリング周波数が８kHzの場合、２４個とされ、サンプリング周波数が高くなるに従って帯域通過フィルタの数Ｂを大きくするのが好ましい。このようにして乗法性歪の影響を補正した後、加法性歪の影響を補正することができる。
上述において、櫛型フィルタ手段１４として、周期推定手段１３で推定した周期成分と、その整数倍を阻止する阻止型櫛型フィルタを用いたが、推定した周期成分と、その整数倍を通過させる通過型櫛型フィルタを用いてもよい。その場合の処理手順を図１８に示す。いままでの説明と同様に入力音声信号は音声区間検出（ステップＳ１１）、帯域分割（ステップＳ１）、各帯域ごとの基本周期推定（ステップＳ２）の各処理が行われる。その後、各帯域信号ごとに、櫛型フィルタ手段１４（図８中の括弧書、以下同様）の各フィルタ部１４_１′，…，１４_Ｂ′で対応帯域の推定周期成分とその整数倍成分とのみが通過選出される（ステップＳ４１）。これら選出された各帯域ごとの基本周期成分と、その整数倍成分とのパワー、つまり周期成分パワーＷＰ_ｂ（ｂ＝１，…，Ｂ）が、パワー計算手段１５Ｐの計算部１５Ｐ_ｂでそれぞれ計算され、また各帯域信号のパワーＷＦ_ｂがパワー計算手段１５Ｆの各計算部１５Ｆ_ｂで計算される（ステップＳ４３）。減算手段１６の各減算部１６_ｂにおいて計算部１５Ｆ_ｂの出力パワーＷＦ_ｂから、計算部１５Ｐ_ｂ′からの出力パワーＷＰ_ｂが減算されて帯域ごとの非周期成分パワーＷＡ_ｂが求められる（ステップＳ４３）。減算手段１６よりの非周期成分パワー値が非周期成分パワーベクトル化手段２０Ａでベクトル化された後（ステップＳ７）、離散コサイン変換手段１７Ａで離散コサイン変換され（ステップＳ８）、またパワー計算手段１５Ｐよりの周期成分パワー値が周期成分パワーベクトル化手段２０Ｐでベクトル化された後（ステップＳ７）離散コサイン変換手段１７Ｐで離散コサイン変換される（ステップＳ８）、その他の処理は先に述べた各実施形態と同様である。この場合も、図８及び図１８中に一点鎖線で示すように、離散コサイン変換をすることなく得られた周期成分パワーベクトルと非周期成分パワーベクトルとをベクトル連結手段１８でベクトル連結し、その連結されたベクトルの対数値を対数計算部３７で求めてもよい。また図１８中に括弧書で示すように、図１７中に示したように信号分析により得られた特徴パラメータに対し、ステップＳ２１により乗法性歪による影響を除去した後に歪補正処理（ステップＳ３３）を行ってもよい。
【００３６】
上述において、分散値σ_ｋ^２、標準偏差σ_ｋ、時間平均ｍ_ｋ、変動範囲Ｇａｉｎ_ｋに基づく歪補正は、一部のｋ、一部のτについて求めればよいと述べたが、この一部とは任意の組み合わせについて求めればよい、例えばｋについては低次のものあるいは高次のもの、あるいは適当に選んだ複数でもよい。τについても同様である。つまり特徴パラメータを抽出したい信号に対し、その抽出に影響を与える要因、例えば混入される雑音も比較的定常的なもの突発的なものなど時間的あるいは周波数的に異なる態様に応じ、同様に乗法性歪についてもどのようなものに基づくものかにより、それぞれ適切なｋやτが選定される。これは例えば各種要因についてあらかじめ実験により求めておけばよい。このようにして、途中で得られる一部の離散コサイン係数の長時間平均が一定値に近づくｋとτとが用いられることになる。
【００３７】
第２実施形態で求めた時間平均ｍ_ｋは、統計分布曲線における平均と対応し、またこの時間平均ｍ_ｋを連結ベクトルの対応する要素（係数又はパワー値）から減算することはその要素を正規化することと対応している。従って、第１〜第３実施形態において求める分散、標準偏差、平均、変動範囲を統計パラメータと総称し、かつ係数又はパワー値に対する分散、標準偏差、変動範囲のそれぞれによる除算および時間平均の減算を正規化と総称する。
上述した実施形態では音声信号を分析したが、音楽信号などの周期性成分と非周期性成分とが混在している信号にこの発明の信号分析は適用できる。
［第４実施形態］
第４実施形態は第１〜第３実施形態、変形実施形態のいずれかにより音声信号を信号分析して音声認識をする装置および方法の実施形態である。第４実施形態の機能構成例を図１９に、処理手順を図２０にそれぞれ示す。この例ではこの音声認識装置６０の入力端子２００に学習音声データが入力され（ステップＳ５１）、学習処理がされる。つまりこの学習音声データは信号分析部６２で分析され、特徴パラメータが抽出される（ステップＳ５２）。入力端子２００に入力される学習音声データや認識されるべき音声信号は所定のサンプリング周波数でサンプリングされ、ディジタル値とされた信号系列である。信号分析部６２は第１〜第３実施形態、変形実施形態のいずれかと同様な信号分析手段及び歪補正手段を備え、信号分析手段で抽出された特徴パラメータに対し、歪補正された特徴パラメータが信号分析部６２から出力される。
【００３８】
この学習音声特徴パラメータはパターン（学習）識別部６４に入力され、パターン（学習）識別部６４は学習音声特徴パラメータから標準パターンを生成して標準パターン記憶部６６に格納する（ステップＳ５３）。標準パターンは例えばＨＭＭ（隠れマルコフモデル）であり、状態数及び分布数とその各音素ごとの遷移確率、出現確率などのパラメータである。
次に入力端子２００に認識されるべき音声信号が入力され（ステップＳ５４）、その入力音声信号は信号分析部６２で特徴パラメータが抽出される（ステップＳ５５）。
【００３９】
この特徴パラメータはパターン（学習）識別部６４で、標準パターン記憶部６６に予め格納されている標準パターンと比較され、最も類似度が高い標準パターンと対応する、音素、単語などを表わすデータが出力される（ステップＳ５６）。なおこの学習及び認識の具体的処理は例えば北研二他２名著「音声言語処理」森北出版株式会社、１９９６年発行３７〜４３頁を参照されたい。
この例ではまず学習音声データによる標準パターンの学習を行ったが、信号分析部６２で抽出される特徴パラメータと同一種類の特徴パラメータによりあらかじめ生成された標準パターンが格納された標準パターン記憶部６６を用い、つまり図２０において、ステップＳ５１〜ステップＳ５３を省略し、入力された音声信号の認識のみを行うものでもよい。その場合はパターン識別部６４は認識処理のみを行う。
【００４０】
また標準パターンを生成する学習音声データは、被認識音声が収音される環境雑音と同様な環境雑音が重畳されたものが好ましく、学習音声データから特徴パラメータを抽出する信号分析部としては、被認識入力音声信号より特徴パラメータを抽出する信号分析部と同一または同様のものがよい。
第１〜第２実施形態および変形実施形態の各オーディオ信号分析装置、第４実施形態の音声認識装置はいずれも、コンピュータにより機能させることができる。コンピュータに、例えば図８に示したオーディオ信号分析装置としてコンピュータを機能させるためのプログラムを磁気ディスク、ＣＤ−ＲＯＭ、半導体記憶装置などの記録媒体からインストールし、または通信回線を介してダウンロードし、そのプログラムをそのコンピュータに実行させればよい。なおコンピュータを分析装置あるいは認識装置として機能させる場合はその対象信号を一旦コンピュータ内の記憶装置に取り込んだ後、処理することになる。
［実験例］
以下にこの発明の効果を示すために、この発明による音声信号分析方法によって得られた音声特徴パラメータを用いた音声認識装置と、［従来の技術］項に記載の非特許文献１に示す音声認識装置（単に従来装置という）の、雑音下での数字認識における音声認識精度を比較のために行った実験を説明する。
実験１
この実験１は第１実施形態の効果を明らかにするためであり、この実験には、（社）情報処理学会音声言語情報処理研究会雑音下音声認識評価ワーキンググループ雑音下音声認識評価環境（ＡＵＲＯＲＡ−２Ｊ）を利用した。この第１実施形態の装置および従来装置とも２４チャネルのガンマトーンフィルタバンクをフィルタバンク１１として用い音声波形切出手段１２での音声波形の切出しは２５ｍｓ長で１０ｍｓごとに行い、周期成分パワーＷＰ_ｂおよび非周期成分パワーＷＡ_ｂに対応する離散コサイン変換後の係数ベクトルはそれぞれ１２次元、他に入力信号全体のパワーを表すパワー値、あわせて２５次元のベクトルを特徴ベクトルとして用い、その動的特徴であるΔパラメータとΔΔパラメータを、ΔＭＦＣＣ，ΔΔＭＦＣＣ，Δパワー，ΔΔパワーを求める方法（非特許文献３、１３頁参照）と同様にして求め、その結果７５次元のベクトルを特徴パラメータとして用いた。
【００４１】
この第１実施形態の装置では、前記離散コサイン係数ベクトルに対し図１６に示したように歪補正手段３１により乗法性歪の補正を行った後、図８中の歪補正手段２２において、発話データごとの音声全区間に渡って全ての離散コサイン係数の外部変動要因ならびに音声に内在する変動要因に基づく影響を抑圧するように前記パラメータを、その標準偏差値を用いて補正した。
パターン（学習）識別部６４での学習処理には１６状態２４ガウス分布混合の数字ＨＭＭを用い、前記ＡＵＲＯＲＡ−２Ｊに付属する学習音声データ中の８，４４０発話の雑音が混入した数字読み上げ学習音声データとＨＭＭ学習用スクリプト（学習プログラム）とを用いＨＭＭ学習を行った。また、同様にＡＵＲＯＲＡ−２Ｊに付属する評価データにおいて雑音下での数字読み上げ音声のうち強い加法性歪を伴う自動車中雑音が音声と同じパワーで重畳されている評価データ（信号対雑音比０ｄＢ、１，００１発話）を用い雑音下での数字認識精度の評価を行った。
【００４２】
各認識精度の結果を図２１に示す。図２１に示されたとおり、第１実施形態による加法性歪を補正する音声信号分析方法を用いた場合の音声認識装置の認識精度が従来装置の認識精度よりも１０％程度以上高く、第１実施形態の手法が効果的に頑健性を向上することが明らかにされた。
実験２
この実験２は第２実施形態の効果を明らかにするためであり、実験１と異なる点のみを記載する。前記７５次元のベクトルを特徴パラメータに対し、図１０中の歪補正手段３１により乗法性歪の補正を行い、識別部６４で処理する数字ＨＭＭのガウス分布の数を２０とし、評価データとしてＡＵＲＯＲＡ−２Ｊに付属する評価データ中の、乗法性歪を伴う雑音下での数字読み上げ音声の１４，０１４発話データを用いた。
【００４３】
平均での認識精度結果を図２２に示す。図２２に示されたとおり、第２実施形態装置による乗法性歪を補正する音声信号分析方法を用いた場合の音声認識装置の認識精度が従来装置の認識精度法よりも１０％程度高く、第２実施形態の手法が乗法性歪に効果的であることが明らかにされた。
実験３
この実験３は第３実施形態の効果を明らかにするためであり、実験１と異なる点のみを記載する。前記乗法性歪の補正を行った７５次元ベクトルの特徴パラメータを、図１２中の歪補正手段３３において変動範囲ｇａｉｎ_ｋにより正規化して、加法性歪の補正を行った。
【００４４】
認識精度の結果を図２３に示す。図２３に示されたとおり、第３実施形態による加法性歪を補正する音声信号分析方法を用いた場合の装置の認識精度が従来装置の認識精度よりも１０％程度以上高く、第３実施形態の手法が加法性歪に効果的であることが明らかにされた。
従来との差の理由
図７に示した従来方法および非特許文献２及び４にそれぞれ示す従来方法のいずれにおいても、離散フーリエ変換の結果得られるパワースペクトルに基づいた離散コサイン係数であることが前提となる。具体的には、雑音や乗法性歪が時間方向に急激な変化なくパワースペクトルに一定の変動を与えており、かつ音声のパワースペクトルの長時間平均が一定の形状に近づく性質を前提とする。つまり音声信号のパワースペクトルの形状を利用するものである。
【００４５】
それに対し、図１に示した従来方法で抽出される特徴パラメータとしての離散コサイン係数は、パワースペクトル形状に基づくものではなく、しかも、音声信号を周期成分と非周期成分に分割しているため、それぞれの成分の長時間平均が一定に近づく保証はない。従って図１に示した従来方法で得られた離散コサイン係数（連結ベクトル）をその平均・変動範囲・分散・標準偏差で正規化することは通常は考えられない。
しかしこの発明においては正規化を効果的に適用する特徴パラメータとして、分析中途で得られる離散コサイン係数あるいはパワー値が長時間平均で一定の値に近づく性質のものとしている。つまり特徴パラメータの一部についてその統計パラメータを求め、その統計パラメータで前記一部の特徴パラメータを正規化しているため前記のような優れた効果が得られる。
【００４６】
しかし、図１に示した従来方法より得られた連結ベクトル（特徴パラメータ、離散コサイン係数ベクトル）の一部、つまりそのベクトルの要素中のいずれかの複数個及び／又は音声区間におけるいずれかの複数のフレーム（分析区間）については、時間平均がほぼ一定値になることに着目し、その平均値で特徴パラメータ中の対応するものを正規化することを考えた。
先に示した各実験では、特徴パラメータの一部ではなく、全てに対して歪補正をしているが、この発明方法が優れている結果となっている。これは前記特徴パラメータの一部に対する歪補正が大きく影響しているためと思われ、時間平均がほぼ一定値になる部分のみに対して歪補正をすればより大きな効果が得られると思われる。
【図面の簡単な説明】
【００４７】
【図１】非特許文献１の技術を説明するための音声信号分析装置の機能構成を示すブロック図。
【図２】図１に示した装置の処理手順を示す流れ図。
【図３】ガンマトーンフィルタバンクの周波数特性の例を示す図。
【図４】Ａは入力音声波形例を、Ｂは３つのガンマトーンフィルタの特性例を、Ｃはその各フィルタの出力信号をそれぞれ示す図である。
【図５】Ａは切り出された音声波形例を、Ｂはその自己相関関数をそれぞれ示す図である。
【図６】Ａは３つの櫛型フィルタの入力信号例を、Ｂは上記櫛型フィルタの周波数特性例を、Ｃはその各出力信号の例をそれぞれ示す図である。
【図７】非特許文献３の技術を説明するための音声信号分析装置の機能構成を示すブロック図。
【図８】第１実施形態の装置の機能構成例を示すブロック図。
【図９】第１実施形態の分析方法の手順例を示す流れ図。
【図１０】第２実施形態の装置の機能構成例を示すブロック図。
【図１１】第２実施形態の方法の手順例を示す流れ図。
【図１２】第３実施形態の装置の機能構成例を示すブロック図。
【図１３】第３実施形態の方法の手順例を示す流れ図。
【図１４】パワー値を特徴パラメータとする実施形態の装置の機能構成例を示すブロック図。
【図１５】図１４に示した装置の処理手順例を示す流れ図。
【図１６】特徴パラメータに乗法性歪補正を行った後、統計パラメータを求める実施形態の機能構成例を示すブロック図。
【図１７】図１６に示した装置の処理手順例を示す流れ図。
【図１８】特徴パラメータの生成の他の実施形態の処理手順例を示す流れ図。
【図１９】この発明による音声認識装置の実施形態の機能構成例を示すブロック図。
【図２０】この発明による音声認識方法の実施形態の処理手順例を示す流れ図。
【図２１】AURORA-2Jを用いて評価した第１実施形態の効果を明らかにするための認識結果を示す図。
【図２２】AURORA-2Jを用いて評価した第２実施形態の効果を明らかにするための認識結果を示す図。
【図２３】AURORA-2Jを用いて評価した第３実施形態の効果を明らかにするための認識結果を示す図。

【特許請求の範囲】
【請求項１】
入力オーディオ信号をフィルタ処理して複数の帯域信号に分割する帯域通過フィルタバンクと、
上記各帯域信号に含まれる基本周期を推定する基本周期推定部と、
上記各基本周期がそれぞれ設定され、その各帯域信号を阻止及び通過の一方のフィルタ処理をしてその帯域信号に含まれる周期成分及び非周期成分の対応する一方を出力する櫛型フィルタと、
各帯域の周期成分及び非周期成分の上記一方のパワーを計算する第１パワー計算手段と、
上記各帯域信号のパワーを計算する第２パワー計算手段と、
上記第２パワー計算部の出力パワー値から上記第１パワー計算部の出力パワー値を減算して上記各帯域の周期成分及び非周期成分の他方を出力する減算手段と、
上記各帯域の周期成分パワー値及び上記各帯域の非周期成分パワー値をそれぞれベクトル化する第１及び第２ベクトル化手段と、
上記周期成分パワー値ベクトルと上記非周期成分パワー値とから特徴パラメータを生成する特徴パラメータ生成手段と、
上記オーディオ信号の信号区間における上記特徴パラメータの少くとも一部について統計パラメータを計算する統計パラメータ生成手段と、
上記統計パラメータにより上記特徴パラメータの対応するものを正規化して分析結果特徴パラメータとして出力する正規化手段と
を具備するオーディオ信号分析装置。
【請求項２】
請求項１記載の装置において、
上記特徴パラメータ生成手段は上記周期成分パワー値ベクトル及び上記非周期成分パワー値ベクトルをそれぞれ離散コサイン変換して周期成分離散コサイン係数ベクトル及び非周期成分離散コサイン係数ベクトルを得る第１及び第２離散コサイン変換手段と、
上記周期成分離散コサイン係数ベクトルと上記非周期成分離散コサイン係数ベクトルとを連結して上記特徴パラメータとするベクトル連結手段とを備えることを特徴とするオーディオ信号分析装置。
【請求項３】
請求項１記載の装置において、
上記特徴パラメータ生成手段は上記周期成分パワー値ベクトルと上記非周期成分パワー値ベクトルとを連結するベクトル連結手段と、
上記連結ベクトルの対数値を計算して上記特徴パラメータとする対数計算手段とを備えることを特徴とするオーディオ信号分析装置。
【請求項４】
請求項１記載の装置において、
上記統計パラメータは上記少くとも一部の特徴パラメータの分散値であり、
上記正規化手段は除算手段であることを特徴とするオーディオ信号分析装置。
【請求項５】
請求項１記載の装置において、
上記統計パラメータは上記少くとも一部の特徴パラメータの標準偏差であり、
上記正規化手段は除算手段であることを特徴とするオーディオ信号分析装置。
【請求項６】
請求項１記載の装置において、
上記統計パラメータは変動範囲であり、上記統計パラメータ計算手段は上記少くとも一部の特徴パラメータの最大値を選出する手段と、上記少くとも一部の特徴パラメータの最小値を選出する手段と、最大値から上記最小値を減算して上記変動範囲を求める減算手段を備える変動範囲検出手段であり、
上記正規化手段は除算手段であることを特徴とするオーディオ信号分析装置。
【請求項７】
請求項５又は６記載の装置において、
上記特徴パラメータ生成手段よりの特徴パラメータの少くとも一部の時間平均を求める時間平均手段と、
上記時間平均を上記特徴パラメータの少くとも一部の対応するものから減算して、上記統計パラメータ計算手段及び上記正規化手段へ供給する上記少くとも一部の特徴パラメータを求める減算手段とを備えることを特徴とするオーディオ信号分析装置。
【請求項８】
請求項１記載の装置において、
上記統計パラメータは平均であり、上記統計パラメータ計算手段は上記少くとも一部の特徴パラメータの時間平均を求める時間平均手段であり、
上記正規化手段は減算手段であることを特徴とするオーディオ信号分析装置。
【請求項９】
入力オーディオ信号をフィルタ処理して複数の帯域信号に分割し、
上記各帯域信号に含まれる基本周期を推定し、
上記各帯域信号をその上記推定した基本周期に基づき櫛型フィルタ処理してその帯域信号に含まれる周期成分及び非周期成分の一方を得、
各帯域の周期成分及び非周期成分の上記一方のパワー値を計算し、
上記各帯域信号のパワー値を計算し、
上記各帯域信号のパワー値から上記一方のパワー値を減算して上記各帯域の周期成分及び非周期成分の他方のパワー値を求め、
上記各帯域の周期成分パワー値及び上記各帯域の非周期成分パワー値をそれぞれベクトル化し、
上記周期成分パワー値ベクトルと上記非周期成分パワー値とから特徴パラメータを生成し、
上記オーディオ信号の信号区間における上記特徴パラメータの少くとも一部について統計パラメータを計算し、
上記統計パラメータにより上記特徴パラメータの対応するものを正規化して分析結果特徴パラメータとすることを特徴とするオーディオ信号分析方法。
【請求項１０】
請求項９記載の方法において、
上記周期成分パワー値ベクトル及び上記非周期成分パワー値ベクトルをそれぞれ離散コサイン変換して周期成分離散コサイン係数ベクトル及び非周期成分離散コサイン係数ベクトルを求め、第１及び第２離散コサイン変換手段と、
上記周期成分離散コサイン係数ベクトルと上記非周期成分離散コサイン係数ベクトルとを連結して上記特徴パラメータとすることを特徴とするオーデイオ信号分析方法。
【請求項１１】
請求項９記載の方法において、
上記周期成分パワー値ベクトルと上記非周期成分パワー値ベクトルとを連結し、
上記連結ベクトルの対数値を計算して上記特徴パラメータとすることを特徴とするオーディオ信号分析方法。
【請求項１２】
請求項９記載の方法において、
上記統計パラメータは上記特徴パラメータの分散値であり、
上記分散値により上記少くとも一部の特徴パラメータの対応するものを除算して上記正規化を行うことを特徴とするオーディオ信号分析方法。
【請求項１３】
請求項９記載の方法において、
上記統計パラメータは上記少くとも一部の特徴パラメータの標準偏差であり、
上記標準偏差により上記少くとも一部の特徴パラメータの対応するものを除して上記正規化を得ることを特徴とするオーディオ信号分析方法。
【請求項１４】
請求項９記載の方法において、
上記統計パラメータは変動範囲であり、上記少くとも一部の特徴パラメータの最大値及び最小値をそれぞれ選出し、
上記最大値から上記最小値を減算して上記変動範囲を求め、
上記少くとも一部の特徴パラメータの対応するものを上記変動範囲により除して上記正規化を行うことを特徴とするオーディオ信号分析方法。
【請求項１５】
請求項１３又は１４記載の方法において、
上記特徴パラメータの少くとも一部の時間平均を求め、
上記時間平均を上記特徴パラメータの少くとも一部の対応するものから減算して、上記統計パラメータの計算及び上記正規化に用いることを特徴とするオーディオ信号分析方法。
【請求項１６】
請求項９記載の方法において、
上記統計パラメータは平均であり、上記少くとも一部の特徴パラメータの時間平均を求め、
その時間平均を上記少くとも一部の特徴パラメータから減算して、上記正規化を行うことを特徴とするオーディオ信号分析方法。
【請求項１７】
標準特徴パラメータが格納されている標準パターン記憶部と、
入力された音声信号から、請求項７乃至８のいずれかに記載のオーディオ信号分析装置により音声特徴パラメータを抽出する信号分析部と、
上記音声特徴パラメータが入力され、上記標準パターンを用いて上記音声信号に対する音声認識を行うパターン識別部と、
を具備する音声認識装置。
【請求項１８】
入力音声信号を、請求項９乃至１６のいずれかに記載のオーディオ信号分析方法によって分析して特徴パラメータを求め、
上記特徴パラメータを学習・認識用に用いる音声認識を行うことを特徴とする音声認識方法。
【請求項１９】
コンピュータを、請求項１〜８のいずれか又は請求項１７に記載した装置として機能させるためのプログラム。
【請求項２０】
請求項１９に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。

【図１】