オーディオ信号分析方法、その方法を用いた音声認識方法、それらの装置、プログラムおよびその記録媒体
【課題】雑音などに基づく乗法性歪や加法性歪の影響を補正する。
【解決手段】音声信号をフィルタバンク11により複数の帯域信号に分割し、各帯域信号の非周期成分パワー(13、14、15A)と、周期成分パワー(15F、16)とを求め、周期成分、非周期成分パワーを離散コサイン変換し(17P、17A)、これら離散コサイン係数をベクトル連結する(18)。このようにして得られた特徴パラメータの時間的及び/又はベクトル要素的に少なくとも一部の分散値(又は標準偏差)を求め、この分散値で、連結ベクトルの対応要素を除算(正規化)して(22b)、前記特徴パラメータに対し、乗法性歪や加法性歪の影響を補正する。
【解決手段】音声信号をフィルタバンク11により複数の帯域信号に分割し、各帯域信号の非周期成分パワー(13、14、15A)と、周期成分パワー(15F、16)とを求め、周期成分、非周期成分パワーを離散コサイン変換し(17P、17A)、これら離散コサイン係数をベクトル連結する(18)。このようにして得られた特徴パラメータの時間的及び/又はベクトル要素的に少なくとも一部の分散値(又は標準偏差)を求め、この分散値で、連結ベクトルの対応要素を除算(正規化)して(22b)、前記特徴パラメータに対し、乗法性歪や加法性歪の影響を補正する。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は、音声信号や音楽信号などのオーディオ信号の特徴表現を抽出するオーディオ信号分析方法、その方法を用いた音声認識方法、それらの装置、プログラムおよびその記録媒体に関する。
【背景技術】
【0002】
自動音声認識装置においては、音声特徴表現抽出のための音声信号分析が行われる。頑健性の高い、つまり雑音に影響され難い音声特徴抽出法として、音声信号の周期的な成分と非周期的な成分を分離してそれらを連結して出力する音声信号分析方法がある(非特許文献1参照)。この音声信号分析方法のこの従来の音声信号分析方法を実行する装置の機能構成例を図1に、その処理手順を図2にそれぞれ示す。この音声信号分析装置10は帯域通過フィルタバンク11と、音声波形切出手段12と、周期推定手段13と、櫛型フィルタ手段14と、パワー算出手段15F及び15Aと、減算手段16と、離散コサイン変換手段18P及び18Aと、ベクトル連結手段18とを備える。
【0003】
入力端子100より音声信号分析装置10へ入力される音声信号は、例えば16,000Hzのサンプリングレートでサンプリングされ、その各サンプルがデジタル値に変換された離散音声信号である。
帯域通過フィルタバンク11では、複数の帯域通過デジタルフィルタ111,…,11Bを用いて、入力された離散音声信号を帯域分割して出力する(ステップS1)。ここで用いられる帯域通過フィルタバンク11は、例えば聴知覚の特性に基づく、等価矩形帯域幅の大きさに対応した中心周波数を持つガンマトーンフィルタバンクを用いるとよい(M.Slaney,“An Efficient Implementation of the Patterson-Holdsworth Auditory Filter Bank,”Apple Computer Technical Report #35,1993)。このガンマトーンフィルタバンクでは、帯域通過フィルタ11b(b=1,…,B)であるガンマトーンフィルタを、通過帯域が重なり合うように、かつそれぞれのフィルタの中心周波数が等価矩形帯域幅の大きさ(おおよそ対数スケール)に従うように、例えば24帯域分用意する。このフィルタバンク11の各フィルタの周波数特性の例を図3に示す。図3には複数の帯域通過フィルタ111,…,1124(ガンマトーンフィルタ)の周波数特性が同時に示されている。入力である離散音声信号をフィルタバンク11中のそれぞれの帯域通過フィルタ111,…,11Bでフィルタ処理した結果としてフィルタ数Bだけの離散信号が帯域通過フィルタバンク11から出力される。帯域通過フィルタバンク11の入力信号と出力信号の例として、帯域通過フィルタ11bとして図3に示した24個のフィルタ特性のうちの3つの特性をそれぞれもつガンマトーンフィルタを用いた場合を図4に示す。図4Aは入力離散音声信号の時間的変化を示す波形を示し、図4Bは中心周波数がfc1,fc2及びfc3の帯域通過フィルタ11bの各周波数特性をそれぞれ示し、図4Cはこれら3つの帯域通過フィルタの各出力信号波形をそれぞれ示す。
【0004】
音声波形切出手段12は、帯域通過フィルタバンク11の各帯域通過フィルタ111,…,11Bの出力信号から例えば時間軸方向に10msづつ移動しながら、30msの時間長の信号を各切出部121,…,12Bでそれぞれ切り出す(ステップS2)の結果、例えば480サンプル点(16,000Hz×30ms)の離散信号を160サンプル点(16,000Hz×10ms)づつ移動しながら切り出した信号が音声波形切出手段12の切出部121,…,12Bから出力される。つまり各帯域通過フィルタ111,…,11Bよりの各帯域信号が分析区間(フレーム)ごとに分割される。
【0005】
周期推定手段13は音声波形切出手段12の各切出部121,…,12Bよりの出力信号を入力とし、その各分析区間ごとの各出力信号の周期性の周期を周期推定部131,…,13Bでそれぞれ推定する(ステップS3)。この周期性の推定には例えば基本周波数抽出法の一つである自己相関法(W.Hess,“Pitch determination of speech signals,”Springer-Verlag,New York,1983)を用いる。自己相関法では、まず入力信号の自己相関関数係数を求める。入力信号の全サンプル点数(1分析区間のサンプル点数)をN、j番目のサンプル点の信号の振幅をsjとすると、入力信号の自己相関関数係数aciは以下の式に従って求まる。
【0006】
aci=(1/N)Σj=1N-1-isjsi+j , i=1,…,N
図5Aに入力信号波形の例を、図5Bにこの自己相関関数係数をそれぞれ示す。次に、この自己相関関数係数におけるiの一定の探索範囲内、例えば80≦i≦200(サンプリング周波数16,000Hzの場合の80Hzから200Hzの周期に該当)の範囲内においてaciが最大となるiを検出する。その結果得られたiをnとする。このnは入力信号の探索範囲において最も支配的な周期性成分の周期長を表し、入力信号が単一の完全な周期信号(例えば正弦波)の場合にはその周期長に相当する値になる。周期推定手段13の各周期推定部131,…,13Bから各推定周期nが出力される。
【0007】
櫛型フィルタ手段14は周期推定手段13で得られた周期に基づいた離散櫛型フィルタを設定し、音声波形切出手段12の出力信号をフィルタ処理する(ステップS4)。ここで用いる離散櫛型フィルタの周波数特性は、例えば周期推定手段13の出力周期nに対し、z領域表現で次式とされる。
H(z)=1−z-n
音声波形切出手段12の出力信号をこの離散櫛型フィルタによってフィルタ処理することで得られる出力信号は、その櫛型フィルタの周波数特性における零点に相当する部分(基本周波数成分とその整数倍の周波数成分)のパワーが抑圧された離散信号となる。各周期推定部13b(b=1,…,B)で推定された周期nは櫛型フィルタ手段14の対応するフィルタ部14bに設定され、各切出部12bよりの分析区間ごとの帯域離散音声信号が対応するフィルタ部14bに入力される。図4に示した帯域通過周波数特性中から選んだ3個と帯域通過フィルタの出力信号を音声波形切出手段12によりそれぞれ切り出した信号波形例を図6Aに、これら信号からそれぞれ推定された周期に設定された離散櫛型フィルタのそれぞれの周波数特性を図6Bに、その各フィルタ処理された各出力信号を図6Cにそれぞれ示す。
【0008】
パワー算出手段15Fの各計算部15Fbは音声波形切出手段12の各切出部12bにより出力信号のパワーを計算し、パワー算出手段15Aの各計算部15Abは櫛型フィルタ手段14の各フィルタ部14bの出力信号のパワーを計算する(ステップS5)。各計算部15Fb及び15Abでのパワーの計算Wは例えば次式に示す二乗和を行う。ここで、sjは入力離散信号のサンプル点jにおける振幅を、Nは入力信号の全サンプル点数をそれぞれ表す。
W=Σj=1Nsj2
減算手段16の各減算部16bでは、パワー算出手段15Fの各計算部15Fbの出力パワー値、つまり音声波形切出手段12の切出部12bの出力信号のパワー値WPbから、対応するパワー算出手段15Aの計算部15Abの出力パワー値、つまり切出部12bの出力に対応する櫛型フィルタ手段14のフィルタ部14bの出力信号から算出されたパワー値WAbを減算する(ステップS6)。この結果、各減算部16bから櫛型フィルタ手段14の各フィルタ部14bによって抑圧された周波数成分のパワー値(powersp)、すなわち各帯域離散音声信号の周期成分パワー値WPbを求めることができる。この減算操作を次式に示す。
【0009】
WPb=WFb−WAb
周期成分パワーベクトル化手段20Pは各周期成分パワーWPbが入力され、これらをその対応帯域通過フィルタ11b(b=1,…,B)の中心周波数順に整列したベクトルとし、非周期成分パワーベクトル化手段20Aは同様に各非周期成分パワーWAbをベクトルとする(ステップS7)。離散コサイン変換手段17Pでは、周期成分パワーベクトルに対しその対数値を取って離散コサイン変換を行う(この離散コサイン変換については例えば非特許文献3、14頁参照)。同様に離散コサイン変換手段17Aは非周期成パワーベクトルを離散コサイン変換する(ステップS8)。例えば24帯域分の帯域通過フィルタ11bを用いた場合、WPbおよびWAbはそれぞれ24通り算出される。これらをそれぞれ対応する帯域通過フィルタの中心周波数順に整列し、それぞれ24次元のベクトルとして扱う。その各ベクトルに対し、離散コサイン変換を例えば下記の式に従って行う。
【0010】
【数1】
ここで、pjは対応する帯域通過フィルタの中心周波数順に整列されたWPbまたはWAbによって構成されるB次元ベクトルのj番目の要素(パワー値)を表し、ciは離散コサイン変換後に得られるB次元ベクトルCのi番目の離散コサイン係数を表す。ciはi=1,…,Bのすべてについて求める。離散コサイン変換手段17P及び17Aでは、WPbおよびWAbそれぞれから得られる離散コサイン係数ciPおよびciAを出力とする。
【0011】
ベクトル連結手段18は、離散コサイン変換手段17Pおよび17Aの出力であるWPbおよびWAbに対応するそれぞれN次元の離散コサイン係数ciPおよびciAを入力とし、それぞれの一部または全体を連結して一連のベクトルC=(c1,c2,…,ck)として出力する(ステップS9)。例えばWPbおよびWAbそれぞれの24次元の離散コサイン係数ciPおよびciAが入力とされた場合、それぞれ次数の低い方から12次元の係数を連結して一連の24次元ベクトルとして出力する。この分析方法を用いた場合、雑音下での自動音声認識において所定の頑健性が得られる。
【0012】
音声信号の周期的な成分と非周期的な成分を分離することなく、音声特徴表現を抽出する音声分析方法において次のようなことが知られている。
(1)音声特徴パラメータであるMFCC(メル周波数ケプストラム係数)などの特徴パラメータの分散値によりパラメータを正規化して加法性歪の影響を補正するケプストラム分散正規化法(非特許文献2参照)。
(2)音声認識用モデル作成に用いた音声信号と認識対象音声信号とでマイクロホンや伝送路の違いなどに起因する乗法性歪に対処するため、MFCCなどの特徴パラメータを時間平均し、元のパラメータより減算して乗法性歪の影響を補正するケプストラム平均除去法(非特許文献3、14〜15頁参照)。
【0013】
(3)加法性歪に対処するため、MFCCなどの特徴パラメータのゲイン(大きさ)を正規化して加法性歪の影響を補正するケプストラムゲイン正規化法(非特許文献4参照)。
前記(2)の平均除去法を図7を参照して簡単に説明する。音声信号は音声波形切出部1で分析フレームごとに切出され、各分析フレームごとに離散フーリエ変換部2で離散的フーリエ変換される。そのフーリエ変換結果のスペクトルは、三角窓フィルタ31,…,3Lによりメル周波数軸上で、等間隔かつ両隣接帯域の中心に達する三角窓が掛けられたL個の帯域に分割される。これらL個の帯域スペクトルはパワー算出部41,…,4Lでそれぞれパワーが計算され、これらL個のパワーが対応フィルタの中心周波数の低い順に並べられたパワーベクトルとして離散コサイン変換部5で離散コサイン変換され、MFCCが得られる。
【0014】
このMFCCを時間平均部6で十分な分析フレーム数分の平均をとり、ほぼ一定値となる平均ベクトルが求められ、これがMFCCから減算部7で減算され、音声特徴パラメータとして出力される。なお前記時間平均、減算はそれぞれ対数計算により行われる。
【非特許文献1】Kentaro Ishizuka,Noboru Miyazaki,“Speech feature extraction method representing periodicity and aperiodicity in sub bands for robust speech recognition ,”Proceedings of the 29th International Conference on Acoustics, Speech,and Signal Processing,Vol.1,pp.141-144,2004.
【非特許文献2】Chia-Ping Chen,Karim Filali,Jeff A.Bilmes,“Frontend post-processing and backend model enhancement on the Aurora 2.0/3.0 databases,”Proceedings of the 7th International Conference on Spoken Language Processing, pp.241-244,2002.
【非特許文献3】鹿野清宏,伊藤克亘,河原達也,武田一哉,山本幹雄 編著,“音声認識システム”,オーム社,2001,14〜15頁
【非特許文献4】Shingo Yoshizawa,Noboru Hayasaka,Naoya Wada,Yoshikazu Miyanaga,“Cepstral gain normalization for noise robust speech recognition,”Proceedings of the 29th International Conference on Acoustics,Speech, and Signal Processing,Vol.1, pp.209-212,2004.
【発明の開示】
【発明が解決しようとする課題】
【0015】
非特許文献1に示す、音声信号を周期性と非周期性との2つの成分に分離して特徴パラメータを抽出する方法は、雑音などの加法性歪や乗法性歪などの外部変動要因および音声に内在する変動要因に対し、十分な頑健性が得られない問題がある。非特許文献2〜4に示す技術は、いずれもパワースペクトルの長時間平均がほぼ一定形状になることを前提としているため、その前提に無理があり、同様に前記変動要因に対する十分な頑健性が得られない。
音声信号のみならず、音楽信号などの周期性成分と非周期性成分とが混在する音響信号の特徴を表現するパラメータの分析においても、非特許文献1〜4の各方法を個別に適用しても、同様の問題が生じる。音声信号および音楽信号などの周期性成分と非周期性成分とが混在する信号をオーディオ信号と総称する。
【0016】
この発明の目的は少くともいずれかの歪に基づく変動要因の影響が補正されたオーディオ特徴パラメータを得ることができるオーディオ信号分析方法、その方法を用いた音声認識方法、その装置、プログラムおよびその記録媒体を提供することにある。
【課題を解決するための手段】
【0017】
この発明によればオーディオ信号を周期性成分と非周期性成分とに分離してその特徴パラメータを抽出し、その抽出した特徴パラメータの少なくとも一部について統計パラメータを計算し、その統計パラメータにより上記特徴パラメータの対応するものを正規化して分析結果の特徴パラメータとする。
【発明の効果】
【0018】
この構成によれば周期性成分と非周期性成分とを分離して特徴パラメータを抽出し、その特徴パラメータを、その統計パラメータにより正規化して歪補正をしているため、外部変動要因および内部変動要因の少くとも一方に影響され難い特徴パラメータを得ることができる。
【発明を実施するための最良の形態】
【0019】
以下この発明の実施形態を図面を参照して説明するが、図1およびこれから説明する各図中の対応する部分は同一参照番号を付けて重複説明を省略する。また以下の説明ではオーディオ信号として音声信号にこの発明を適用した場合である。
[第1実施形態]
この発明ではオーディオ信号を周期性成分と非周期性成分とに分離して、特徴パラメータを抽出し、その特徴パラメータの少なくとも一部について統計パラメータを求め、その統計パラメータにより特徴パラメータ中の対応するものを正規化して歪補正を行うが、第1実施形態では統計パラメータとして分散あるいは標準偏差を求めて、外部変動要因ならびに音声に内在する変動要因(内部変動要因)の影響を減ずる歪補正にこの発明を適用した形態である。図8にその機能構成例を図9に処理手順の例をそれぞれ示す。
【0020】
入力端子100よりの入力音声信号は音声区間検出部21で音声区間と検出された部分が信号分析手段10内の帯域通過フィルタバンク11に入力される(ステップS11)。音声区間検出部21は入力信号中の認識すべき音声信号の始めから終わりまでの全区間を音声区間信号として検出する。
この検出された音声信号は信号分析手段10で音声信号が複数の帯域信号に分割され、各帯域信号ごとに周期性成分と非周期性成分とに分離され、音声特徴を表現する特徴パラメータが抽出されて信号分析される(ステップS12)。この信号分析手段10はこの例では図1に示した音声分析装置10と同一構成であり、信号分析処理(ステップS12)は図2に示した処理手順と同一である。なお図8中の離散コサイン変換手段17P及び17Aとベクトル連結手段18は特徴ベクトル生成手段を構成している。
【0021】
この実施形態においては信号分析手段10で分析抽出された特徴パラメータに対し、歪補正手段22で歪補正がなされる(ステップS13)。歪補正手段22においては入力された特徴パラメータ、つまり信号分析手段10内のベクトル連結手段18よりの連結ベクトルの分散値が分散値演算手段22aにより演算される(ステップS13a)。その分散値により信号分析手段10よりの特徴パラメータが除算手段22bで除算されて、歪補正される(ステップS13b)。
これらの処理を更に具体的に説明する。ベクトル連結手段18の出力する離散コサイン係数ベクトルCは、時間方向について音声波形切出手段12を実施する回数、つまり音声区間検出部21で検出された1つの音声区間におけるフレーム(分析区間)の数だけ出力される。音声波形切出手段12における、ある時点(フレーム)τのベクトル連結手段18の出力する離散コサイン係数ベクトルCのk番目の係数をck(τ)と表す。τは、波形切出手段12によって離散化された時間を表す。例えば、音声波形切出手段12が1秒間の音声区間に対し10msづつ移動しながら30msの長さで音声波形を切出す場合、τは1から97(=(1,000(ms)−30(ms))/10(ms))の値をとる。このとき、分散値演算手段22aにおいて、k番目の離散コサイン係数の分散値σk2を、次式のようにck(τ)のτについての分散値σk2として求める。
【0022】
【数2】
βとαは、分散値を計算する範囲を表し、β≧αを満たす。α=1で、βがτの最大値なら、全ての音声区間のパラメータを利用することになり、それ以外の場合は一部の音声区間を利用することに相当する。離散コサイン係数の分散値σk2は、全てまたは一部のkについて求める。
除算手段22bでは、ベクトル連結手段18で得られたk番目の離散コサイン係数ck(τ)を、その分散値σk2により除算して特徴パラメータを正規化補正する。補正済み離散コサイン係数Nck(τ)を次式により求める。
【0023】
Nck(τ)=φk(τ)・ck(τ)/σk2
ここでφk(τ)は除算した結果得られる、正規化された特徴パラメータのスケールを調整する実数パラメータで、例えば1を用いる。
この正規化補正を全てまたは一部のτ、および全てまたは一部のkについて求める。このようにして外部変動要因および音声に内在される変動要因の影響が補正された離散コサイン係数ベクトルCを得ることができる。
図8および図9中に破線で示すように、分散値演算手段22aよりの出力分散値σk2の平方根を開平演算部22cで取り、標準偏差値σk=√(σk2)を求め(ステップS13c)、これを除算手段22bに入力してもよい。
【0024】
この場合、出力される正規化補正特徴パラメータNck(τ)は以下のようになる。
Nck(τ)=φk(τ)・ck(τ)/σk
[第2実施形態]
第2実施形態は統計パラメータとして信号分析により得られた特徴パラメータの時間平均を用いて歪補正を行う。図10にその機能構成例を、図11にその処理手順の例を示す。
入力端子100よりの音声信号は音声区間検出部21を通じて信号分析手段10に入力される。この例では信号分析手段10は図1に示した音声分析装置10と同一構成とした場合である。この信号分析手段10より出力される特徴パラメータに対し、歪補正手段31により乗法性歪の影響を減ずるための処理が行われる(ステップS21)。このため歪補正手段31に入力された特徴パラメータはまず時間平均手段31aにより時間平均される(ステップS21a)。
【0025】
具体的には例えばベクトル連結手段18の出力する離散コサイン係数ベクトルCは、時間方向について音声波形切出手段12による切出し回数、つまり1音声区間における分析区間数だけ出力される。第1実施形態の場合と同様に、ある時点τのベクトル連結手段18の出力する離散コサイン係数ベクトルのk番目の係数をck(τ)のτを波形切出手段12によって離散化された時間を表し、例えば、音声波形切出手段12が1秒間の音声区間に対し10msづつ移動しながら30msの長さで音声波形を切出す場合、τは1から97(=(1,000(ms)−30(ms))/10(ms))の値をとる。このとき、時間平均手段31aにおいて、時間平均離散コサイン係数mkを次の式(1)の計算により求める。
【0026】
【数3】
βとαは、時間平均を取る範囲を表し、β>αを満たす。α=1で、βがτの最大値なら、全ての音声区間を利用することになり、それ以外の場合は一部の音声区間を利用することに相当する。γk(τ)は係数を加算する際の重みで、例えば1を用いる。時間平均離散コサイン係数mkは、全てまたは一部のkについて求める。
次に、減算手段31bにおいて、時間平均手段31aで得られた時間平均離散コサイン係数mkを、ベクトル連結手段18で得られた離散コサイン係数ck(τ)から減算して補正済み離散コサイン係数Nck(τ)を求める(ステップS31b)。この減算式(2)により行う。
【0027】
Nck(τ)=ck(τ)−φk(τ)・mk …(2)
ここでφk(τ)は減算する際に時間平均離散コサイン係数に乗ずる重みで、例えば1を用いる。
これを全てまたは一部のτ、および全てまたは一部のkについて求めることで、乗法性歪が補正された離散コサイン係数ベクトルを得る。
[第3実施形態]
第3実施形態は信号分析により得られた特徴パラメータの変動範囲を統計パラメータとして歪補正を行う。図12にその例の機能構成例を、図13に処理手順の例をそれぞれ示す。
【0028】
入力端子100よりの音声信号は音声区間検出部21を通じて信号分析手段10に入力される。この例では信号分析手段10は図1に示した音声分析装置10と同一構成とした場合である。この信号分析手段10より出力される特徴パラメータに対し、歪補正手段33により加法性歪の影響を減ずるための補正を行う(ステップS23)。歪補正手段33は特徴パラメータの変動範囲を変動範囲検出手段33aにより検出し(ステップS23a)、その検出した変動範囲で特徴パラメータを除算手段33bにおいて割算する(ステップS23b)。
【0029】
具体的には例えばベクトル連結手段18の出力する離散コサイン係数ベクトルCは、時間方向について音声波形切出手段12による切出し回数だけ出力される。これは第1ベクトルのi番目の係数をck(τ)と表す。τは、波形切出手段12によって離散化された時間実施形態及び第2実施形態と同様であって、例えば、音声波形切出手段12が1秒間の音声区間に対し10msづつ移動しながら30msの長さで音声波形を切出す場合、τは1から97の値をとる。変動範囲検出手段33aにおいて最大値選出手段33a1により、次式で与えられる最大離散コサイン係数Maxkを、ck(τ)のτについての最大値として選出する。
【0030】
【数4】
βとαは、最大値を探索する範囲を表し、β≧αを満たす。α=1で、βがτの最大値なら、全ての音声区間を探索することになり、それ以外の場合は一部の音声区間を探索することに相当する。最大離散コサイン係数Maxkは、全てまたは一部のkについて求める。同様に、最小値選出手段33a2によって、次式で与えられる最小離散コサイン係数Minkを、ck(τ)のτについての最小値として求める(ステップS23a1)。
【0031】
【数5】
次に、減算手段33a3において、最大値選出手段33a1および最小値選出手段33a2で得られた最大離散コサイン係数Maxkから最小離散コサイン係数Minkを減算して、離散コサイン係数変化範囲Gaink=Maxk−Minkを全てまたは一部のkについて求める(ステップS23a2)。
除算手段33bでは、ベクトル連結手段18で得られた離散コサイン係数ck(τ)を、検出した範囲Gainkにより除算してパラメータを正規化し、補正済み離散コサイン係数Nck(τ)=φk(τ)・ck(τ)/Gainkを求める。ここでφk(τ)は除算した結果得られる、正規化されたパラメータのスケールを調整する実数パラメータで、例えば1を用いる。このようなNck(τ)を全てまたは一部のτ、および全てまたは一部のkについて求めることで、加法性歪が補正された離散コサイン係数ベクトルを得る。
[変形実施形態]
この発明のオーディオ信号分析における変形実施形態を説明する。その1つとして第1〜第3実施形態において、離散コサイン変換手段17Pおよび17Aを省略する。その場合の機能構成例を図14に、処理手順の例を図15にそれぞれ示す。
【0032】
入力端子100よりの音声信号は必要に応じて音声区間検出部21を通じて信号分析手段35に入力され、信号分析が行われる(ステップS25)。この信号分析手段35は図1中の音声分析装置10中から離散コサイン変換手段17Pおよび17Aが省略され、減算手段16よりの各周期成分と、パワー算出手段15Aよりの各非周期成分との各パワー値がベクトル連結手段18により連結され、この連結されたベクトルの対数値が対数計算手段37で計算される。従って処理手順においては図15中のステップS25に示すように、図2中のステップS1〜S6を実行し、その後、ステップS7の離散コサイン変換を行うことなく、前記パワー値のベクトル連結を行い(ステップS27)、この連結ベクトルの各パワー値の対数値を計算する(ステップS29)。図14中のベクトル連結手段18と対数計算手段37は特徴ベクトル生成手段を構成している。
【0033】
この信号分析手段35よりの特徴パラメータ、この例では対数パワー値ベクトルが歪補正手段39に入力され、歪補正手段39は対数パワー値ベクトルに対し、歪補正を行う(ステップS31)。歪補正手段37は図8中の歪補正手段22、図10中の歪補正手段31、図12中の歪補正手段33などである。ステップS1の歪補正処理は、図9中のステップS13、図11中のステップS21、図13中のステップS23などである。
第1実施形態及び第3実施形態においては、信号分析結果の特徴パラメータに対し、乗法性歪の影響を補正した後に歪補正を行ってもよい。例えば図16に示すように、信号分析手段10からの離散コサイン係数ベクトルを歪補正手段31に入力して、乗法性歪の影響を補正する。この歪補正は例えば、第2実施形態において図10中に示した歪補正手段31と同様の構成により行う。この歪補正された特徴パラメータを、歪補正手段41により更に歪補正を行う。この歪補正手段41は第1実施形態における図8中の歪補正手段22又は第3実施形態における図12中の歪補正手段33である。
【0034】
この処理手順は例えば図17に示すように、図9中のステップ12の信号分析処理の後、その離散コサインベクトルに対し、乗法性歪の影響を補正するための歪補正を行い(ステップS21)、その歪補正された離散コサインベクトルに対し更に、歪補正を行う(ステップS33)。このステップS33における歪補正は図9中のステップS13の歪補正又は図13中のステップS23の歪補正である。
このように特徴パラメータを乗法性歪の影響を補正した後に、更に歪補正することは信号分析手段35から得られる対数パワー値ベクトルに対しても適用することができる。このことを明らかにするために図10中に括弧書きで信号分析手段35及び対数値計算手段37を示し、また図17中に括弧書きで信号分析ステップS25及び対数計算ステップS29をそれぞれ示した。
【0035】
なお帯域通過フィルタバンク11中の帯域通過フィルタの数Bは例えば、入力音声信号のサンプリング周波数が8kHzの場合、24個とされ、サンプリング周波数が高くなるに従って帯域通過フィルタの数Bを大きくするのが好ましい。このようにして乗法性歪の影響を補正した後、加法性歪の影響を補正することができる。
上述において、櫛型フィルタ手段14として、周期推定手段13で推定した周期成分と、その整数倍を阻止する阻止型櫛型フィルタを用いたが、推定した周期成分と、その整数倍を通過させる通過型櫛型フィルタを用いてもよい。その場合の処理手順を図18に示す。いままでの説明と同様に入力音声信号は音声区間検出(ステップS11)、帯域分割(ステップS1)、各帯域ごとの基本周期推定(ステップS2)の各処理が行われる。その後、各帯域信号ごとに、櫛型フィルタ手段14(図8中の括弧書、以下同様)の各フィルタ部141′,…,14B′で対応帯域の推定周期成分とその整数倍成分とのみが通過選出される(ステップS41)。これら選出された各帯域ごとの基本周期成分と、その整数倍成分とのパワー、つまり周期成分パワーWPb(b=1,…,B)が、パワー計算手段15Pの計算部15Pbでそれぞれ計算され、また各帯域信号のパワーWFbがパワー計算手段15Fの各計算部15Fbで計算される(ステップS43)。減算手段16の各減算部16bにおいて計算部15Fbの出力パワーWFbから、計算部15Pb′からの出力パワーWPbが減算されて帯域ごとの非周期成分パワーWAbが求められる(ステップS43)。減算手段16よりの非周期成分パワー値が非周期成分パワーベクトル化手段20Aでベクトル化された後(ステップS7)、離散コサイン変換手段17Aで離散コサイン変換され(ステップS8)、またパワー計算手段15Pよりの周期成分パワー値が周期成分パワーベクトル化手段20Pでベクトル化された後(ステップS7)離散コサイン変換手段17Pで離散コサイン変換される(ステップS8)、その他の処理は先に述べた各実施形態と同様である。この場合も、図8及び図18中に一点鎖線で示すように、離散コサイン変換をすることなく得られた周期成分パワーベクトルと非周期成分パワーベクトルとをベクトル連結手段18でベクトル連結し、その連結されたベクトルの対数値を対数計算部37で求めてもよい。また図18中に括弧書で示すように、図17中に示したように信号分析により得られた特徴パラメータに対し、ステップS21により乗法性歪による影響を除去した後に歪補正処理(ステップS33)を行ってもよい。
【0036】
上述において、分散値σk2、標準偏差σk、時間平均mk、変動範囲Gainkに基づく歪補正は、一部のk、一部のτについて求めればよいと述べたが、この一部とは任意の組み合わせについて求めればよい、例えばkについては低次のものあるいは高次のもの、あるいは適当に選んだ複数でもよい。τについても同様である。つまり特徴パラメータを抽出したい信号に対し、その抽出に影響を与える要因、例えば混入される雑音も比較的定常的なもの突発的なものなど時間的あるいは周波数的に異なる態様に応じ、同様に乗法性歪についてもどのようなものに基づくものかにより、それぞれ適切なkやτが選定される。これは例えば各種要因についてあらかじめ実験により求めておけばよい。このようにして、途中で得られる一部の離散コサイン係数の長時間平均が一定値に近づくkとτとが用いられることになる。
【0037】
第2実施形態で求めた時間平均mkは、統計分布曲線における平均と対応し、またこの時間平均mkを連結ベクトルの対応する要素(係数又はパワー値)から減算することはその要素を正規化することと対応している。従って、第1〜第3実施形態において求める分散、標準偏差、平均、変動範囲を統計パラメータと総称し、かつ係数又はパワー値に対する分散、標準偏差、変動範囲のそれぞれによる除算および時間平均の減算を正規化と総称する。
上述した実施形態では音声信号を分析したが、音楽信号などの周期性成分と非周期性成分とが混在している信号にこの発明の信号分析は適用できる。
[第4実施形態]
第4実施形態は第1〜第3実施形態、変形実施形態のいずれかにより音声信号を信号分析して音声認識をする装置および方法の実施形態である。第4実施形態の機能構成例を図19に、処理手順を図20にそれぞれ示す。この例ではこの音声認識装置60の入力端子200に学習音声データが入力され(ステップS51)、学習処理がされる。つまりこの学習音声データは信号分析部62で分析され、特徴パラメータが抽出される(ステップS52)。入力端子200に入力される学習音声データや認識されるべき音声信号は所定のサンプリング周波数でサンプリングされ、ディジタル値とされた信号系列である。信号分析部62は第1〜第3実施形態、変形実施形態のいずれかと同様な信号分析手段及び歪補正手段を備え、信号分析手段で抽出された特徴パラメータに対し、歪補正された特徴パラメータが信号分析部62から出力される。
【0038】
この学習音声特徴パラメータはパターン(学習)識別部64に入力され、パターン(学習)識別部64は学習音声特徴パラメータから標準パターンを生成して標準パターン記憶部66に格納する(ステップS53)。標準パターンは例えばHMM(隠れマルコフモデル)であり、状態数及び分布数とその各音素ごとの遷移確率、出現確率などのパラメータである。
次に入力端子200に認識されるべき音声信号が入力され(ステップS54)、その入力音声信号は信号分析部62で特徴パラメータが抽出される(ステップS55)。
【0039】
この特徴パラメータはパターン(学習)識別部64で、標準パターン記憶部66に予め格納されている標準パターンと比較され、最も類似度が高い標準パターンと対応する、音素、単語などを表わすデータが出力される(ステップS56)。なおこの学習及び認識の具体的処理は例えば北研二他2名著「音声言語処理」森北出版株式会社、1996年発行37〜43頁を参照されたい。
この例ではまず学習音声データによる標準パターンの学習を行ったが、信号分析部62で抽出される特徴パラメータと同一種類の特徴パラメータによりあらかじめ生成された標準パターンが格納された標準パターン記憶部66を用い、つまり図20において、ステップS51〜ステップS53を省略し、入力された音声信号の認識のみを行うものでもよい。その場合はパターン識別部64は認識処理のみを行う。
【0040】
また標準パターンを生成する学習音声データは、被認識音声が収音される環境雑音と同様な環境雑音が重畳されたものが好ましく、学習音声データから特徴パラメータを抽出する信号分析部としては、被認識入力音声信号より特徴パラメータを抽出する信号分析部と同一または同様のものがよい。
第1〜第2実施形態および変形実施形態の各オーディオ信号分析装置、第4実施形態の音声認識装置はいずれも、コンピュータにより機能させることができる。コンピュータに、例えば図8に示したオーディオ信号分析装置としてコンピュータを機能させるためのプログラムを磁気ディスク、CD−ROM、半導体記憶装置などの記録媒体からインストールし、または通信回線を介してダウンロードし、そのプログラムをそのコンピュータに実行させればよい。なおコンピュータを分析装置あるいは認識装置として機能させる場合はその対象信号を一旦コンピュータ内の記憶装置に取り込んだ後、処理することになる。
[実験例]
以下にこの発明の効果を示すために、この発明による音声信号分析方法によって得られた音声特徴パラメータを用いた音声認識装置と、[従来の技術]項に記載の非特許文献1に示す音声認識装置(単に従来装置という)の、雑音下での数字認識における音声認識精度を比較のために行った実験を説明する。
実験1
この実験1は第1実施形態の効果を明らかにするためであり、この実験には、(社)情報処理学会 音声言語情報処理研究会 雑音下音声認識評価ワーキンググループ 雑音下音声認識評価環境(AURORA−2J)を利用した。この第1実施形態の装置および従来装置とも24チャネルのガンマトーンフィルタバンクをフィルタバンク11として用い音声波形切出手段12での音声波形の切出しは25ms長で10msごとに行い、周期成分パワーWPbおよび非周期成分パワーWAbに対応する離散コサイン変換後の係数ベクトルはそれぞれ12次元、他に入力信号全体のパワーを表すパワー値、あわせて25次元のベクトルを特徴ベクトルとして用い、その動的特徴であるΔパラメータとΔΔパラメータを、ΔMFCC,ΔΔMFCC,Δパワー,ΔΔパワーを求める方法(非特許文献3、13頁参照)と同様にして求め、その結果75次元のベクトルを特徴パラメータとして用いた。
【0041】
この第1実施形態の装置では、前記離散コサイン係数ベクトルに対し図16に示したように歪補正手段31により乗法性歪の補正を行った後、図8中の歪補正手段22において、発話データごとの音声全区間に渡って全ての離散コサイン係数の外部変動要因ならびに音声に内在する変動要因に基づく影響を抑圧するように前記パラメータを、その標準偏差値を用いて補正した。
パターン(学習)識別部64での学習処理には16状態24ガウス分布混合の数字HMMを用い、前記AURORA−2Jに付属する学習音声データ中の8,440発話の雑音が混入した数字読み上げ学習音声データとHMM学習用スクリプト(学習プログラム)とを用いHMM学習を行った。また、同様にAURORA−2Jに付属する評価データにおいて雑音下での数字読み上げ音声のうち強い加法性歪を伴う自動車中雑音が音声と同じパワーで重畳されている評価データ(信号対雑音比0dB、1,001発話)を用い雑音下での数字認識精度の評価を行った。
【0042】
各認識精度の結果を図21に示す。図21に示されたとおり、第1実施形態による加法性歪を補正する音声信号分析方法を用いた場合の音声認識装置の認識精度が従来装置の認識精度よりも10%程度以上高く、第1実施形態の手法が効果的に頑健性を向上することが明らかにされた。
実験2
この実験2は第2実施形態の効果を明らかにするためであり、実験1と異なる点のみを記載する。前記75次元のベクトルを特徴パラメータに対し、図10中の歪補正手段31により乗法性歪の補正を行い、識別部64で処理する数字HMMのガウス分布の数を20とし、評価データとしてAURORA−2Jに付属する評価データ中の、乗法性歪を伴う雑音下での数字読み上げ音声の14,014発話データを用いた。
【0043】
平均での認識精度結果を図22に示す。図22に示されたとおり、第2実施形態装置による乗法性歪を補正する音声信号分析方法を用いた場合の音声認識装置の認識精度が従来装置の認識精度法よりも10%程度高く、第2実施形態の手法が乗法性歪に効果的であることが明らかにされた。
実験3
この実験3は第3実施形態の効果を明らかにするためであり、実験1と異なる点のみを記載する。前記乗法性歪の補正を行った75次元ベクトルの特徴パラメータを、図12中の歪補正手段33において変動範囲gainkにより正規化して、加法性歪の補正を行った。
【0044】
認識精度の結果を図23に示す。図23に示されたとおり、第3実施形態による加法性歪を補正する音声信号分析方法を用いた場合の装置の認識精度が従来装置の認識精度よりも10%程度以上高く、第3実施形態の手法が加法性歪に効果的であることが明らかにされた。
従来との差の理由
図7に示した従来方法および非特許文献2及び4にそれぞれ示す従来方法のいずれにおいても、離散フーリエ変換の結果得られるパワースペクトルに基づいた離散コサイン係数であることが前提となる。具体的には、雑音や乗法性歪が時間方向に急激な変化なくパワースペクトルに一定の変動を与えており、かつ音声のパワースペクトルの長時間平均が一定の形状に近づく性質を前提とする。つまり音声信号のパワースペクトルの形状を利用するものである。
【0045】
それに対し、図1に示した従来方法で抽出される特徴パラメータとしての離散コサイン係数は、パワースペクトル形状に基づくものではなく、しかも、音声信号を周期成分と非周期成分に分割しているため、それぞれの成分の長時間平均が一定に近づく保証はない。従って図1に示した従来方法で得られた離散コサイン係数(連結ベクトル)をその平均・変動範囲・分散・標準偏差で正規化することは通常は考えられない。
しかしこの発明においては正規化を効果的に適用する特徴パラメータとして、分析中途で得られる離散コサイン係数あるいはパワー値が長時間平均で一定の値に近づく性質のものとしている。つまり特徴パラメータの一部についてその統計パラメータを求め、その統計パラメータで前記一部の特徴パラメータを正規化しているため前記のような優れた効果が得られる。
【0046】
しかし、図1に示した従来方法より得られた連結ベクトル(特徴パラメータ、離散コサイン係数ベクトル)の一部、つまりそのベクトルの要素中のいずれかの複数個及び/又は音声区間におけるいずれかの複数のフレーム(分析区間)については、時間平均がほぼ一定値になることに着目し、その平均値で特徴パラメータ中の対応するものを正規化することを考えた。
先に示した各実験では、特徴パラメータの一部ではなく、全てに対して歪補正をしているが、この発明方法が優れている結果となっている。これは前記特徴パラメータの一部に対する歪補正が大きく影響しているためと思われ、時間平均がほぼ一定値になる部分のみに対して歪補正をすればより大きな効果が得られると思われる。
【図面の簡単な説明】
【0047】
【図1】非特許文献1の技術を説明するための音声信号分析装置の機能構成を示すブロック図。
【図2】図1に示した装置の処理手順を示す流れ図。
【図3】ガンマトーンフィルタバンクの周波数特性の例を示す図。
【図4】Aは入力音声波形例を、Bは3つのガンマトーンフィルタの特性例を、Cはその各フィルタの出力信号をそれぞれ示す図である。
【図5】Aは切り出された音声波形例を、Bはその自己相関関数をそれぞれ示す図である。
【図6】Aは3つの櫛型フィルタの入力信号例を、Bは上記櫛型フィルタの周波数特性例を、Cはその各出力信号の例をそれぞれ示す図である。
【図7】非特許文献3の技術を説明するための音声信号分析装置の機能構成を示すブロック図。
【図8】第1実施形態の装置の機能構成例を示すブロック図。
【図9】第1実施形態の分析方法の手順例を示す流れ図。
【図10】第2実施形態の装置の機能構成例を示すブロック図。
【図11】第2実施形態の方法の手順例を示す流れ図。
【図12】第3実施形態の装置の機能構成例を示すブロック図。
【図13】第3実施形態の方法の手順例を示す流れ図。
【図14】パワー値を特徴パラメータとする実施形態の装置の機能構成例を示すブロック図。
【図15】図14に示した装置の処理手順例を示す流れ図。
【図16】特徴パラメータに乗法性歪補正を行った後、統計パラメータを求める実施形態の機能構成例を示すブロック図。
【図17】図16に示した装置の処理手順例を示す流れ図。
【図18】特徴パラメータの生成の他の実施形態の処理手順例を示す流れ図。
【図19】この発明による音声認識装置の実施形態の機能構成例を示すブロック図。
【図20】この発明による音声認識方法の実施形態の処理手順例を示す流れ図。
【図21】AURORA-2Jを用いて評価した第1実施形態の効果を明らかにするための認識結果を示す図。
【図22】AURORA-2Jを用いて評価した第2実施形態の効果を明らかにするための認識結果を示す図。
【図23】AURORA-2Jを用いて評価した第3実施形態の効果を明らかにするための認識結果を示す図。
【技術分野】
【0001】
この発明は、音声信号や音楽信号などのオーディオ信号の特徴表現を抽出するオーディオ信号分析方法、その方法を用いた音声認識方法、それらの装置、プログラムおよびその記録媒体に関する。
【背景技術】
【0002】
自動音声認識装置においては、音声特徴表現抽出のための音声信号分析が行われる。頑健性の高い、つまり雑音に影響され難い音声特徴抽出法として、音声信号の周期的な成分と非周期的な成分を分離してそれらを連結して出力する音声信号分析方法がある(非特許文献1参照)。この音声信号分析方法のこの従来の音声信号分析方法を実行する装置の機能構成例を図1に、その処理手順を図2にそれぞれ示す。この音声信号分析装置10は帯域通過フィルタバンク11と、音声波形切出手段12と、周期推定手段13と、櫛型フィルタ手段14と、パワー算出手段15F及び15Aと、減算手段16と、離散コサイン変換手段18P及び18Aと、ベクトル連結手段18とを備える。
【0003】
入力端子100より音声信号分析装置10へ入力される音声信号は、例えば16,000Hzのサンプリングレートでサンプリングされ、その各サンプルがデジタル値に変換された離散音声信号である。
帯域通過フィルタバンク11では、複数の帯域通過デジタルフィルタ111,…,11Bを用いて、入力された離散音声信号を帯域分割して出力する(ステップS1)。ここで用いられる帯域通過フィルタバンク11は、例えば聴知覚の特性に基づく、等価矩形帯域幅の大きさに対応した中心周波数を持つガンマトーンフィルタバンクを用いるとよい(M.Slaney,“An Efficient Implementation of the Patterson-Holdsworth Auditory Filter Bank,”Apple Computer Technical Report #35,1993)。このガンマトーンフィルタバンクでは、帯域通過フィルタ11b(b=1,…,B)であるガンマトーンフィルタを、通過帯域が重なり合うように、かつそれぞれのフィルタの中心周波数が等価矩形帯域幅の大きさ(おおよそ対数スケール)に従うように、例えば24帯域分用意する。このフィルタバンク11の各フィルタの周波数特性の例を図3に示す。図3には複数の帯域通過フィルタ111,…,1124(ガンマトーンフィルタ)の周波数特性が同時に示されている。入力である離散音声信号をフィルタバンク11中のそれぞれの帯域通過フィルタ111,…,11Bでフィルタ処理した結果としてフィルタ数Bだけの離散信号が帯域通過フィルタバンク11から出力される。帯域通過フィルタバンク11の入力信号と出力信号の例として、帯域通過フィルタ11bとして図3に示した24個のフィルタ特性のうちの3つの特性をそれぞれもつガンマトーンフィルタを用いた場合を図4に示す。図4Aは入力離散音声信号の時間的変化を示す波形を示し、図4Bは中心周波数がfc1,fc2及びfc3の帯域通過フィルタ11bの各周波数特性をそれぞれ示し、図4Cはこれら3つの帯域通過フィルタの各出力信号波形をそれぞれ示す。
【0004】
音声波形切出手段12は、帯域通過フィルタバンク11の各帯域通過フィルタ111,…,11Bの出力信号から例えば時間軸方向に10msづつ移動しながら、30msの時間長の信号を各切出部121,…,12Bでそれぞれ切り出す(ステップS2)の結果、例えば480サンプル点(16,000Hz×30ms)の離散信号を160サンプル点(16,000Hz×10ms)づつ移動しながら切り出した信号が音声波形切出手段12の切出部121,…,12Bから出力される。つまり各帯域通過フィルタ111,…,11Bよりの各帯域信号が分析区間(フレーム)ごとに分割される。
【0005】
周期推定手段13は音声波形切出手段12の各切出部121,…,12Bよりの出力信号を入力とし、その各分析区間ごとの各出力信号の周期性の周期を周期推定部131,…,13Bでそれぞれ推定する(ステップS3)。この周期性の推定には例えば基本周波数抽出法の一つである自己相関法(W.Hess,“Pitch determination of speech signals,”Springer-Verlag,New York,1983)を用いる。自己相関法では、まず入力信号の自己相関関数係数を求める。入力信号の全サンプル点数(1分析区間のサンプル点数)をN、j番目のサンプル点の信号の振幅をsjとすると、入力信号の自己相関関数係数aciは以下の式に従って求まる。
【0006】
aci=(1/N)Σj=1N-1-isjsi+j , i=1,…,N
図5Aに入力信号波形の例を、図5Bにこの自己相関関数係数をそれぞれ示す。次に、この自己相関関数係数におけるiの一定の探索範囲内、例えば80≦i≦200(サンプリング周波数16,000Hzの場合の80Hzから200Hzの周期に該当)の範囲内においてaciが最大となるiを検出する。その結果得られたiをnとする。このnは入力信号の探索範囲において最も支配的な周期性成分の周期長を表し、入力信号が単一の完全な周期信号(例えば正弦波)の場合にはその周期長に相当する値になる。周期推定手段13の各周期推定部131,…,13Bから各推定周期nが出力される。
【0007】
櫛型フィルタ手段14は周期推定手段13で得られた周期に基づいた離散櫛型フィルタを設定し、音声波形切出手段12の出力信号をフィルタ処理する(ステップS4)。ここで用いる離散櫛型フィルタの周波数特性は、例えば周期推定手段13の出力周期nに対し、z領域表現で次式とされる。
H(z)=1−z-n
音声波形切出手段12の出力信号をこの離散櫛型フィルタによってフィルタ処理することで得られる出力信号は、その櫛型フィルタの周波数特性における零点に相当する部分(基本周波数成分とその整数倍の周波数成分)のパワーが抑圧された離散信号となる。各周期推定部13b(b=1,…,B)で推定された周期nは櫛型フィルタ手段14の対応するフィルタ部14bに設定され、各切出部12bよりの分析区間ごとの帯域離散音声信号が対応するフィルタ部14bに入力される。図4に示した帯域通過周波数特性中から選んだ3個と帯域通過フィルタの出力信号を音声波形切出手段12によりそれぞれ切り出した信号波形例を図6Aに、これら信号からそれぞれ推定された周期に設定された離散櫛型フィルタのそれぞれの周波数特性を図6Bに、その各フィルタ処理された各出力信号を図6Cにそれぞれ示す。
【0008】
パワー算出手段15Fの各計算部15Fbは音声波形切出手段12の各切出部12bにより出力信号のパワーを計算し、パワー算出手段15Aの各計算部15Abは櫛型フィルタ手段14の各フィルタ部14bの出力信号のパワーを計算する(ステップS5)。各計算部15Fb及び15Abでのパワーの計算Wは例えば次式に示す二乗和を行う。ここで、sjは入力離散信号のサンプル点jにおける振幅を、Nは入力信号の全サンプル点数をそれぞれ表す。
W=Σj=1Nsj2
減算手段16の各減算部16bでは、パワー算出手段15Fの各計算部15Fbの出力パワー値、つまり音声波形切出手段12の切出部12bの出力信号のパワー値WPbから、対応するパワー算出手段15Aの計算部15Abの出力パワー値、つまり切出部12bの出力に対応する櫛型フィルタ手段14のフィルタ部14bの出力信号から算出されたパワー値WAbを減算する(ステップS6)。この結果、各減算部16bから櫛型フィルタ手段14の各フィルタ部14bによって抑圧された周波数成分のパワー値(powersp)、すなわち各帯域離散音声信号の周期成分パワー値WPbを求めることができる。この減算操作を次式に示す。
【0009】
WPb=WFb−WAb
周期成分パワーベクトル化手段20Pは各周期成分パワーWPbが入力され、これらをその対応帯域通過フィルタ11b(b=1,…,B)の中心周波数順に整列したベクトルとし、非周期成分パワーベクトル化手段20Aは同様に各非周期成分パワーWAbをベクトルとする(ステップS7)。離散コサイン変換手段17Pでは、周期成分パワーベクトルに対しその対数値を取って離散コサイン変換を行う(この離散コサイン変換については例えば非特許文献3、14頁参照)。同様に離散コサイン変換手段17Aは非周期成パワーベクトルを離散コサイン変換する(ステップS8)。例えば24帯域分の帯域通過フィルタ11bを用いた場合、WPbおよびWAbはそれぞれ24通り算出される。これらをそれぞれ対応する帯域通過フィルタの中心周波数順に整列し、それぞれ24次元のベクトルとして扱う。その各ベクトルに対し、離散コサイン変換を例えば下記の式に従って行う。
【0010】
【数1】
ここで、pjは対応する帯域通過フィルタの中心周波数順に整列されたWPbまたはWAbによって構成されるB次元ベクトルのj番目の要素(パワー値)を表し、ciは離散コサイン変換後に得られるB次元ベクトルCのi番目の離散コサイン係数を表す。ciはi=1,…,Bのすべてについて求める。離散コサイン変換手段17P及び17Aでは、WPbおよびWAbそれぞれから得られる離散コサイン係数ciPおよびciAを出力とする。
【0011】
ベクトル連結手段18は、離散コサイン変換手段17Pおよび17Aの出力であるWPbおよびWAbに対応するそれぞれN次元の離散コサイン係数ciPおよびciAを入力とし、それぞれの一部または全体を連結して一連のベクトルC=(c1,c2,…,ck)として出力する(ステップS9)。例えばWPbおよびWAbそれぞれの24次元の離散コサイン係数ciPおよびciAが入力とされた場合、それぞれ次数の低い方から12次元の係数を連結して一連の24次元ベクトルとして出力する。この分析方法を用いた場合、雑音下での自動音声認識において所定の頑健性が得られる。
【0012】
音声信号の周期的な成分と非周期的な成分を分離することなく、音声特徴表現を抽出する音声分析方法において次のようなことが知られている。
(1)音声特徴パラメータであるMFCC(メル周波数ケプストラム係数)などの特徴パラメータの分散値によりパラメータを正規化して加法性歪の影響を補正するケプストラム分散正規化法(非特許文献2参照)。
(2)音声認識用モデル作成に用いた音声信号と認識対象音声信号とでマイクロホンや伝送路の違いなどに起因する乗法性歪に対処するため、MFCCなどの特徴パラメータを時間平均し、元のパラメータより減算して乗法性歪の影響を補正するケプストラム平均除去法(非特許文献3、14〜15頁参照)。
【0013】
(3)加法性歪に対処するため、MFCCなどの特徴パラメータのゲイン(大きさ)を正規化して加法性歪の影響を補正するケプストラムゲイン正規化法(非特許文献4参照)。
前記(2)の平均除去法を図7を参照して簡単に説明する。音声信号は音声波形切出部1で分析フレームごとに切出され、各分析フレームごとに離散フーリエ変換部2で離散的フーリエ変換される。そのフーリエ変換結果のスペクトルは、三角窓フィルタ31,…,3Lによりメル周波数軸上で、等間隔かつ両隣接帯域の中心に達する三角窓が掛けられたL個の帯域に分割される。これらL個の帯域スペクトルはパワー算出部41,…,4Lでそれぞれパワーが計算され、これらL個のパワーが対応フィルタの中心周波数の低い順に並べられたパワーベクトルとして離散コサイン変換部5で離散コサイン変換され、MFCCが得られる。
【0014】
このMFCCを時間平均部6で十分な分析フレーム数分の平均をとり、ほぼ一定値となる平均ベクトルが求められ、これがMFCCから減算部7で減算され、音声特徴パラメータとして出力される。なお前記時間平均、減算はそれぞれ対数計算により行われる。
【非特許文献1】Kentaro Ishizuka,Noboru Miyazaki,“Speech feature extraction method representing periodicity and aperiodicity in sub bands for robust speech recognition ,”Proceedings of the 29th International Conference on Acoustics, Speech,and Signal Processing,Vol.1,pp.141-144,2004.
【非特許文献2】Chia-Ping Chen,Karim Filali,Jeff A.Bilmes,“Frontend post-processing and backend model enhancement on the Aurora 2.0/3.0 databases,”Proceedings of the 7th International Conference on Spoken Language Processing, pp.241-244,2002.
【非特許文献3】鹿野清宏,伊藤克亘,河原達也,武田一哉,山本幹雄 編著,“音声認識システム”,オーム社,2001,14〜15頁
【非特許文献4】Shingo Yoshizawa,Noboru Hayasaka,Naoya Wada,Yoshikazu Miyanaga,“Cepstral gain normalization for noise robust speech recognition,”Proceedings of the 29th International Conference on Acoustics,Speech, and Signal Processing,Vol.1, pp.209-212,2004.
【発明の開示】
【発明が解決しようとする課題】
【0015】
非特許文献1に示す、音声信号を周期性と非周期性との2つの成分に分離して特徴パラメータを抽出する方法は、雑音などの加法性歪や乗法性歪などの外部変動要因および音声に内在する変動要因に対し、十分な頑健性が得られない問題がある。非特許文献2〜4に示す技術は、いずれもパワースペクトルの長時間平均がほぼ一定形状になることを前提としているため、その前提に無理があり、同様に前記変動要因に対する十分な頑健性が得られない。
音声信号のみならず、音楽信号などの周期性成分と非周期性成分とが混在する音響信号の特徴を表現するパラメータの分析においても、非特許文献1〜4の各方法を個別に適用しても、同様の問題が生じる。音声信号および音楽信号などの周期性成分と非周期性成分とが混在する信号をオーディオ信号と総称する。
【0016】
この発明の目的は少くともいずれかの歪に基づく変動要因の影響が補正されたオーディオ特徴パラメータを得ることができるオーディオ信号分析方法、その方法を用いた音声認識方法、その装置、プログラムおよびその記録媒体を提供することにある。
【課題を解決するための手段】
【0017】
この発明によればオーディオ信号を周期性成分と非周期性成分とに分離してその特徴パラメータを抽出し、その抽出した特徴パラメータの少なくとも一部について統計パラメータを計算し、その統計パラメータにより上記特徴パラメータの対応するものを正規化して分析結果の特徴パラメータとする。
【発明の効果】
【0018】
この構成によれば周期性成分と非周期性成分とを分離して特徴パラメータを抽出し、その特徴パラメータを、その統計パラメータにより正規化して歪補正をしているため、外部変動要因および内部変動要因の少くとも一方に影響され難い特徴パラメータを得ることができる。
【発明を実施するための最良の形態】
【0019】
以下この発明の実施形態を図面を参照して説明するが、図1およびこれから説明する各図中の対応する部分は同一参照番号を付けて重複説明を省略する。また以下の説明ではオーディオ信号として音声信号にこの発明を適用した場合である。
[第1実施形態]
この発明ではオーディオ信号を周期性成分と非周期性成分とに分離して、特徴パラメータを抽出し、その特徴パラメータの少なくとも一部について統計パラメータを求め、その統計パラメータにより特徴パラメータ中の対応するものを正規化して歪補正を行うが、第1実施形態では統計パラメータとして分散あるいは標準偏差を求めて、外部変動要因ならびに音声に内在する変動要因(内部変動要因)の影響を減ずる歪補正にこの発明を適用した形態である。図8にその機能構成例を図9に処理手順の例をそれぞれ示す。
【0020】
入力端子100よりの入力音声信号は音声区間検出部21で音声区間と検出された部分が信号分析手段10内の帯域通過フィルタバンク11に入力される(ステップS11)。音声区間検出部21は入力信号中の認識すべき音声信号の始めから終わりまでの全区間を音声区間信号として検出する。
この検出された音声信号は信号分析手段10で音声信号が複数の帯域信号に分割され、各帯域信号ごとに周期性成分と非周期性成分とに分離され、音声特徴を表現する特徴パラメータが抽出されて信号分析される(ステップS12)。この信号分析手段10はこの例では図1に示した音声分析装置10と同一構成であり、信号分析処理(ステップS12)は図2に示した処理手順と同一である。なお図8中の離散コサイン変換手段17P及び17Aとベクトル連結手段18は特徴ベクトル生成手段を構成している。
【0021】
この実施形態においては信号分析手段10で分析抽出された特徴パラメータに対し、歪補正手段22で歪補正がなされる(ステップS13)。歪補正手段22においては入力された特徴パラメータ、つまり信号分析手段10内のベクトル連結手段18よりの連結ベクトルの分散値が分散値演算手段22aにより演算される(ステップS13a)。その分散値により信号分析手段10よりの特徴パラメータが除算手段22bで除算されて、歪補正される(ステップS13b)。
これらの処理を更に具体的に説明する。ベクトル連結手段18の出力する離散コサイン係数ベクトルCは、時間方向について音声波形切出手段12を実施する回数、つまり音声区間検出部21で検出された1つの音声区間におけるフレーム(分析区間)の数だけ出力される。音声波形切出手段12における、ある時点(フレーム)τのベクトル連結手段18の出力する離散コサイン係数ベクトルCのk番目の係数をck(τ)と表す。τは、波形切出手段12によって離散化された時間を表す。例えば、音声波形切出手段12が1秒間の音声区間に対し10msづつ移動しながら30msの長さで音声波形を切出す場合、τは1から97(=(1,000(ms)−30(ms))/10(ms))の値をとる。このとき、分散値演算手段22aにおいて、k番目の離散コサイン係数の分散値σk2を、次式のようにck(τ)のτについての分散値σk2として求める。
【0022】
【数2】
βとαは、分散値を計算する範囲を表し、β≧αを満たす。α=1で、βがτの最大値なら、全ての音声区間のパラメータを利用することになり、それ以外の場合は一部の音声区間を利用することに相当する。離散コサイン係数の分散値σk2は、全てまたは一部のkについて求める。
除算手段22bでは、ベクトル連結手段18で得られたk番目の離散コサイン係数ck(τ)を、その分散値σk2により除算して特徴パラメータを正規化補正する。補正済み離散コサイン係数Nck(τ)を次式により求める。
【0023】
Nck(τ)=φk(τ)・ck(τ)/σk2
ここでφk(τ)は除算した結果得られる、正規化された特徴パラメータのスケールを調整する実数パラメータで、例えば1を用いる。
この正規化補正を全てまたは一部のτ、および全てまたは一部のkについて求める。このようにして外部変動要因および音声に内在される変動要因の影響が補正された離散コサイン係数ベクトルCを得ることができる。
図8および図9中に破線で示すように、分散値演算手段22aよりの出力分散値σk2の平方根を開平演算部22cで取り、標準偏差値σk=√(σk2)を求め(ステップS13c)、これを除算手段22bに入力してもよい。
【0024】
この場合、出力される正規化補正特徴パラメータNck(τ)は以下のようになる。
Nck(τ)=φk(τ)・ck(τ)/σk
[第2実施形態]
第2実施形態は統計パラメータとして信号分析により得られた特徴パラメータの時間平均を用いて歪補正を行う。図10にその機能構成例を、図11にその処理手順の例を示す。
入力端子100よりの音声信号は音声区間検出部21を通じて信号分析手段10に入力される。この例では信号分析手段10は図1に示した音声分析装置10と同一構成とした場合である。この信号分析手段10より出力される特徴パラメータに対し、歪補正手段31により乗法性歪の影響を減ずるための処理が行われる(ステップS21)。このため歪補正手段31に入力された特徴パラメータはまず時間平均手段31aにより時間平均される(ステップS21a)。
【0025】
具体的には例えばベクトル連結手段18の出力する離散コサイン係数ベクトルCは、時間方向について音声波形切出手段12による切出し回数、つまり1音声区間における分析区間数だけ出力される。第1実施形態の場合と同様に、ある時点τのベクトル連結手段18の出力する離散コサイン係数ベクトルのk番目の係数をck(τ)のτを波形切出手段12によって離散化された時間を表し、例えば、音声波形切出手段12が1秒間の音声区間に対し10msづつ移動しながら30msの長さで音声波形を切出す場合、τは1から97(=(1,000(ms)−30(ms))/10(ms))の値をとる。このとき、時間平均手段31aにおいて、時間平均離散コサイン係数mkを次の式(1)の計算により求める。
【0026】
【数3】
βとαは、時間平均を取る範囲を表し、β>αを満たす。α=1で、βがτの最大値なら、全ての音声区間を利用することになり、それ以外の場合は一部の音声区間を利用することに相当する。γk(τ)は係数を加算する際の重みで、例えば1を用いる。時間平均離散コサイン係数mkは、全てまたは一部のkについて求める。
次に、減算手段31bにおいて、時間平均手段31aで得られた時間平均離散コサイン係数mkを、ベクトル連結手段18で得られた離散コサイン係数ck(τ)から減算して補正済み離散コサイン係数Nck(τ)を求める(ステップS31b)。この減算式(2)により行う。
【0027】
Nck(τ)=ck(τ)−φk(τ)・mk …(2)
ここでφk(τ)は減算する際に時間平均離散コサイン係数に乗ずる重みで、例えば1を用いる。
これを全てまたは一部のτ、および全てまたは一部のkについて求めることで、乗法性歪が補正された離散コサイン係数ベクトルを得る。
[第3実施形態]
第3実施形態は信号分析により得られた特徴パラメータの変動範囲を統計パラメータとして歪補正を行う。図12にその例の機能構成例を、図13に処理手順の例をそれぞれ示す。
【0028】
入力端子100よりの音声信号は音声区間検出部21を通じて信号分析手段10に入力される。この例では信号分析手段10は図1に示した音声分析装置10と同一構成とした場合である。この信号分析手段10より出力される特徴パラメータに対し、歪補正手段33により加法性歪の影響を減ずるための補正を行う(ステップS23)。歪補正手段33は特徴パラメータの変動範囲を変動範囲検出手段33aにより検出し(ステップS23a)、その検出した変動範囲で特徴パラメータを除算手段33bにおいて割算する(ステップS23b)。
【0029】
具体的には例えばベクトル連結手段18の出力する離散コサイン係数ベクトルCは、時間方向について音声波形切出手段12による切出し回数だけ出力される。これは第1ベクトルのi番目の係数をck(τ)と表す。τは、波形切出手段12によって離散化された時間実施形態及び第2実施形態と同様であって、例えば、音声波形切出手段12が1秒間の音声区間に対し10msづつ移動しながら30msの長さで音声波形を切出す場合、τは1から97の値をとる。変動範囲検出手段33aにおいて最大値選出手段33a1により、次式で与えられる最大離散コサイン係数Maxkを、ck(τ)のτについての最大値として選出する。
【0030】
【数4】
βとαは、最大値を探索する範囲を表し、β≧αを満たす。α=1で、βがτの最大値なら、全ての音声区間を探索することになり、それ以外の場合は一部の音声区間を探索することに相当する。最大離散コサイン係数Maxkは、全てまたは一部のkについて求める。同様に、最小値選出手段33a2によって、次式で与えられる最小離散コサイン係数Minkを、ck(τ)のτについての最小値として求める(ステップS23a1)。
【0031】
【数5】
次に、減算手段33a3において、最大値選出手段33a1および最小値選出手段33a2で得られた最大離散コサイン係数Maxkから最小離散コサイン係数Minkを減算して、離散コサイン係数変化範囲Gaink=Maxk−Minkを全てまたは一部のkについて求める(ステップS23a2)。
除算手段33bでは、ベクトル連結手段18で得られた離散コサイン係数ck(τ)を、検出した範囲Gainkにより除算してパラメータを正規化し、補正済み離散コサイン係数Nck(τ)=φk(τ)・ck(τ)/Gainkを求める。ここでφk(τ)は除算した結果得られる、正規化されたパラメータのスケールを調整する実数パラメータで、例えば1を用いる。このようなNck(τ)を全てまたは一部のτ、および全てまたは一部のkについて求めることで、加法性歪が補正された離散コサイン係数ベクトルを得る。
[変形実施形態]
この発明のオーディオ信号分析における変形実施形態を説明する。その1つとして第1〜第3実施形態において、離散コサイン変換手段17Pおよび17Aを省略する。その場合の機能構成例を図14に、処理手順の例を図15にそれぞれ示す。
【0032】
入力端子100よりの音声信号は必要に応じて音声区間検出部21を通じて信号分析手段35に入力され、信号分析が行われる(ステップS25)。この信号分析手段35は図1中の音声分析装置10中から離散コサイン変換手段17Pおよび17Aが省略され、減算手段16よりの各周期成分と、パワー算出手段15Aよりの各非周期成分との各パワー値がベクトル連結手段18により連結され、この連結されたベクトルの対数値が対数計算手段37で計算される。従って処理手順においては図15中のステップS25に示すように、図2中のステップS1〜S6を実行し、その後、ステップS7の離散コサイン変換を行うことなく、前記パワー値のベクトル連結を行い(ステップS27)、この連結ベクトルの各パワー値の対数値を計算する(ステップS29)。図14中のベクトル連結手段18と対数計算手段37は特徴ベクトル生成手段を構成している。
【0033】
この信号分析手段35よりの特徴パラメータ、この例では対数パワー値ベクトルが歪補正手段39に入力され、歪補正手段39は対数パワー値ベクトルに対し、歪補正を行う(ステップS31)。歪補正手段37は図8中の歪補正手段22、図10中の歪補正手段31、図12中の歪補正手段33などである。ステップS1の歪補正処理は、図9中のステップS13、図11中のステップS21、図13中のステップS23などである。
第1実施形態及び第3実施形態においては、信号分析結果の特徴パラメータに対し、乗法性歪の影響を補正した後に歪補正を行ってもよい。例えば図16に示すように、信号分析手段10からの離散コサイン係数ベクトルを歪補正手段31に入力して、乗法性歪の影響を補正する。この歪補正は例えば、第2実施形態において図10中に示した歪補正手段31と同様の構成により行う。この歪補正された特徴パラメータを、歪補正手段41により更に歪補正を行う。この歪補正手段41は第1実施形態における図8中の歪補正手段22又は第3実施形態における図12中の歪補正手段33である。
【0034】
この処理手順は例えば図17に示すように、図9中のステップ12の信号分析処理の後、その離散コサインベクトルに対し、乗法性歪の影響を補正するための歪補正を行い(ステップS21)、その歪補正された離散コサインベクトルに対し更に、歪補正を行う(ステップS33)。このステップS33における歪補正は図9中のステップS13の歪補正又は図13中のステップS23の歪補正である。
このように特徴パラメータを乗法性歪の影響を補正した後に、更に歪補正することは信号分析手段35から得られる対数パワー値ベクトルに対しても適用することができる。このことを明らかにするために図10中に括弧書きで信号分析手段35及び対数値計算手段37を示し、また図17中に括弧書きで信号分析ステップS25及び対数計算ステップS29をそれぞれ示した。
【0035】
なお帯域通過フィルタバンク11中の帯域通過フィルタの数Bは例えば、入力音声信号のサンプリング周波数が8kHzの場合、24個とされ、サンプリング周波数が高くなるに従って帯域通過フィルタの数Bを大きくするのが好ましい。このようにして乗法性歪の影響を補正した後、加法性歪の影響を補正することができる。
上述において、櫛型フィルタ手段14として、周期推定手段13で推定した周期成分と、その整数倍を阻止する阻止型櫛型フィルタを用いたが、推定した周期成分と、その整数倍を通過させる通過型櫛型フィルタを用いてもよい。その場合の処理手順を図18に示す。いままでの説明と同様に入力音声信号は音声区間検出(ステップS11)、帯域分割(ステップS1)、各帯域ごとの基本周期推定(ステップS2)の各処理が行われる。その後、各帯域信号ごとに、櫛型フィルタ手段14(図8中の括弧書、以下同様)の各フィルタ部141′,…,14B′で対応帯域の推定周期成分とその整数倍成分とのみが通過選出される(ステップS41)。これら選出された各帯域ごとの基本周期成分と、その整数倍成分とのパワー、つまり周期成分パワーWPb(b=1,…,B)が、パワー計算手段15Pの計算部15Pbでそれぞれ計算され、また各帯域信号のパワーWFbがパワー計算手段15Fの各計算部15Fbで計算される(ステップS43)。減算手段16の各減算部16bにおいて計算部15Fbの出力パワーWFbから、計算部15Pb′からの出力パワーWPbが減算されて帯域ごとの非周期成分パワーWAbが求められる(ステップS43)。減算手段16よりの非周期成分パワー値が非周期成分パワーベクトル化手段20Aでベクトル化された後(ステップS7)、離散コサイン変換手段17Aで離散コサイン変換され(ステップS8)、またパワー計算手段15Pよりの周期成分パワー値が周期成分パワーベクトル化手段20Pでベクトル化された後(ステップS7)離散コサイン変換手段17Pで離散コサイン変換される(ステップS8)、その他の処理は先に述べた各実施形態と同様である。この場合も、図8及び図18中に一点鎖線で示すように、離散コサイン変換をすることなく得られた周期成分パワーベクトルと非周期成分パワーベクトルとをベクトル連結手段18でベクトル連結し、その連結されたベクトルの対数値を対数計算部37で求めてもよい。また図18中に括弧書で示すように、図17中に示したように信号分析により得られた特徴パラメータに対し、ステップS21により乗法性歪による影響を除去した後に歪補正処理(ステップS33)を行ってもよい。
【0036】
上述において、分散値σk2、標準偏差σk、時間平均mk、変動範囲Gainkに基づく歪補正は、一部のk、一部のτについて求めればよいと述べたが、この一部とは任意の組み合わせについて求めればよい、例えばkについては低次のものあるいは高次のもの、あるいは適当に選んだ複数でもよい。τについても同様である。つまり特徴パラメータを抽出したい信号に対し、その抽出に影響を与える要因、例えば混入される雑音も比較的定常的なもの突発的なものなど時間的あるいは周波数的に異なる態様に応じ、同様に乗法性歪についてもどのようなものに基づくものかにより、それぞれ適切なkやτが選定される。これは例えば各種要因についてあらかじめ実験により求めておけばよい。このようにして、途中で得られる一部の離散コサイン係数の長時間平均が一定値に近づくkとτとが用いられることになる。
【0037】
第2実施形態で求めた時間平均mkは、統計分布曲線における平均と対応し、またこの時間平均mkを連結ベクトルの対応する要素(係数又はパワー値)から減算することはその要素を正規化することと対応している。従って、第1〜第3実施形態において求める分散、標準偏差、平均、変動範囲を統計パラメータと総称し、かつ係数又はパワー値に対する分散、標準偏差、変動範囲のそれぞれによる除算および時間平均の減算を正規化と総称する。
上述した実施形態では音声信号を分析したが、音楽信号などの周期性成分と非周期性成分とが混在している信号にこの発明の信号分析は適用できる。
[第4実施形態]
第4実施形態は第1〜第3実施形態、変形実施形態のいずれかにより音声信号を信号分析して音声認識をする装置および方法の実施形態である。第4実施形態の機能構成例を図19に、処理手順を図20にそれぞれ示す。この例ではこの音声認識装置60の入力端子200に学習音声データが入力され(ステップS51)、学習処理がされる。つまりこの学習音声データは信号分析部62で分析され、特徴パラメータが抽出される(ステップS52)。入力端子200に入力される学習音声データや認識されるべき音声信号は所定のサンプリング周波数でサンプリングされ、ディジタル値とされた信号系列である。信号分析部62は第1〜第3実施形態、変形実施形態のいずれかと同様な信号分析手段及び歪補正手段を備え、信号分析手段で抽出された特徴パラメータに対し、歪補正された特徴パラメータが信号分析部62から出力される。
【0038】
この学習音声特徴パラメータはパターン(学習)識別部64に入力され、パターン(学習)識別部64は学習音声特徴パラメータから標準パターンを生成して標準パターン記憶部66に格納する(ステップS53)。標準パターンは例えばHMM(隠れマルコフモデル)であり、状態数及び分布数とその各音素ごとの遷移確率、出現確率などのパラメータである。
次に入力端子200に認識されるべき音声信号が入力され(ステップS54)、その入力音声信号は信号分析部62で特徴パラメータが抽出される(ステップS55)。
【0039】
この特徴パラメータはパターン(学習)識別部64で、標準パターン記憶部66に予め格納されている標準パターンと比較され、最も類似度が高い標準パターンと対応する、音素、単語などを表わすデータが出力される(ステップS56)。なおこの学習及び認識の具体的処理は例えば北研二他2名著「音声言語処理」森北出版株式会社、1996年発行37〜43頁を参照されたい。
この例ではまず学習音声データによる標準パターンの学習を行ったが、信号分析部62で抽出される特徴パラメータと同一種類の特徴パラメータによりあらかじめ生成された標準パターンが格納された標準パターン記憶部66を用い、つまり図20において、ステップS51〜ステップS53を省略し、入力された音声信号の認識のみを行うものでもよい。その場合はパターン識別部64は認識処理のみを行う。
【0040】
また標準パターンを生成する学習音声データは、被認識音声が収音される環境雑音と同様な環境雑音が重畳されたものが好ましく、学習音声データから特徴パラメータを抽出する信号分析部としては、被認識入力音声信号より特徴パラメータを抽出する信号分析部と同一または同様のものがよい。
第1〜第2実施形態および変形実施形態の各オーディオ信号分析装置、第4実施形態の音声認識装置はいずれも、コンピュータにより機能させることができる。コンピュータに、例えば図8に示したオーディオ信号分析装置としてコンピュータを機能させるためのプログラムを磁気ディスク、CD−ROM、半導体記憶装置などの記録媒体からインストールし、または通信回線を介してダウンロードし、そのプログラムをそのコンピュータに実行させればよい。なおコンピュータを分析装置あるいは認識装置として機能させる場合はその対象信号を一旦コンピュータ内の記憶装置に取り込んだ後、処理することになる。
[実験例]
以下にこの発明の効果を示すために、この発明による音声信号分析方法によって得られた音声特徴パラメータを用いた音声認識装置と、[従来の技術]項に記載の非特許文献1に示す音声認識装置(単に従来装置という)の、雑音下での数字認識における音声認識精度を比較のために行った実験を説明する。
実験1
この実験1は第1実施形態の効果を明らかにするためであり、この実験には、(社)情報処理学会 音声言語情報処理研究会 雑音下音声認識評価ワーキンググループ 雑音下音声認識評価環境(AURORA−2J)を利用した。この第1実施形態の装置および従来装置とも24チャネルのガンマトーンフィルタバンクをフィルタバンク11として用い音声波形切出手段12での音声波形の切出しは25ms長で10msごとに行い、周期成分パワーWPbおよび非周期成分パワーWAbに対応する離散コサイン変換後の係数ベクトルはそれぞれ12次元、他に入力信号全体のパワーを表すパワー値、あわせて25次元のベクトルを特徴ベクトルとして用い、その動的特徴であるΔパラメータとΔΔパラメータを、ΔMFCC,ΔΔMFCC,Δパワー,ΔΔパワーを求める方法(非特許文献3、13頁参照)と同様にして求め、その結果75次元のベクトルを特徴パラメータとして用いた。
【0041】
この第1実施形態の装置では、前記離散コサイン係数ベクトルに対し図16に示したように歪補正手段31により乗法性歪の補正を行った後、図8中の歪補正手段22において、発話データごとの音声全区間に渡って全ての離散コサイン係数の外部変動要因ならびに音声に内在する変動要因に基づく影響を抑圧するように前記パラメータを、その標準偏差値を用いて補正した。
パターン(学習)識別部64での学習処理には16状態24ガウス分布混合の数字HMMを用い、前記AURORA−2Jに付属する学習音声データ中の8,440発話の雑音が混入した数字読み上げ学習音声データとHMM学習用スクリプト(学習プログラム)とを用いHMM学習を行った。また、同様にAURORA−2Jに付属する評価データにおいて雑音下での数字読み上げ音声のうち強い加法性歪を伴う自動車中雑音が音声と同じパワーで重畳されている評価データ(信号対雑音比0dB、1,001発話)を用い雑音下での数字認識精度の評価を行った。
【0042】
各認識精度の結果を図21に示す。図21に示されたとおり、第1実施形態による加法性歪を補正する音声信号分析方法を用いた場合の音声認識装置の認識精度が従来装置の認識精度よりも10%程度以上高く、第1実施形態の手法が効果的に頑健性を向上することが明らかにされた。
実験2
この実験2は第2実施形態の効果を明らかにするためであり、実験1と異なる点のみを記載する。前記75次元のベクトルを特徴パラメータに対し、図10中の歪補正手段31により乗法性歪の補正を行い、識別部64で処理する数字HMMのガウス分布の数を20とし、評価データとしてAURORA−2Jに付属する評価データ中の、乗法性歪を伴う雑音下での数字読み上げ音声の14,014発話データを用いた。
【0043】
平均での認識精度結果を図22に示す。図22に示されたとおり、第2実施形態装置による乗法性歪を補正する音声信号分析方法を用いた場合の音声認識装置の認識精度が従来装置の認識精度法よりも10%程度高く、第2実施形態の手法が乗法性歪に効果的であることが明らかにされた。
実験3
この実験3は第3実施形態の効果を明らかにするためであり、実験1と異なる点のみを記載する。前記乗法性歪の補正を行った75次元ベクトルの特徴パラメータを、図12中の歪補正手段33において変動範囲gainkにより正規化して、加法性歪の補正を行った。
【0044】
認識精度の結果を図23に示す。図23に示されたとおり、第3実施形態による加法性歪を補正する音声信号分析方法を用いた場合の装置の認識精度が従来装置の認識精度よりも10%程度以上高く、第3実施形態の手法が加法性歪に効果的であることが明らかにされた。
従来との差の理由
図7に示した従来方法および非特許文献2及び4にそれぞれ示す従来方法のいずれにおいても、離散フーリエ変換の結果得られるパワースペクトルに基づいた離散コサイン係数であることが前提となる。具体的には、雑音や乗法性歪が時間方向に急激な変化なくパワースペクトルに一定の変動を与えており、かつ音声のパワースペクトルの長時間平均が一定の形状に近づく性質を前提とする。つまり音声信号のパワースペクトルの形状を利用するものである。
【0045】
それに対し、図1に示した従来方法で抽出される特徴パラメータとしての離散コサイン係数は、パワースペクトル形状に基づくものではなく、しかも、音声信号を周期成分と非周期成分に分割しているため、それぞれの成分の長時間平均が一定に近づく保証はない。従って図1に示した従来方法で得られた離散コサイン係数(連結ベクトル)をその平均・変動範囲・分散・標準偏差で正規化することは通常は考えられない。
しかしこの発明においては正規化を効果的に適用する特徴パラメータとして、分析中途で得られる離散コサイン係数あるいはパワー値が長時間平均で一定の値に近づく性質のものとしている。つまり特徴パラメータの一部についてその統計パラメータを求め、その統計パラメータで前記一部の特徴パラメータを正規化しているため前記のような優れた効果が得られる。
【0046】
しかし、図1に示した従来方法より得られた連結ベクトル(特徴パラメータ、離散コサイン係数ベクトル)の一部、つまりそのベクトルの要素中のいずれかの複数個及び/又は音声区間におけるいずれかの複数のフレーム(分析区間)については、時間平均がほぼ一定値になることに着目し、その平均値で特徴パラメータ中の対応するものを正規化することを考えた。
先に示した各実験では、特徴パラメータの一部ではなく、全てに対して歪補正をしているが、この発明方法が優れている結果となっている。これは前記特徴パラメータの一部に対する歪補正が大きく影響しているためと思われ、時間平均がほぼ一定値になる部分のみに対して歪補正をすればより大きな効果が得られると思われる。
【図面の簡単な説明】
【0047】
【図1】非特許文献1の技術を説明するための音声信号分析装置の機能構成を示すブロック図。
【図2】図1に示した装置の処理手順を示す流れ図。
【図3】ガンマトーンフィルタバンクの周波数特性の例を示す図。
【図4】Aは入力音声波形例を、Bは3つのガンマトーンフィルタの特性例を、Cはその各フィルタの出力信号をそれぞれ示す図である。
【図5】Aは切り出された音声波形例を、Bはその自己相関関数をそれぞれ示す図である。
【図6】Aは3つの櫛型フィルタの入力信号例を、Bは上記櫛型フィルタの周波数特性例を、Cはその各出力信号の例をそれぞれ示す図である。
【図7】非特許文献3の技術を説明するための音声信号分析装置の機能構成を示すブロック図。
【図8】第1実施形態の装置の機能構成例を示すブロック図。
【図9】第1実施形態の分析方法の手順例を示す流れ図。
【図10】第2実施形態の装置の機能構成例を示すブロック図。
【図11】第2実施形態の方法の手順例を示す流れ図。
【図12】第3実施形態の装置の機能構成例を示すブロック図。
【図13】第3実施形態の方法の手順例を示す流れ図。
【図14】パワー値を特徴パラメータとする実施形態の装置の機能構成例を示すブロック図。
【図15】図14に示した装置の処理手順例を示す流れ図。
【図16】特徴パラメータに乗法性歪補正を行った後、統計パラメータを求める実施形態の機能構成例を示すブロック図。
【図17】図16に示した装置の処理手順例を示す流れ図。
【図18】特徴パラメータの生成の他の実施形態の処理手順例を示す流れ図。
【図19】この発明による音声認識装置の実施形態の機能構成例を示すブロック図。
【図20】この発明による音声認識方法の実施形態の処理手順例を示す流れ図。
【図21】AURORA-2Jを用いて評価した第1実施形態の効果を明らかにするための認識結果を示す図。
【図22】AURORA-2Jを用いて評価した第2実施形態の効果を明らかにするための認識結果を示す図。
【図23】AURORA-2Jを用いて評価した第3実施形態の効果を明らかにするための認識結果を示す図。
【特許請求の範囲】
【請求項1】
入力オーディオ信号をフィルタ処理して複数の帯域信号に分割する帯域通過フィルタバンクと、
上記各帯域信号に含まれる基本周期を推定する基本周期推定部と、
上記各基本周期がそれぞれ設定され、その各帯域信号を阻止及び通過の一方のフィルタ処理をしてその帯域信号に含まれる周期成分及び非周期成分の対応する一方を出力する櫛型フィルタと、
各帯域の周期成分及び非周期成分の上記一方のパワーを計算する第1パワー計算手段と、
上記各帯域信号のパワーを計算する第2パワー計算手段と、
上記第2パワー計算部の出力パワー値から上記第1パワー計算部の出力パワー値を減算して上記各帯域の周期成分及び非周期成分の他方を出力する減算手段と、
上記各帯域の周期成分パワー値及び上記各帯域の非周期成分パワー値をそれぞれベクトル化する第1及び第2ベクトル化手段と、
上記周期成分パワー値ベクトルと上記非周期成分パワー値とから特徴パラメータを生成する特徴パラメータ生成手段と、
上記オーディオ信号の信号区間における上記特徴パラメータの少くとも一部について統計パラメータを計算する統計パラメータ生成手段と、
上記統計パラメータにより上記特徴パラメータの対応するものを正規化して分析結果特徴パラメータとして出力する正規化手段と
を具備するオーディオ信号分析装置。
【請求項2】
請求項1記載の装置において、
上記特徴パラメータ生成手段は上記周期成分パワー値ベクトル及び上記非周期成分パワー値ベクトルをそれぞれ離散コサイン変換して周期成分離散コサイン係数ベクトル及び非周期成分離散コサイン係数ベクトルを得る第1及び第2離散コサイン変換手段と、
上記周期成分離散コサイン係数ベクトルと上記非周期成分離散コサイン係数ベクトルとを連結して上記特徴パラメータとするベクトル連結手段とを備えることを特徴とするオーディオ信号分析装置。
【請求項3】
請求項1記載の装置において、
上記特徴パラメータ生成手段は上記周期成分パワー値ベクトルと上記非周期成分パワー値ベクトルとを連結するベクトル連結手段と、
上記連結ベクトルの対数値を計算して上記特徴パラメータとする対数計算手段とを備えることを特徴とするオーディオ信号分析装置。
【請求項4】
請求項1記載の装置において、
上記統計パラメータは上記少くとも一部の特徴パラメータの分散値であり、
上記正規化手段は除算手段であることを特徴とするオーディオ信号分析装置。
【請求項5】
請求項1記載の装置において、
上記統計パラメータは上記少くとも一部の特徴パラメータの標準偏差であり、
上記正規化手段は除算手段であることを特徴とするオーディオ信号分析装置。
【請求項6】
請求項1記載の装置において、
上記統計パラメータは変動範囲であり、上記統計パラメータ計算手段は上記少くとも一部の特徴パラメータの最大値を選出する手段と、上記少くとも一部の特徴パラメータの最小値を選出する手段と、最大値から上記最小値を減算して上記変動範囲を求める減算手段を備える変動範囲検出手段であり、
上記正規化手段は除算手段であることを特徴とするオーディオ信号分析装置。
【請求項7】
請求項5又は6記載の装置において、
上記特徴パラメータ生成手段よりの特徴パラメータの少くとも一部の時間平均を求める時間平均手段と、
上記時間平均を上記特徴パラメータの少くとも一部の対応するものから減算して、上記統計パラメータ計算手段及び上記正規化手段へ供給する上記少くとも一部の特徴パラメータを求める減算手段とを備えることを特徴とするオーディオ信号分析装置。
【請求項8】
請求項1記載の装置において、
上記統計パラメータは平均であり、上記統計パラメータ計算手段は上記少くとも一部の特徴パラメータの時間平均を求める時間平均手段であり、
上記正規化手段は減算手段であることを特徴とするオーディオ信号分析装置。
【請求項9】
入力オーディオ信号をフィルタ処理して複数の帯域信号に分割し、
上記各帯域信号に含まれる基本周期を推定し、
上記各帯域信号をその上記推定した基本周期に基づき櫛型フィルタ処理してその帯域信号に含まれる周期成分及び非周期成分の一方を得、
各帯域の周期成分及び非周期成分の上記一方のパワー値を計算し、
上記各帯域信号のパワー値を計算し、
上記各帯域信号のパワー値から上記一方のパワー値を減算して上記各帯域の周期成分及び非周期成分の他方のパワー値を求め、
上記各帯域の周期成分パワー値及び上記各帯域の非周期成分パワー値をそれぞれベクトル化し、
上記周期成分パワー値ベクトルと上記非周期成分パワー値とから特徴パラメータを生成し、
上記オーディオ信号の信号区間における上記特徴パラメータの少くとも一部について統計パラメータを計算し、
上記統計パラメータにより上記特徴パラメータの対応するものを正規化して分析結果特徴パラメータとすることを特徴とするオーディオ信号分析方法。
【請求項10】
請求項9記載の方法において、
上記周期成分パワー値ベクトル及び上記非周期成分パワー値ベクトルをそれぞれ離散コサイン変換して周期成分離散コサイン係数ベクトル及び非周期成分離散コサイン係数ベクトルを求め、第1及び第2離散コサイン変換手段と、
上記周期成分離散コサイン係数ベクトルと上記非周期成分離散コサイン係数ベクトルとを連結して上記特徴パラメータとすることを特徴とするオーデイオ信号分析方法。
【請求項11】
請求項9記載の方法において、
上記周期成分パワー値ベクトルと上記非周期成分パワー値ベクトルとを連結し、
上記連結ベクトルの対数値を計算して上記特徴パラメータとすることを特徴とするオーディオ信号分析方法。
【請求項12】
請求項9記載の方法において、
上記統計パラメータは上記特徴パラメータの分散値であり、
上記分散値により上記少くとも一部の特徴パラメータの対応するものを除算して上記正規化を行うことを特徴とするオーディオ信号分析方法。
【請求項13】
請求項9記載の方法において、
上記統計パラメータは上記少くとも一部の特徴パラメータの標準偏差であり、
上記標準偏差により上記少くとも一部の特徴パラメータの対応するものを除して上記正規化を得ることを特徴とするオーディオ信号分析方法。
【請求項14】
請求項9記載の方法において、
上記統計パラメータは変動範囲であり、上記少くとも一部の特徴パラメータの最大値及び最小値をそれぞれ選出し、
上記最大値から上記最小値を減算して上記変動範囲を求め、
上記少くとも一部の特徴パラメータの対応するものを上記変動範囲により除して上記正規化を行うことを特徴とするオーディオ信号分析方法。
【請求項15】
請求項13又は14記載の方法において、
上記特徴パラメータの少くとも一部の時間平均を求め、
上記時間平均を上記特徴パラメータの少くとも一部の対応するものから減算して、上記統計パラメータの計算及び上記正規化に用いることを特徴とするオーディオ信号分析方法。
【請求項16】
請求項9記載の方法において、
上記統計パラメータは平均であり、上記少くとも一部の特徴パラメータの時間平均を求め、
その時間平均を上記少くとも一部の特徴パラメータから減算して、上記正規化を行うことを特徴とするオーディオ信号分析方法。
【請求項17】
標準特徴パラメータが格納されている標準パターン記憶部と、
入力された音声信号から、請求項7乃至8のいずれかに記載のオーディオ信号分析装置により音声特徴パラメータを抽出する信号分析部と、
上記音声特徴パラメータが入力され、上記標準パターンを用いて上記音声信号に対する音声認識を行うパターン識別部と、
を具備する音声認識装置。
【請求項18】
入力音声信号を、請求項9乃至16のいずれかに記載のオーディオ信号分析方法によって分析して特徴パラメータを求め、
上記特徴パラメータを学習・認識用に用いる音声認識を行うことを特徴とする音声認識方法。
【請求項19】
コンピュータを、請求項1〜8のいずれか又は請求項17に記載した装置として機能させるためのプログラム。
【請求項20】
請求項19に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
【請求項1】
入力オーディオ信号をフィルタ処理して複数の帯域信号に分割する帯域通過フィルタバンクと、
上記各帯域信号に含まれる基本周期を推定する基本周期推定部と、
上記各基本周期がそれぞれ設定され、その各帯域信号を阻止及び通過の一方のフィルタ処理をしてその帯域信号に含まれる周期成分及び非周期成分の対応する一方を出力する櫛型フィルタと、
各帯域の周期成分及び非周期成分の上記一方のパワーを計算する第1パワー計算手段と、
上記各帯域信号のパワーを計算する第2パワー計算手段と、
上記第2パワー計算部の出力パワー値から上記第1パワー計算部の出力パワー値を減算して上記各帯域の周期成分及び非周期成分の他方を出力する減算手段と、
上記各帯域の周期成分パワー値及び上記各帯域の非周期成分パワー値をそれぞれベクトル化する第1及び第2ベクトル化手段と、
上記周期成分パワー値ベクトルと上記非周期成分パワー値とから特徴パラメータを生成する特徴パラメータ生成手段と、
上記オーディオ信号の信号区間における上記特徴パラメータの少くとも一部について統計パラメータを計算する統計パラメータ生成手段と、
上記統計パラメータにより上記特徴パラメータの対応するものを正規化して分析結果特徴パラメータとして出力する正規化手段と
を具備するオーディオ信号分析装置。
【請求項2】
請求項1記載の装置において、
上記特徴パラメータ生成手段は上記周期成分パワー値ベクトル及び上記非周期成分パワー値ベクトルをそれぞれ離散コサイン変換して周期成分離散コサイン係数ベクトル及び非周期成分離散コサイン係数ベクトルを得る第1及び第2離散コサイン変換手段と、
上記周期成分離散コサイン係数ベクトルと上記非周期成分離散コサイン係数ベクトルとを連結して上記特徴パラメータとするベクトル連結手段とを備えることを特徴とするオーディオ信号分析装置。
【請求項3】
請求項1記載の装置において、
上記特徴パラメータ生成手段は上記周期成分パワー値ベクトルと上記非周期成分パワー値ベクトルとを連結するベクトル連結手段と、
上記連結ベクトルの対数値を計算して上記特徴パラメータとする対数計算手段とを備えることを特徴とするオーディオ信号分析装置。
【請求項4】
請求項1記載の装置において、
上記統計パラメータは上記少くとも一部の特徴パラメータの分散値であり、
上記正規化手段は除算手段であることを特徴とするオーディオ信号分析装置。
【請求項5】
請求項1記載の装置において、
上記統計パラメータは上記少くとも一部の特徴パラメータの標準偏差であり、
上記正規化手段は除算手段であることを特徴とするオーディオ信号分析装置。
【請求項6】
請求項1記載の装置において、
上記統計パラメータは変動範囲であり、上記統計パラメータ計算手段は上記少くとも一部の特徴パラメータの最大値を選出する手段と、上記少くとも一部の特徴パラメータの最小値を選出する手段と、最大値から上記最小値を減算して上記変動範囲を求める減算手段を備える変動範囲検出手段であり、
上記正規化手段は除算手段であることを特徴とするオーディオ信号分析装置。
【請求項7】
請求項5又は6記載の装置において、
上記特徴パラメータ生成手段よりの特徴パラメータの少くとも一部の時間平均を求める時間平均手段と、
上記時間平均を上記特徴パラメータの少くとも一部の対応するものから減算して、上記統計パラメータ計算手段及び上記正規化手段へ供給する上記少くとも一部の特徴パラメータを求める減算手段とを備えることを特徴とするオーディオ信号分析装置。
【請求項8】
請求項1記載の装置において、
上記統計パラメータは平均であり、上記統計パラメータ計算手段は上記少くとも一部の特徴パラメータの時間平均を求める時間平均手段であり、
上記正規化手段は減算手段であることを特徴とするオーディオ信号分析装置。
【請求項9】
入力オーディオ信号をフィルタ処理して複数の帯域信号に分割し、
上記各帯域信号に含まれる基本周期を推定し、
上記各帯域信号をその上記推定した基本周期に基づき櫛型フィルタ処理してその帯域信号に含まれる周期成分及び非周期成分の一方を得、
各帯域の周期成分及び非周期成分の上記一方のパワー値を計算し、
上記各帯域信号のパワー値を計算し、
上記各帯域信号のパワー値から上記一方のパワー値を減算して上記各帯域の周期成分及び非周期成分の他方のパワー値を求め、
上記各帯域の周期成分パワー値及び上記各帯域の非周期成分パワー値をそれぞれベクトル化し、
上記周期成分パワー値ベクトルと上記非周期成分パワー値とから特徴パラメータを生成し、
上記オーディオ信号の信号区間における上記特徴パラメータの少くとも一部について統計パラメータを計算し、
上記統計パラメータにより上記特徴パラメータの対応するものを正規化して分析結果特徴パラメータとすることを特徴とするオーディオ信号分析方法。
【請求項10】
請求項9記載の方法において、
上記周期成分パワー値ベクトル及び上記非周期成分パワー値ベクトルをそれぞれ離散コサイン変換して周期成分離散コサイン係数ベクトル及び非周期成分離散コサイン係数ベクトルを求め、第1及び第2離散コサイン変換手段と、
上記周期成分離散コサイン係数ベクトルと上記非周期成分離散コサイン係数ベクトルとを連結して上記特徴パラメータとすることを特徴とするオーデイオ信号分析方法。
【請求項11】
請求項9記載の方法において、
上記周期成分パワー値ベクトルと上記非周期成分パワー値ベクトルとを連結し、
上記連結ベクトルの対数値を計算して上記特徴パラメータとすることを特徴とするオーディオ信号分析方法。
【請求項12】
請求項9記載の方法において、
上記統計パラメータは上記特徴パラメータの分散値であり、
上記分散値により上記少くとも一部の特徴パラメータの対応するものを除算して上記正規化を行うことを特徴とするオーディオ信号分析方法。
【請求項13】
請求項9記載の方法において、
上記統計パラメータは上記少くとも一部の特徴パラメータの標準偏差であり、
上記標準偏差により上記少くとも一部の特徴パラメータの対応するものを除して上記正規化を得ることを特徴とするオーディオ信号分析方法。
【請求項14】
請求項9記載の方法において、
上記統計パラメータは変動範囲であり、上記少くとも一部の特徴パラメータの最大値及び最小値をそれぞれ選出し、
上記最大値から上記最小値を減算して上記変動範囲を求め、
上記少くとも一部の特徴パラメータの対応するものを上記変動範囲により除して上記正規化を行うことを特徴とするオーディオ信号分析方法。
【請求項15】
請求項13又は14記載の方法において、
上記特徴パラメータの少くとも一部の時間平均を求め、
上記時間平均を上記特徴パラメータの少くとも一部の対応するものから減算して、上記統計パラメータの計算及び上記正規化に用いることを特徴とするオーディオ信号分析方法。
【請求項16】
請求項9記載の方法において、
上記統計パラメータは平均であり、上記少くとも一部の特徴パラメータの時間平均を求め、
その時間平均を上記少くとも一部の特徴パラメータから減算して、上記正規化を行うことを特徴とするオーディオ信号分析方法。
【請求項17】
標準特徴パラメータが格納されている標準パターン記憶部と、
入力された音声信号から、請求項7乃至8のいずれかに記載のオーディオ信号分析装置により音声特徴パラメータを抽出する信号分析部と、
上記音声特徴パラメータが入力され、上記標準パターンを用いて上記音声信号に対する音声認識を行うパターン識別部と、
を具備する音声認識装置。
【請求項18】
入力音声信号を、請求項9乃至16のいずれかに記載のオーディオ信号分析方法によって分析して特徴パラメータを求め、
上記特徴パラメータを学習・認識用に用いる音声認識を行うことを特徴とする音声認識方法。
【請求項19】
コンピュータを、請求項1〜8のいずれか又は請求項17に記載した装置として機能させるためのプログラム。
【請求項20】
請求項19に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【図20】
【図21】
【図22】
【図23】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【図20】
【図21】
【図22】
【図23】
【公開番号】特開2006−84659(P2006−84659A)
【公開日】平成18年3月30日(2006.3.30)
【国際特許分類】
【出願番号】特願2004−268120(P2004−268120)
【出願日】平成16年9月15日(2004.9.15)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】
【公開日】平成18年3月30日(2006.3.30)
【国際特許分類】
【出願日】平成16年9月15日(2004.9.15)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】
[ Back to top ]