説明

音声認識装置および音声認識方法、並びに、プログラム記録媒体

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、隠れマルコフモデルを用いた音声認識装置および音声認識方法、並びに、音声認識プログラムが記録されたプログラム記録媒体に関する。
【0002】
【従来の技術】音声認識手法の一つとして隠れマルコフモデル(以下、HMMと略称する)がある(Rabiner&Juang著,古井監訳音声認識の基礎第6章,NTTアドバンストテクノロジ 1995年:文献1)。上記HMMにおいては、話者や発声変動等の音声が有する揺らぎを統計的に学習することによって高い認識精度が得られるために、現代では音声認識方式として定着している。
【0003】図3は、上記HMMを用いた従来の基本的な音声認識装置の構成例である。以下、図3に従って、従来のHMMを用いた音声認識装置について説明する。尚、入力音声は既にサンプリングおよび量子化されているものとする。
【0004】音響分析部1は、音声サンプルデータを一定の周期毎に取り込んで音響パラメータを抽出し、尤度演算部2と音声区間検出部3とに出力する。音響モデル記憶部4には、音素や音節等の音声の徴小単位毎に音響パラメータの分布を統計的に学習した音響モデルが記憶されている。尚、上記音響モデルは、大量の音声データから学習されているものとする。
【0005】上記尤度演算部2は、上記音響モデル記憶部4に記憶された音響モデルを構成する各状態の出力確率に基づいて、入力された各フレームの音響パラメータから各フレーム毎に各状態の尤度を求め、尤度記憶部5に記憶する。音声区間検出部3は、音響分析部1による音響分析結果から、主に短時間音声エネルギー等の一部の音響パラメータを用いて音声区間を検出する。
【0006】言語辞書6には、認識対象語彙の各単語と、この単語を音響モデルである各音素モデルの状態系列を直列接続して表現したものとを対応付けて格納している。照合部7は、言語辞書6に格納された各単語に関して、言語辞書6に格納された状態系列と入力された全フレームの状態系列とをビタビ法によって照合して、各単語の尤度を算出する。その場合、入力された各フレームにおける各状態の局所尤度は、尤度記憶部5に記憶された値を参照することによって得る。そして、尤度の高い単語の順に並べ直し、上位候補を出力するのである。
【0007】ところで、上記文献1における6.4.2.2節によると、上記HMMを用いた認識の基礎となるビタビアルゴリズムにおいては、入力された観測系列の長さをTとし、単語モデルの状態数をNとすると、次の繰り返し計算が処理の大部分を占める。
δt(j)=max[δt-1(i)+aij]+bj(ot) …(1)
Ψt(j)=argmax[δt-1(i)+aij] …(2)
2≦t≦T, 1≦j≦Nここで、aij,bj(ot)は、夫々対数化した遷移確率と出力確率とである。また、δは累積尤度であり、Ψはバックポインタであり、iは(t−1)の状態番号である。尚、マッチング時のパスを知る必要がない場合は上記式(2)は必要がない。
【0008】上記式(1),(2)の計算量は、N2Tのオーダーでの加算および比較となる。但し、状態遷移を隣接する状態間のみに制限するとオーダーは2Tとなる。大語彙の音声認識を行うには単語毎に学習データを大量に収集するのは困難であるために、音素毎のモデル(音素モデル)を予め学習しておき、これら音素モデルを連結することによって任意の単語を生成する方法がよく用いられる。上記音素モデルとして十分な性能を発揮するには、各音素毎に3つから5つ程度の状態を有するHMMを設定するのが一般的である。
【0009】これらを総合すると、大語彙の単語の照合に必要なビタビ演算の計算量は、単語数をV、単語辞書の平均音素数をP、音素の平均状態数をS、入力音声の長さをTとすると、2Tのオーダーとなる。例として、V=1,000単語、P=10音素、S=4状態、T=100フレームとすると、2*1000*10*4*100=8,000,000オーダーの膨大な加算および比較が必要になるという問題がある。
【0010】上述のごとき膨大な演算に対処するため、特開平6‐266393号公報(文献2)に開示された音声認識装置においては、標準パターンを用いた音声認識の際におけるマッチングを高速化するための方法として、入力系列と標準パターンとを共に分周器によって一定間隔で間引いて高速な予備選択を行う方法およびワードスポッティングの方法を用いている。
【0011】また、他の文献(文献3)“「A Fast Approximate Acoustic Match for LargeVocabulary Speech RecognitionIEEE Trans. on Speech and Audio ProcessingVol.1,No.1,January 1993”には、HMMを用いた音声認識において、詳細な照合を行う前に候補数を絞るために行う高速な照合を実現する方法が開示されている。文献3に記載の音声認識装置では、詳細照合用の音素モデルとしては前後の音素環境を考慮した環境依存型のHMMを用いるが、高速マッチングの際には環境を考慮しない環境独立型の音素モデルを用いる。すなわち、音素uに属する環境依存型HMM内の状態の集合をAuとし、状態a∈Auからラベルfiを出力する出力確率をpr(fi?a)とすると、音素uの出力確率を次式で定義する。


また、音素uに属する長さnの状態系列から脱出する脱出確率をqu(n)とすると、音素uの状態から脱出する遷移確率を次式で定義する。


一方、状態u内に留まる確率は1としている。
【0012】このようにして定義した環境独立型の音素HMMを用いることと、単語辞書を音素の木構造で表現することとによって、入力系列と照合すべき辞書を縮小し、大語彙辞書との高速なマッチングとを可能にしている。
【0013】
【発明が解決しようとする課題】しかしながら、上記従来の高速なマッチングを実現する音声認識装置においては、以下のような問題がある。一般に、音響モデルとしてのHMMが精密になればなる程、モデルを構成する音素数や状態数は多くなり、照合に必要な計算量が増大する。そこで、上記文献2や文献3に開示されているような高速な照合によって粗く候補を選択して、後に詳細に照合する方法が、計算量の増大に対するよい解決手段となるのである。但し、上記文献2のように、標準パターンを時間方向に一定間隔で間引く方法はHMMの状態列に対しては適用できないため、HMMを用いた音声認識装置には上記文献3のような少ない状態数のモデルを用いる方法が適していると言える。その理由は、上記文献2の方法のように入力音声を一定間隔で間引くと、早口で発声した音声の場合に破裂音等の瞬間的な音素の特徴を見落としてしまう場合がある。そこで、破裂音等の瞬間的な音素の特徴を見落とさないように間引き率を設定すると、十分な高速化が行えないという別の問題が発生するためである。
【0014】また、上記文献3では、複数状態から成る環境依存型音素モデルを1状態の環境独立型音素モデルに変換する操作において、音素間でパラメータ空間を占める範囲が重複していることから音素の尤度間に格差が生じ、一定の音素誤りが多数起こる場合がある。その場合には、高速照合結果に誤りが多く含まれることになり、候補を少ない数に制限することができないため高速化が十分できないことになる。これらの問題を解決する方法に付いては、文献3には何ら記載されてはいない。
【0015】そこで、この発明の目的は、破裂音等の瞬間的な音素の欠落や誤りの少ない高速照合を可能にするHMMを用いた音声認識装置および音声認識方法、並びに、音声認識プログラムを記録したプログラム記録媒体を提供することにある。
【0016】
【課題を解決するための手段】上記目的を達成するため、第1の発明の音声認識装置は、入力音声を音響分析する音響分析手段と、上記音響分析結果に基づいて,音響モデル記憶手段に記憶された音響モデルを参照してフレーム毎に各状態の尤度を演算し,演算結果を詳細照合用尤度として詳細照合用尤度記憶手段に記憶する尤度演算手段と、上記詳細照合用尤度に基づいて,高速照合用尤度を求める高速照合用尤度演算手段と、上記高速照合用尤度の誤った側への偏りを修正し,高速照合用尤度記憶手段に記憶する高速照合用尤度修正手段と、上記修正後の高速照合用尤度と高速照合用言語辞書に登録された全単語との照合を行って上記各単語の尤度を算出する高速照合手段と、上記高速照合手段による照合結果に基づいて候補単語の予備選択を行う候補予備選択手段と、上記予備選択された候補単語に関して,上記詳細照合用尤度と詳細照合用言語辞書に登録された単語との詳細照合を行って,上記各候補単語の尤度を算出する詳細照合手段を備えたことを特徴としている。
【0017】上記構成によれば、尤度演算手段によってフレーム毎に各状態の尤度が演算され、上記詳細照合用尤度に基づいて、高速照合用尤度演算手段によって高速照合用尤度が求められる。そして、高速照合用尤度修正手段によって、上記高速照合用尤度の誤った側への偏りが修正される。
【0018】こうして、上記高速照合用尤度を少ない状態で表現した際に生ずる尤度の誤った音声単位側への偏りが、上記高速照合用尤度修正手段によって修正される。したがって、上記修正後の高速照合用尤度を用いて高速照合を行って候補単語の予備選択を行う際に、照合誤りが少なくなる。その結果、候補単語が少ない数に的確に絞り込まれ、以後に詳細照合手段によって行われる詳細照合の高速化が効率的に行われるのである。
【0019】また、上記第1の発明の音声認識装置は、上記音響分析結果に基づいて間引きパラメータを演算する間引きパラメータ演算手段を備えると共に、上記高速照合用尤度演算手段を,上記詳細照合用尤度に対して上記間引きパラメータに基づく時間方向への間引き処理を行った後に,残った上記詳細照合用尤度に基づいて,高速照合用尤度を求めるように成すことが望ましい。
【0020】上記構成によれば、上記高速照合用尤度演算手段による上記詳細照合用尤度に対する時間方向への間引き処理は、間引きパラメータ演算手段によって演算された間引きパラメータに基づいて行われる。したがって、上記間引きパラメータを適切に算出することによって、上記文献2のごとく時間方向に一定間隔で間引く場合のように瞬間的な特徴が欠落することがなく、且つ、十分に高速化を行うことが可能になる。
【0021】また、上記第1の発明の音声認識装置は、上記間引きパラメータ演算手段を,上記音響分析結果としての音響パラメータの変化量に基づいて上記間引きパラメータを演算するように成し、上記高速照合用尤度演算手段を,上記間引きパラメータに基づいて,上記音響パラメータの変化量が略一定になるように間引き処理を行うように成すことが望ましい。
【0022】上記構成によれば、上記高速照合用尤度演算手段による間引き処理は、音響パラメータの変化量が略一定になるように行われる。したがって、間引き処理後の上記詳細照合用尤度数は音響パラメータの変化が激しい領域ほど多く、瞬間的な特徴が欠落してしまうことが防止される。
【0023】また、上記第1の発明の音声認識装置は、上記高速照合用尤度演算手段を、上記音響モデルの構成単位である音声単位を一つの代表尤度で表わすことによって上記高速照合用尤度の演算を行うように成すことが望ましい。
【0024】上記構成によれば、高速照合用の尤度が最小の状態数で表現されている。したがって、上記高速照合用の尤度を用いた高速照合が高速に行われる。
【0025】また、上記第1の発明の音声認識装置は、上記高速照合用尤度演算手段を、上記音響モデルの構成単位である音声単位を誤り易い音声単位でグループ化し、一つのグループを一つの代表尤度で表わすことによって上記高速照合用尤度の演算を行うように成すことが望ましい。
【0026】上記構成によれば、高速照合用の尤度が、誤り易い音声単位でグループ化された一つのグループで表現されている。したがって、誤った音声単位の尤度が正しい音声単位の尤度よりも高くなることがなく、高速照合時における照合誤りが少なくなる。さらに、上記グループ化によって、高速照合時における照合の対象が減少し、上記高速照合が非常に高速に行われる。
【0027】尚、この場合には、上記高速照合用尤度修正手段による修正処理を省略することが可能になる。
【0028】また、上記第1の発明の音声認識装置は、高速照合用尤度修正手段を、上記音声単位間あるいは上記グループ間の誤りパターンを考慮して上記音声単位あるいは上記グループの代表尤度を修正することによって、上記高速照合用尤度の修正を行うように成すことが望ましい。
【0029】上記構成によれば、予め分っている上記音声単位間あるいはグループ間の誤りパターンを考慮して上記音声単位あるいはグループの代表尤度を修正するので、迅速に且つ的確に修正処理が行われる。
【0030】また、上記第1の発明の音声認識装置は、上記高速照合手段を,内部メモリを有するように成し、上記高速照合用言語辞書は高速照合用言語辞書記憶手段に記憶されおり、上記高速照合手段を,上記高速照合を実行する際には,上記高速照合用尤度記憶手段に記憶された高速照合用尤度と上記高速照合用言語辞書記憶手段に記憶された高速照合用言語辞書とを,上記内部メモリにロードするように成すことが望ましい。
【0031】上記構成によれば、上記高速照合手段は、高速照合を実行するに際して、上記高速照合用尤度と高速照合用言語辞書とを上記内部メモリにロードするので、上記高速照合処理が効率よく行われる。
【0032】また、上記第1の発明の音声認識装置は、単語が入力されて、この入力単語に関する高速照合用の状態系列と詳細照合用の状態系列とを生成し、上記高速照合用の状態系列を上記高速照合用言語辞書に追加登録する一方、上記詳細照合用の状態系列を上記詳細照合用言語辞書に追加登録する辞書登録手段を備えることが望ましい。
【0033】上記構成によれば、辞書登録手段に新しい単語を入力するだけで、自動的に上記高速照合用言語辞書および詳細照合用言語辞書の両辞書に当該単語の辞書項目が追加登録される。したがって、常に新しい単語が認識可能になり、高い認識率が維持される。
【0034】また、上記第1の発明の音声認識装置は、上記辞書登録手段を、上記高速照合用の状態系列を生成する際に、同一の音声単位あるいは同一の音声単位グループが連続する場合には、上記連続する同一音声単位あるいは上記連続する同一音声単位グループを1つの状態に圧縮するように成すことが望ましい。
【0035】上記構成によれば、連続する同一音声単位あるいは連続する同一音声単位グループが1つの状態に圧縮されている。したがって、上記高速照合用言語辞書を用いた高速照合の高速化が図られる。
【0036】また、第2の発明の音声認識方法は、入力音声を音響分析するステップと、上記音響分析結果に基づいて,音響モデルを参照してフレーム毎に各状態の尤度を演算して詳細照合用尤度を求めるステップと、上記詳細照合用尤度に基づいて高速照合用尤度を求めるステップと、上記高速照合用尤度の誤った側への偏りを修正するステップと、上記修正後の高速照合用尤度と高速照合用言語辞書に登録された全単語との高速照合を行って上記各単語の尤度を算出するステップと、上記高速照合結果に基づいて候補単語の予備選択を行うステップと、上記予備選択された候補単語に関して,上記詳細照合用尤度と詳細照合用言語辞書に登録された単語との詳細照合を行って上記各候補単語の尤度を算出するステップを特徴としている。
【0037】上記構成によれば、フレーム毎に各状態の尤度が演算され、上記詳細照合用尤度に基づいて高速照合用尤度が求められる。そして、上記高速照合用尤度を少ない状態で表現した際に生ずる各尤度の誤った音声単位側への偏りが修正される。したがって、上記修正後の高速照合用尤度を用いて高速照合を行って候補単語の予備選択を行う際に、照合誤りが少なくなる。その結果、候補単語が少ない数に的確に絞り込まれ、以後に行われる詳細照合の高速化が効率的に行われる。
【0038】また、第3の発明のプログラム記録媒体は、コンピュータを、上記第1の発明における音響分析手段,尤度演算手段,高速照合用尤度演算手段,高速照合用尤度修正手段,高速照合手段,候補予備選択手段および詳細照合手段として機能させる音声認識処理プログラムが記録されていることを特徴としている。
【0039】上記構成によれば、上記第1の発明と同様に、上記高速照合用尤度を少ない状態で表現した際に生ずる各尤度の誤った音声単位側への偏りが修正される。したがって、上記修正後の高速照合用尤度を用いて高速照合を行って候補単語の予備選択を行う際に、照合誤りが少なくなる。その結果、候補単語が少ない数に的確に絞り込まれ、以後に行われる詳細照合の高速化が効率的に行われる。
【0040】
【発明の実施の形態】以下、この発明を図示の実施の形態により詳細に説明する。図1は、本実施の形態の音声認識装置におけるブロック図であり、HMMを用いた音声認識装置である。以下、図1に従って、本実施の形態における音声認識装置について説明する。尚、入力音声は、既にサンプリングおよび量子化されているものとする。また、以下の説明は、音響モデルを構成する単位は音素(音素モデル)であるとして行うが、上記構成単位は音節(音節モデル)であっても構わない。
【0041】音響分析部11は、音声サンプルデータを一定の周期ごとに取り込んで音響パラメータを抽出し、尤度演算部12と音声区間検出部13と間引きパラメータ演算部14とに出力する。その際における分析周期は5msから20ms程度とし、分析窓長は分析周期より長く10msから20msとするのが一般的である。尚、分析手法としては一般的に用いられるフィルタバンクによる帯域エネルギー,FFT(高速フーリエ変換)ケプストラム,線形予測分析を用いたLPC(線形予測分析)ケプストラム等の分析パラメータと、短時間音声エネルギーと、これらの時間変化量とを組み合わせて用いる。
【0042】上記尤度演算部12は、入力されたフレームの音響パラメータと、音響モデル記憶部15に記憶された音響モデルを構成する各状態の出力確率密度分布とに基づいて、各フレーム毎に各状態の尤度を求めて、詳細照合用尤度記憶部16に記憶する。ここで、連続分布型HMMである場合には、j番目のM次元出力確率密度分布を、平均ベクトルμj={μj1,μj2,…,μji,…,μjM}、分散σj2={σj21,σj22,…,σj2i,…,σj2M}で表わし、入力ベクトルをc=(c1,c2,…,ci…,cM)で表わすと、対数尤度Ljは式(5)で表される。


【0043】状態kの尤度Pkが複数の分布の集合Dkの混合分布で表現される場合、本来は真数の尤度で加算してから対数尤度に変換すべきであるが、高速化のために近似的に最大値をとる処理で置き換えても構わない。この場合、各分布jの混合比率をλkjとすると式(6)で表される。


【0044】上記音声区間検出部13は、上記音響分析部11による音響分析結果から、主に短時間音声エネルギー等の一部のパラメータを用いて音声区間を検出する。間引きパラメータ演算部14は、高速照合に用いるフレームの間引き方を決定するための間引きパラメータを各フレーム毎に計算し、得られた間引きパラメータを間引きパラメータ記憶部17に記憶しておく。一例として、フレームtにおける間引きパラメータB(t)を式(7)によって求める。


ここで、ΔCtiは、フレームtにおける音響パラメータのi次元目の値における前フレームからの変化量である。また、σiは、音響パラメータのi次元めの標準偏差である。標準偏差σiの値は大量のデータから求める必要があり、音響モデルを作成した際のデータを用いることができる。あるいは、音響モデルを構成する出力確立密度分布の分散を平均した値から求めてもよい。
【0045】高速照合用尤度演算部18は、上記詳細照合用尤度記憶部16に記憶された尤度テーブルから音声区間検出部13によって検出された音声区間の範囲内にある尤度値を読み出し、高速照合用尤度を求める。その場合における高速照合用尤度は、詳細照合用尤度の中から音素環境を無視して同じ音素の全状態の尤度を読み出し、つまり、同じ音素であって異なる音素環境に在る音素に属する総ての状態の尤度を読み出し、その最大値を求めることによって求める。
【0046】その際に、上記高速照合用尤度の演算に先立って、上記間引きパラメータ記憶部17に記憶された間引きパラメータを積分しながら、音響パラメータの変化量が略一定になるようにフレームの間引きを行うのである。したがって、上記高速照合用尤度の演算は、間引きの結果残った少ないフレームに対してだけ行えばよく、上記演算を迅速に行うことができるのである。例として、分析周期が10msの場合における平均的な間引き率は1/4から1/5程度で効率よく照合が行え、精度の劣化も少ないことが実験的に分かっている。
【0047】高速照合用尤度修正部19は、上記高速照合用尤度演算部18によって計算された音素毎の尤度を、尤度の修正ルールに従って修正を行う。例えば、無音区間が入力された場合には、無音/S/の尤度L(/S/)よりも音素/K/の尤度L(/K/)の方が大きくなることが非常に多い場合、式(8)により、L(/S/)=max{L(/S/),L(/K/)} …(8)
無音から始まる母音を音素/K/で始まるか行の母音に誤る現象を削減することができるのである。この他の音を表す音素/w/をう(/u/)お(/o/)の母音に誤る等の現象にも適用できる。このように、予め分っている誤り易い音素の対のパターンを用いて修正を行うことによって、迅速に且つ的確に修正処理を行うのとができるのである。
【0048】高速照合用尤度記憶部20は、上記高速照合用尤度修正部19によって修正された音素の尤度を記憶する。高速照合用言語辞書21は、認識対象語彙の各単語と、この単語を1音素を1状態とした状態系列で表現したものとを対応付けて格納している。高速照合部22では、間引き処理後の入力と高速照合用言語辞書21の各単語とのビタビ法による照合を行う。その際における各入力フレームの局所尤度は、高速照合用尤度記憶部20を参照することによって求める。
【0049】候補予備選択部23は、上記高速照合部22による各単語に対するビタビ照合の結果に基づいて、尤度の大きい順にH個の単語を選ぶ。尚、の数は語彙数に依存するが、語彙数の1/5から1/20程度とする。詳細照合用言語辞書24には、認識対象語彙の各単語と、この単語を音響モデルである各環境依存型音素モデルの状態系列を直列接続して表現したものとを対応付けて格納している。
【0050】詳細照合部25は、上記候補予備選択部23によって選択されたH個の単語に関して、詳細照合用言語辞書24に格納された状態系列と入力された全フレームとをビタビ法によって照合して、H個の単語の尤度を計算し直す。その場合、入力された各フレームにおける各状態の局所尤度は、詳細照合用尤度記憶部16に記憶された値を参照することによって得る。そして、上記予備選択されたH個の候補単語を、計算し直した尤度の高い順に並べ直し、上位候補を出力するのである。
【0051】上記実施の形態における高速照合用尤度演算および高速照合に用いる音素は、上述のごとく詳細照合用の音素モデルの音素をそのまま使うのではなく、別の音素クラスを用いることも可能ではある。その場合における音素クラスとしては、/u/と/o/と/w/等の誤り易い音素群は同一のクラスとし、か,く,け,こにおける音素/k/とにおける音素/k/等の誤り難い音素は別音素とする等、音響モデルの誤り特性に合わせて調節すると効果的である。その場合は、高速照合用言語辞書21を高速照合用音素クラスで記述しておく必要がある。尚、上述のように誤り易い音素群は同一のクラスとする場合には、高速照合用尤度修正部19による高速照合用尤度の修正処理を省略しても構わない。
【0052】また、上記文献3のごとく、高速照合を効率よく行うために、高速照合用言語辞書21を、語頭から同じ音素を共通化して木構造に成しても差し支えない。但し、語彙数が数百単語程度の場合には共通化の効果が少なく、処理が複雑になるためあまり高速化はできない。また、語彙に含まれる長母音を短母音に省略する方法は、語彙数が数百程度と少ない場合でも若干計算量を削減することが可能である。また、高速照合用尤度演算および高速照合に音素クラスを用いる場合は、元の単語としては異なる音素連鎖であっても音素クラスで表現した場合には同じ音素クラスの連続となる部分を1つの状態に圧縮することによって、若干高速化の効果が得られる。
【0053】ところで、音声認識装置をDSP(ディジタルシグナルプロセッサ)や汎用プロセッサ等によって実現する場合には、内部メモリを効率よく使用し、外部メモリヘのアクセスを少なくすることによる高速化が重要となる。このことを本実施の形態の音声認識装置において実現する方法として、高速照合の時だけ必要になる高速照合用言語辞書21と高速照合用の尤度テーブル(高速照合用尤度記憶部20の記憶内容)をプロセッサの内部RAM(ランダムアクセスメモリ)にロードすることによって、効率よく高速照合を行う方法が考えられる。
【0054】具体的には、詳細照合用の尤度テーブル(詳細照合用尤度記憶部16の記憶内容)は一般に大きな容量が必要になるため、詳細照合用尤度記憶部16は外部メモリ上に設定する。そして、尤度演算部12は、音声入力に同期して各フレーム毎に尤度を演算し、得られた尤度を上記外部メモリの詳細照合用尤度記憶部16に記憶する。一方、音声区間検出部13によって音声区間が切り出されると、入力音声を停止した後、高速照合用尤度演算部18によって高速照合用尤度演算を行い、高速照合用尤度修正部19で修正する。そして、得られた修正後の尤度をプロセッサの上記内部RAM上の高速照合用尤度記憶部20に記憶する。それと同時に、高速照合用言語辞書21を上記内部RAMにロードしておく。そして、高速照合部22によって、上記内部RAM上の高速照合用の尤度テーブルと高速照合用言語辞書21とを用いて高速照合を行った後に、上記内部RAMを開放する。そうした後、上記詳細照合用の尤度テーブルと詳細照合用言語辞書24とを外部メモリから上記内部RAMにロードして、候補予備選択部23による選択の結果残った候補に対してのみ、詳細照合部25によって詳細な照合を行うのである。
【0055】ユーザーが新しい単語等を辞書に登録する場合には、辞書登録部26に単語を入力すると、辞書登録部26によって、詳細照合用の音素状態系列と高速照合用の状態系列とが作成される。そして、前者は詳細照合用言語辞書24に追加登録され、後者は高速照合用言語辞書21に追加登録される。こうして、高速照合用言語辞書21および詳細照合用言語辞書24の両辞書に自動的に新しい単語を追加登録することによって、常に新しい単語を認識可能にして高い認識率を維持できるのである。
【0056】以下、図2のフローチャートに従って、上記音声認識装置による音声認識処理動作のアルゴリズムについて説明する。ステップS1で、音響分析部11によって入力音声が音響分析される。そして、分析結果に基づいて、間引きパラメータ演算部14によって間引きパラメータが演算されて間引きパラメータ記憶部17に記憶される。ステップS2で、尤度演算部12によって、音響分析部11による分析結果に基づいて、フレーム毎に各状態の尤度が算出されて上記外部メモリの詳細照合用尤度記憶部16に記憶される。ステップS3で、音声区間検出部13によって、音響分析部11による分析結果に基づいて音声区間が検出され、検出信号が出力される。
【0057】ステップS4で、上記高速照合用尤度演算部18によって、上記検出信号に基づいて音声区間が検出された否かが判別される。その結果、検出されればステップS5に進み、そうでなければステップS1に戻って検出されるのを待つ。ステップS5で、高速照合用尤度演算部18によって、詳細照合用尤度記憶部16に記憶された当該音声区間の尤度値を用いて、上記間引きパラメータに基づく入力の間引きが行われた後、音素環境を考慮しない高速照合用尤度が演算される。さらに、高速照合用尤度修正部19によって音素毎に誤り音素側への尤度の偏りが修正される。こうして得られた高速照合用の尤度は高速照合用尤度記憶部20に記憶される。
【0058】ステップS6で、上記高速照合部22によって、上述のような高速照合が行われて高速照合用言語辞書21に登録された各単語の尤度が求められる。ステップS7で、全単語の高速照合が終了したか否かが判別される。その結果、終了すればステップS8に進み、終了していなければ上記ステップS6に戻って高速照合が続行される。ステップS8で、候補予備選択部23によって、尤度の高い順に上位H個の単語が候補として選択される。
【0059】ステップS9で、上記詳細照合部25によって、上記予備選択された候補単語に関して、詳細照合用言語辞書24を用いて詳細照合が行われ、正確な尤度が求め直される。ステップS10で、全予備選択候補単語に関する詳細照合が終了したか否かが判別される。その結果、終了すればステップS11に進み、終了していなければ上記ステップS9に戻って詳細照合が続行される。ステップS11で、さらに、候補単語が上記正確な尤度の高い順に並べ直され、上位候補が出力される。そうした後、音声認識処理動作が終了される。
【0060】次に、本音声認識装置を、電話帳の人名300単語を認識するシステムに応用した場合を例に、上記音声認識処理動作を具体的に説明する。この場合、高速照合用言語辞書21には、電話帳の人名300の各単語と、この単語を1音素を1状態とした状態系列で表現したものとが対応付けられて格納されている。また、詳細照合用言語辞書24には、上記人名300の各単語と、この単語を各環境依存型音素モデルの状態系列を直列接続して表現したものとが対応付けられて格納されている。
【0061】上記音声区間検出部13による音声区間の判定は、促音による無音区間を誤って音声区間終了の無音区間と判定しないように、通常、発声が終了してから例えば0.3秒程度無音区間が継続した場合に音声区間終了と判定するようにしている。したがって、例えば、ユーザが佐藤と発声した場合、佐藤の発声終了後0.3秒が経過するまで、図2におけるステップS1〜ステップS4が繰り返されて、音声佐藤に関する音響分析,間引きパラメータ演算および尤度演算が行われるのである。
【0062】そして、0.3秒間無音区間が継続して音声区間が検出されると、切り出された佐藤の音声区間に対して上記演算された尤度を状態方向と時間方向とに間引きながら高速照合用尤度記憶部20にコピーして、上記高速照合用の尤度テーブルが作成される(ステップS5)。そして、上記高速照合用の尤度テーブルに対して修正が行われた後、修正後の上記高速照合用の尤度テーブルと高速照合用言語辞書21に登録された300単語との高速照合が行われる(ステップS6)。そして、その結果を尤度の高い順に並べて、上位の20単語が候補として予備選択される(ステップS8)。
【0063】その結果、入力音声佐藤に対して、加藤,佐藤,斉藤,後藤,…という順位となったとする。これら20個の候補単語に関して、上記詳細照合用の尤度テーブルと詳細照合用言語辞書24との詳細照合が行われ、尤度の再計算と並び替えとが行われる(ステップS9)。
【0064】このように、300個の大語彙に対するビタビ法による照合演算は、間引き後に残った入力フレームに対して、1音素を1状態に限定した簡素化された高速照合用言語辞書21を用いて行う。一方、各環境依存型音素モデルの状態系列の直列接続に関するビタビ法による膨大な照合演算は、20個の予備候補単語に限定して行う。こうすることによって、認識処理の高速化と認識率の向上とが図られるのである。
【0065】上述のようにして、詳細照合と候補単語の並び替えとが行われた結果、上記候補単語の並び順が佐藤,加藤,斉藤の順になったとすると、この順で候補単語を出力する(ステップS11)。
【0066】上述のように、本実施の形態においては、入力音声の音響パラメータに基づいて演算された各フレームにおける各状態の尤度に対して、高速照合用尤度演算部18によって、間引きパラメータに基づいて間引きを行った後、種々の音素環境下に在る同一音素に属する全状態のうち最大尤度を呈する1つの状態とその状態の尤度とを求めて(つまり、1音素1状態の環境独立型音素モデルに変換して)、高速照合用の尤度テーブルを生成する。そして、高速照合用尤度修正部19によって、上記尤度テーブル上の尤度の誤った音素側への偏りを、尤度の修正ルールに従って修正するようにしている。
【0067】したがって、上記高速照合用の尤度テーブルを生成するに際して1音素1状態としたことによって生ずる誤った音素側への尤度の偏りを、的確に修正することができる。その結果、上記高速照合用の尤度テーブルを用いた高速照合によって候補単語の予備選択を行う際に、照合誤りを無くすことができる。その結果、候補単語を少ない数に的確に絞り込むことができ、詳細照合部25によって後に行われる環境依存型音素モデルによる詳細照合の高速化を行うことができるのである。
【0068】さらに、本実施の形態においては、上記高速照合用尤度演算部18による入力の間引きは、間引きパラメータ演算部14によって、標準偏差で正規化した音響パラメータの変化量に基づく間引きパラメータの積分値に従って、上記音響パラメータの変化量が略一定になるように行われる。したがって、時間方向に一定間隔で間引く場合のように、早口で発声した音声中の破裂音のごとく主観的な音素の特徴が欠落することがなく、入力音声の特徴をよく表わす高速照合用尤度が得られるのである。
【0069】上述のごとく、本実施の形態においては、上記高速照合時における照合誤りを無くすことによって候補単語を少ない数に的確に絞り込むことができ、結果的に詳細照合の高速化を図ることができる。具体的には、高速照合用尤度演算部18によって詳細照合用の尤度テーブルを状態方向に約1/4,時間方向に約1/5の圧縮を行い、高速照合用言語辞書21に登録された語彙数の約1/20の単語候補を予備選択するとすると、図3R>3に示す音声認識装置の場合に比して約1/20の時間での高速照合と約1/20の時間での詳細照合とで音声認識を行うことができ、照合全体としては10倍の高速化を実現できる。また、上記内部メモリを有効に使用することができるため、さらに高速化が可能になるのである。
【0070】また、上記高速照合用尤度演算部18による高速照合用尤度の演算を、上記音響モデルの構成単位である音素を誤り易い音素でグループ化し、一つの音素グループを一つの代表尤度で表わすように行うこともできる。この場合には、誤り易い音素を一つの音素グループをとしているため、高速照合時における照合誤りを殆どなくすことができ、高速照合用尤度修正部19による上記修正処理を省略することが可能になる。また、照合対象数が減少するため、高速照合の高速化を図ることができるのである。
【0071】さらに、本実施の形態における音声認識装置をDSPや汎用プロセッサで実現する場合には、外部メモリ上に設定された詳細照合用尤度記憶部20に基づいて得られた高速照合用の尤度テーブルおよび高速照合用言語辞書21を内部メモリにロードして高速照合を行うようにしている。したがって、上記高速照合を効率よく高速に処理することができる。
【0072】また、本実施の形態においては、辞書登録部26を有して、高速照合用言語辞書21および詳細照合用言語辞書24に登録されていない新たな単語が入力されると、入力単語に関する高速照合用の状態系列と詳細照合用の音素状態系列とを生成する。そして、生成された上記高速照合用の状態系列を高速照合用言語辞書21に追加登録する一方、上記詳細照合用の音素状態系列を詳細照合用言語辞書24に追加登録する。こうして、新たな単語の照合用言語辞書情報が自動的に得られて、高速照合用言語辞書21および詳細照合用言語辞書24の両辞書に追加登録される。したがって、常に新しい単語を認識可能にして、高い認識率を維持できるのである。
【0073】その際に、連続する同一音素がある場合には1つの状態に圧縮する。または、元の単語としては異なる音素連鎖であっても音素グループで見ると同一音素グループが連続する場合には、その連続する同一音素グループを1つの状態に圧縮する。そうすることによって、高速照合用言語辞書21を用いた高速照合および詳細照合用言語辞書24を用いた詳細照合の高速化を図ることができるのである。
【0074】ところで、上記実施の形態における音響分析手段,尤度演算手段,音声区間検出手段,高速照合用尤度演算手段,高速照合用尤度修正手段,高速照合手段,候補予備選択手段,詳細照合手段,間引きパラメータ演算手段および辞書登録手段としての機能は、プログラム記録媒体に記録された音声認識処理プログラムによって実現される。上記実施の形態における上記プログラム記録媒体は、ROM(リードオンリメモリ)でなるプログラムメディアである。あるいは、外部補助記憶装置に装着されて読み出されるプログラムメディアであってもよい。尚、何れの場合においても、上記プログラムメディアから音声認識処理プログラムを読み出すプログラム読み出し手段は、上記プログラムメディアに直接アクセスして読み出す構成を有していてもよいし、RAMに設けられたプログラム記憶エリア(図示せず)にダウンロードし、上記プログラム記憶エリアにアクセスして読み出す構成を有していてもよい。尚、上記プログラムメディアからRAMの上記プログラム記憶エリアにダウンロードするためのダウンロードプログラムは、予め本体装置に格納されているものとする。
【0075】ここで、上記プログラムメディアとは、本体側と分離可能に構成され、磁気テープやカセットテープ等のテープ系、フロッピー(登録商標)ディスク,ハードディスク等の磁気ディスクやCD(コンパクトディスク)−ROM,MO(光磁気)ディスク,MD(ミニディスク),DVD(ディジタルビデオディスク)等の光ディスクのディスク系、IC(集積回路)カードや光カード等のカード系、マスクROM,EPROM(紫外線消去型ROM),EEPROM(電気的消去型ROM),フラッシュROM等の半導体メモリ系を含めた、固定的にプログラムを坦持する媒体である。
【0076】また、上記各実施の形態における音声認識装置は、モデムを備えてインターネットを含む通信ネットワークと接続可能な構成を有している場合には、上記プログラムメディアは、通信ネットワークからのダウンロード等によって流動的にプログラムを坦持する媒体であっても差し支えない。尚、その場合における上記通信ネットワークからダウンロードするためのダウンロードプログラムは、予め本体装置に格納されているものとする。あるいは、別の記録媒体からインストールされるものとする。
【0077】尚、上記記録媒体に記録されるものはプログラムのみに限定されるものではなく、データも記録することが可能である。
【0078】
【発明の効果】以上より明らかなように、第1の発明の音声認識装置は、HMMを用いた音声認識装置において、尤度演算手段によって得られた詳細照合用尤度に基づいて、高速照合用尤度演算手段によって高速照合用尤度を求め、高速照合用尤度修正手段によって上記高速照合用尤度の誤った側への偏りを修正するので、上記高速照合用尤度を少ない状態で表現した際に生ずる尤度の誤った音声単位側への偏りを修正することができる。したがって、上記文献3のごとく、複数の状態からなる環境依存型音素モデルを1状態の環境独立型音素モデルに変換した際に、音素間でパラメータ空間を占める範囲が重複しているために生ずる誤り音素側への偏りを修正することができる。
【0079】したがって、高速照合手段による高速照合を行う際の照合誤りを少なくでき、結果的に、候補予備選択手段による候補単語の予備選択によって、候補単語を少ない数に的確に絞り込むことができる。すなわち、この発明によれば、上記候補単語の予備選択による詳細照合の高速化を、より効率的に行うことができるのである。
【0080】また、上記第1の発明の音声認識装置は、間引きパラメータ演算手段によって音響分析結果に基づいて間引きパラメータを演算し、上記高速照合用尤度演算手段を、上記間引きパラメータに基づいて上記詳細照合用尤度に対して時間方向への間引き処理を行った後に、上記高速照合用尤度を求めるように成せば、上記間引きパラメータを適切に算出することによって、上記文献2のごとく時間方向に一定間隔で間引く場合のような瞬間的な特徴の欠落を防止し、且つ、十分に高速化を行うことが可能になる。
【0081】また、上記第1の発明の音声認識装置は、上記間引きパラメータ演算手段による上記間引きパラメータの演算を、上記音響分析結果としての音響パラメータの変化量に基づいて行い、上記高速照合用尤度演算手段による間引き処理を、上記間引きパラメータに基づいて上記音響パラメータの変化量が略一定になるように行えば、間引き処理後の上記詳細照合用尤度を音響パラメータの変化が激しい領域ほど多く残すことができる。したがって、入力音声の瞬間的な特徴を的確に抽出することができるのである。
【0082】また、上記第1の発明の音声認識装置は、上記高速照合用尤度演算手段による上記高速照合用尤度の演算を、上記音響モデルの構成単位である音声単位を一つの代表尤度で表わすことによって行えば、高速照合用の尤度を最小の状態数で表現できる。したがって、上記高速照合用の尤度を用いた高速照合を高速に行うことができる。
【0083】また、上記第1の発明の音声認識装置は、上記高速照合用尤度演算手段による上記高速照合用尤度の演算を、上記音響モデルの構成単位である音声単位を誤り易い音声単位でグループ化し、一つのグループを一つの代表尤度で表わすことによって行えば、誤った音声単位の尤度が正しい音声単位の尤度よりも高くなることを防止できる。すなわち、この発明によれば、高速照合時における照合誤りを少なくできるのである。さらに、上記グループ化によって、高速照合時における照合の対象を減少し、上記高速照合を非常に高速に行うことができるのである。
【0084】尚、この場合には、上記高速照合用尤度修正手段による修正処理を省略することが可能になる。
【0085】また、上記第1の発明の音声認識装置は、高速照合用尤度修正手段による上記高速照合用尤度の修正を、上記音声単位間あるいは上記グループ間の誤りパターンを考慮して行えば、予め分っている上記音声単位間あるいは上記グループ間の誤りパターンを考慮して上記音声単位あるいはグループの代表尤度を修正でき、迅速に且つ的確に修正処理を行うことができる。
【0086】また、上記第1の発明の音声認識装置は、上記高速照合を実行する際には、上記高速照合用尤度記憶手段に記憶された上記高速照合用尤度と、高速照合用言語辞書記憶手段に記憶された上記高速照合用言語辞書とを、上記高速照合手段の内部メモリにロードすれば、上記高速照合処理を効率よく行うことができる。
【0087】また、上記第1の発明の音声認識装置は、辞書登録手段によって、入力単語に関する高速照合用の状態系列と詳細照合用の状態系列とを生成し、前者を上記高速照合用言語辞書に追加登録する一方、後者を上記詳細照合用言語辞書に追加登録すれば、自動的に上記高速照合用言語辞書および詳細照合用言語辞書の両辞書に当該単語の辞書項目を追加登録できる。したがって、常に新しい単語の認識を可能にでき、高い認識率を維持できる。
【0088】また、上記第1の発明の音声認識装置は、上記辞書登録手段による上記高速照合用の状態系列の生成を、連続する同一音声単位あるいは連続する同一音声単位グループを1つの状態に圧縮することによって行えば、上記高速照合用言語辞書を用いた高速照合の高速化を図ることができる。
【0089】また、第2の発明の音声認識方法は、HMMを用いた音声認識方法において、詳細照合用尤度に基づいて高速照合用尤度を求め、上記高速照合用尤度の誤った側への偏りを修正するので、上記高速照合用尤度を少ない状態で表現した際に生ずる各尤度の誤った音声単位側への偏りを修正することができる。したがって、高速照合を行う際の照合誤りを少なくでき、結果的に、候補単語の予備選択によって、候補単語を少ない数に的確に絞り込むことができる。
【0090】すなわち、この発明によれば、上記候補単語の予備選択による詳細照合の高速化を、より効率的に行うことができるのである。
【0091】また、第3の発明のプログラム記録媒体は、コンピュータを、上記第1の発明における音響分析手段,尤度演算手段,高速照合用尤度演算手段,高速照合用尤度修正手段,高速照合手段,候補予備選択手段及び詳細照合手段として機能させる音声認識処理プログラムが記録されているので、上記第1の発明の場合と同様に、HMMを用いた音声認識を行うに際して、高速照合用尤度の誤った側への偏りを修正することができ、上記高速照合用尤度を少ない状態で表現した際に生ずる各尤度の誤った音声単位側への偏りを修正することができる。したがって、高速照合を行う際の照合誤りを少なくでき、結果的に、候補単語の予備選択によって、候補単語を少ない数に的確に絞り込むことができる。
【0092】すなわち、この発明によれば、上記候補単語の予備選択による詳細照合の高速化を、より効率的に行うことができるのである。
【図面の簡単な説明】
【図1】 この発明の音声認識装置におけるブロック図である。
【図2】 図1に示す音声認識装置による音声認識処理動作のフローチャートである。
【図3】 HMMを用いた従来の音声認識装置のブロック図である。
【符号の説明】
11…音響分析部、
12…尤度演算部、
13…音声区間検出部、
14…間引きパラメータ演算部、
15…音響モデル記憶部、
16…詳細照合用尤度記憶部、
17…間引きパラメータ記憶部、
18…高速照合用尤度演算部、
19…高速照合用尤度修正部、
20…高速照合用尤度記憶部、
21…高速照合用言語辞書、
22…高速照合部、
23…候補予備選択部、
24…詳細照合用言語辞書、
25…詳細照合部、
26…辞書登録部。

【特許請求の範囲】
【請求項1】 入力音声を音響分析する音響分析手段と、上記音響分析結果に基づいて、音響モデル記憶手段に記憶された音響モデルを参照してフレーム毎に各状態の尤度を演算し、演算結果を詳細照合用尤度として詳細照合用尤度記憶手段に記憶する尤度演算手段と、上記詳細照合用尤度に基づいて、高速照合用尤度を求める高速照合用尤度演算手段と、上記高速照合用尤度の誤った側への偏りを修正し、高速照合用尤度記憶手段に記憶する高速照合用尤度修正手段と、上記修正後の高速照合用尤度と高速照合用言語辞書に登録された全単語との照合を行って、上記各単語の尤度を算出する高速照合手段と、上記高速照合手段による照合結果に基づいて、候補単語の予備選択を行う候補予備選択手段と、上記予備選択された候補単語に関して、上記詳細照合用尤度と詳細照合用言語辞書に登録された単語との詳細照合を行って、上記各候補単語の尤度を算出する詳細照合手段を備えたことを特徴とする音声認識装置。
【請求項2】 請求項1に記載の音声認識装置において、上記音響分析結果に基づいて、間引きパラメータを演算する間引きパラメータ演算手段を備えると共に、上記高速照合用尤度演算手段は、上記詳細照合用尤度に対して上記間引きパラメータに基づく時間方向への間引き処理を行った後に、残った上記詳細照合用尤度に基づいて、高速照合用尤度を求めるようになっていることを特徴とする音声認識装置。
【請求項3】 請求項2に記載の音声認識装置において、上記間引きパラメータ演算手段は、上記音響分析結果としての音響パラメータの変化量に基づいて上記間引きパラメータを演算し、上記高速照合用尤度演算手段は、上記間引きパラメータに基づいて、上記音響パラメータの変化量が略一定になるように間引き処理を行うようになっていることを特徴とする音声認識装置。
【請求項4】 請求項1に記載の音声認識装置において、上記高速照合用尤度演算手段は、上記音響モデルの構成単位である音声単位を一つの代表尤度で表わすことによって、上記高速照合用尤度の演算を行うようになっていることを特徴とする音声認識装置。
【請求項5】 請求項1に記載の音声認識装置において、上記高速照合用尤度演算手段は、上記音響モデルの構成単位である音声単位を誤り易い音声単位でグループ化し、一つのグループを一つの代表尤度で表わすことによって、上記高速照合用尤度の演算を行うようになっていることを特徴とする音声認識装置。
【請求項6】 請求項5に記載の音声認識装置において、上記高速照合用尤度修正手段による修正処理を省略することを特徴とする音声認識装置。
【請求項7】 請求項4あるいは請求項5に記載の音声認識装置において、高速照合用尤度修正手段は、上記音声単位間あるいは上記グループ間の誤りパターンを考慮して上記音声単位あるいは上記グループの代表尤度を修正することによって、上記高速照合用尤度の修正を行うようになっていることを特徴とする音声認識装置。
【請求項8】 請求項1に記載の音声認識装置において、上記高速照合手段は、内部メモリを有しており、上記高速照合用言語辞書は、高速照合用言語辞書記憶手段に記憶されており、上記高速照合手段は、上記高速照合を実行する際には、上記高速照合用尤度記憶手段に記憶された高速照合用尤度と、上記高速照合用言語辞書記憶手段に記憶された高速照合用言語辞書とを、上記内部メモリにロードするようになっていることを特徴とする音声認識装置。
【請求項9】 請求項1に記載の音声認識装置において、単語が入力されて、この入力単語に関する高速照合用の状態系列と詳細照合用の状態系列とを生成し、上記高速照合用の状態系列を上記高速照合用言語辞書に追加登録する一方、上記詳細照合用の状態系列を上記詳細照合用言語辞書に追加登録する辞書登録手段を備えたことを特徴とする音声認識装置。
【請求項10】 請求項9に記載の音声認識装置において、上記辞書登録手段は、上記高速照合用の状態系列を生成する際に、同一の音声単位あるいは同一の音声単位グループが連続する場合には、上記連続する同一音声単位あるいは上記連続する同一音声単位グループを1つの状態に圧縮するようになっていることを特徴とする音声認識装置。
【請求項11】 入力音声を音響分析するステップと、上記音響分析結果に基づいて、音響モデルを参照してフレーム毎に各状態の尤度を演算して詳細照合用尤度を求めるステップと、上記詳細照合用尤度に基づいて高速照合用尤度を求めるステップと、上記高速照合用尤度の誤った側への偏りを修正するステップと、上記修正後の高速照合用尤度と高速照合用言語辞書に登録された全単語との高速照合を行って、上記各単語の尤度を算出するステップと、上記高速照合結果に基づいて、候補単語の予備選択を行うステップと、上記予備選択された候補単語に関して、上記詳細照合用尤度と詳細照合用言語辞書に登録された単語との詳細照合を行って、上記各候補単語の尤度を算出するステップを備えたことを特徴とする音声認識方法。
【請求項12】 コンピュータを、請求項1における音響分析手段,尤度演算手段,高速照合用尤度演算手段,高速照合用尤度修正手段,高速照合手段,候補予備選択手段および詳細照合手段として機能させる音声認識処理プログラムが記録されたことを特徴とするコンピュータ読出し可能なプログラム記録媒体。

【図1】
image rotate


【図2】
image rotate


【図3】
image rotate


【特許番号】特許第3461789号(P3461789)
【登録日】平成15年8月15日(2003.8.15)
【発行日】平成15年10月27日(2003.10.27)
【国際特許分類】
【出願番号】特願2000−187686(P2000−187686)
【出願日】平成12年6月22日(2000.6.22)
【公開番号】特開2002−6883(P2002−6883A)
【公開日】平成14年1月11日(2002.1.11)
【審査請求日】平成13年6月28日(2001.6.28)
【出願人】(000005049)シャープ株式会社 (33,933)
【参考文献】
【文献】特開 昭62−220996(JP,A)
【文献】特開 平6−348299(JP,A)
【文献】特開 平9−34486(JP,A)
【文献】特開 平3−116100(JP,A)
【文献】特開 平8−123470(JP,A)
【文献】特開 平6−266393(JP,A)
【文献】特開 昭59−60499(JP,A)
【文献】特開 平6−266396(JP,A)
【文献】山口 外8名,コンパクトな単語音声認識、テキスト音声合成,シャープ技報,日本,2000年 8月10日,第77号,Pages 26−32