説明

音素認識装置および音素認識方法

【目的】入力音が極めて効率よく計算、分析され、精度よく音素認識されること。
【構成】図1は本発明の音素認識装置を示す構成図で、入力音の分析手段2、セグメンテーション(SG)・大分類ニューラルネットワーク(NN) 3、SG・大分類認識手段4、細分類選択・駆動手段5、細分類NN 6、細分類認識手段7、認識音素8とから成る。入力音の音素を認識するため、まず大分類NNのみを駆動してSGと大分類認識を同時に行い、大分類されたSG区間について細分類認識のために必要な細分類NNのみを選択・駆動して最終的な細かい音素認識を行う構成とする。

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は音素抽出手段により入力音声を音素単位で認識する音声認識装置に関し、特にニューラルネットワーク(神経回路網)を用いた音素認識装置に関するものであって、システムのボイスコマンド入力装置等に用いられる。
【0002】
【従来の技術】近年、音声入力を音素単位で認識することにより、単語音声のみならず、連続した文音声を認識可能とする技術の開発が多数試みられている。特に、ニューラルネットワークを用いて音素認識する従来方式として、例えば特開平3-120600号公報に記載のものがある。これは、図6(a) に示すような入力層91を共通としたTDNN(Time Delay Neural Network )と呼ばれる多数のニューラルネットワーク92a〜92iと、これを統合するニューラルネットワーク93と、24音素を識別出力できる出力層94とから成る、全体ニューラルネットワークを図6(b) に示すように1フレーム周期で時間的にシフトさせながら駆動し、その出力値時系列によって入力音声中の音素(音韻)をスポッティング(特定)し、認識しようとするものである。
【0003】
【発明が解決しようとする課題】しかしながら、前述ニューラルネットワークは、極めて大規模であり、一般に1フレームにつき10msec前後の周期毎に行うニューラルネットワークの計算・処理量は極めて膨大であり、1秒以内のリアルタイムで認識応答させようとしても困難である。これを達成するには大規模ニューラルネットワークを構築可能な極めて小型のニューロンチップのようなハードウエア素子を必要とするが、これはいまだ開発段階にあり、入手は不可能である。従って現段階では、例えば高速浮動小数点演算素子を複数個搭載したアクセラレータボードを多数枚用いて、分散・並列処理させるといった、極めて大規模なコンピュータハードウエアが必要となるという問題があった。本発明は上記問題点に鑑みてなされたものであり、音素抽出手段としてニューラルネットワークを用いた音素認識方式において、認識性能が同等以上でかつ音素認識のための計算・処理量が少なく、よって必要とするハードウエア規模が少なくて済む、より実用性の高い音素認識装置・方法を提供することを目的とするものである。
【0004】
【課題を解決するための手段】上記の課題を解決するため第一発明の構成は、ニューラルネットワークを用いた音素認識装置において、入力音を所定のフレーム周期ごとに分析して複数個の特徴パラメータを求める分析手段と、前記特徴パラメータを時間的にフレーム単位でずらしながら、所定フレーム数分とった特徴パラメータ系列が入力されて、該入力音をセグメンテーションすると同時に、音素の大分類認識を行うのに必要な出力値を得るセグメンテーション・大分類ニューラルネットワークと、同じく前記特徴パラメータ系列が入力されて音素の細分類認識を行うのに必要な出力値を得る複数個の細分類ニューラルネットワークより成る細分類ニューラルネットワーク群と、前記セグメンテーション・大分類ニューラルネットワークの出力値をもとに該入力音をセグメンテーションすると同時に、音素の大分類を行うセグメンテーション・大分類認識手段と、このセグメンテーション・大分類結果に基づいて、該当する細分類ニューラルネットワーク群より逐次選択すると同時に、セグメンテーションされた区間について駆動する細分類ニューラルネットワーク選択・駆動手段と、前記細分類ニューラルネットワーク群の出力値をもとに該入力音に対応した認識音素列を得る細分類認識手段とから構成されることを特徴とする。
【0005】また第二発明の構成は、ニューラルネットワークを用いた入力音の音素認識方法において、該入力音を所定のフレーム周期ごとに分析して複数個の該フレームの特徴パラメータを求め、前記特徴パラメータを時間的にフレーム単位でずらしながら、所定フレーム数分とった特徴パラメータ系列をセグメンテーション・大分類音素抽出手段に入力して該入力音をセグメンテーションすると同時に音素の大分類認識を行い、該セグメンテーション・大分類認識の結果に基づいて、該当する細分類音素抽出手段を逐次選択すると同時に、セグメンテーションされた区間について前記細分類音素抽出手段を駆動し、当該区間の前記特徴パラメータ系列を基に音素の細分類認識を行い、前記細分類認識の出力値をもとに該入力音に対応した認識音素列を得ることを特徴とする。
【0006】
【作用】入力音は、まず分析手段において音素認識装置で分析可能な信号系列に変換され、次にその信号系列データ全体が大きい特徴に分類され、それによって把握された特徴を基にしてさらに細かく分類されて、個々の音素に特定される。
【0007】
【発明の効果】上記構成により、本発明においては、セグメンテーション・大分類ニューラルネットワークのみを,入力音、とくに入力音声中の全区間に渡って駆動し、また大分類されたセグメンテーション区間について、細分類ニューラルネットワーク群の該当する一つの細分類ニューラルネットワークが逐次選択・駆動されるのみであることから、従来の、すべてのニューラルネットワークを全区間駆動して音素認識を行う場合に比べて、ニューラルネットワークの計算、処理量は大幅に低減され、必要とするハードウエア規模も小さくて済み、より実用性の高い音素を認識単位とした音声認識装置の実現を可能にするという優れた効果がある。またこの音素認識方法を採用することにより、効率的な音素認識が実現する。
【0008】
【実施例】以下、本発明を具体的な実施例に基づいて説明する。図1は本発明の一実施例における音素認識方式の全体を示す構成図である。まず分析手段2に対して入力音声1が入力される。分析手段2では入力音声1を1フレーム10msec周期ごとに20msecの区間で15次のLPC(線型予測)分析を行い、 線型予測係数α12,…… ,α15と残差パワーEを求める。そしてこのデータによりパワー項C0 を含むケプストラム係数Cn (0≦n≦15)を以下に示す数1式および数2式で算出する。
【数1】


【数2】C0 = log E
【0009】続いて、このケプストラム係数Cn を−1から+1までの範囲内に正規化して特徴パラメータPn ( 0≦n≦15)とし、この特徴パラメータPn をフレームfごとに求めた特徴パラメータPnf系列を得る(分析手段2)。そして、この特徴パラメータPnfを所定フレーム数m分Pnf-m〜Pnfをセグメンテーション・大分類ニューラルネットワーク3に入力し、その出力としてOVf' , OSf' , ……,OUf' を得る。
【0010】ここで、ニューラルネットワーク3は図2(a) に示すような多層パーセプトロン型ニューラルネットワークで、入力層21は所定フレーム数分の特徴パラメータ数に等しいニューロン数よりなり、中間1層22、中間2層23、出力層24の4層構造で、各層のニューロンは前後層のニューロンと全結合した構造をしている。
【0011】また、音素を図3の様に大分類し、その大分類音素記号を、V,S,Z,P,M,B,Uの7つとする。この意味は例えば母音aiueoの5つの音素はひとまとめにVとして大きく分類して取り扱うということである。その他各子音についても同様に大きく分類しておく。そして、図2(a) のニューラルネットワークの出力層24は、この大分類音素V〜Uに対応した出力OV , OS , ……, OUを得るための出力ニューロンより構成されている。さらにこのニューラルネットワークは母音Vの特徴パラメータ系列が入力された時には、出力OV が1で、その他の出力が0となるように、また、大分類子音Sの特徴パラメータ系列が入力された時には、出力OS が1で、その他の出力が0となるように、同時に全ての音素および無音データによって予め内部の重み係数が学習されている。学習方法は多層パーセプトロン型ニューラルネットワークでよく用いられる周知のエラーバックプロパゲーション法またはその他の方法により行う。
【0012】入力される特徴パラメータ系列のフレーム位置と、出力値を得るフレーム位置との関係は、図2(b) に示すように、入力フレーム幅のほぼ中間フレーム位置で出力値を得るように設定されている。これは着目しているフレームにおける抽出したい音素の特徴は、その音素の前後の音素との絡みがあると考えられるので前後のフレームも調べることに相当する。本実施例では入力フレーム数を10フレームにとり、最新の入力フレームをfとした場合、f−4フレーム目に出力値が得られるようにしており、前述のニューラルネットワーク3の出力フレームf’はf−4を示している。
【0013】図1において、このようにして得られたセグメンテーション・大分類ニューラルネットワーク3の出力値時系列に対して、セグメンテーション・大分類認識手段4で、フレームごとの各出力値を所定のしきい値と比較し、そのしきい値を越えたもの、あるいは最大出力となったものを選択して、その出力値に対応する大分類音素記号に置き換える。それで各フレームごとの大分類音素記号列が得られる。さらに、この大分類音素記号列に対してスムージング・整形処理を行ってセグメンテーション・大分類記号列を得る。つまり、時系列での同じ音素がまとまっていることを明確にするセグメント化(区分)が行われ、各区分の中身は音素が大雑把に区分けされている訳である。
【0014】以上のようなセグメンテーション・大分類方式の音素認識方式を用いて、入力音声1の例として「ポプラ並木(POPURANAMIKI)」を分析した結果を図4に示す。まず、入力音声の音声波形1aを、前述したように10msecごとにLPC分析して、得られた特徴パラメータ系列の10フレーム分が1フレームずつシフトされながらニューラルネットワークに入力され、このときのフレームごとの出力値(0〜1の規格値範囲)が図4の31〜37として示されている。この各出力値は各々のしきい値31a〜37aと比較され、しきい値を越えた出力について、対応する大分類音素記号に置き換えられ、出力選択後の大分類音素列41として得られている。ここで、しきい値31a〜37aは実験的に求められた値である。また各フレームにおいて、いずれの出力もしきい値を越えなかった場合を*印にて示している。
【0015】一般的に、ある音素から音素に遷移する場合、人間の発生器官は急激に変化することができず、いずれの音素とも特定しがたい過渡的な部分を伴って発声されるものであるが、この*印フレームがそのような過渡的な部分を示すものである。また、音声の語尾には呼気音と呼ばれるものを伴うことが多いが、この呼気音部も*印にて検出されている。ここで、前後は他の同一音素で、一箇所だけ単発的に生じているような、大分類音素列41中の丸印で示したMやBは、前後の音素と同じものとみなして修正する等のスムージング・整形処理を行うことによって、セグメンテーション・大分類音素42を得ている。即ち、この大分類音素列42を見てわかるように、入力音声「ポプラ並木」が大分類音素記号U,P,V等の同一記号の並びによって音素区間が明確に区分(セグメンテーション)されると同時に音素の大分類認識が行われている。
【0016】さらにこのセグメンテーション・大分類の結果を基に、図1に示す細分類ニューラルネットワーク選択・駆動手段5は、大分類音素記号で示される各フレーム区間をさらに細分類認識するための細分類ニューラルネットワーク6a〜6fより成る細分類ニューラルネットワーク群6の中から、対応する細分類ニューラルネットワークを選択し、対応するフレーム区間についてのみ、大分類ニューラルネットワークと同様に駆動、即ち、該当する区間の特徴パラメータを入力してニューラルネットワークの計算、処理を行わせる。つまり、図4の大分類音素記号列42の、例えばPと大分類された最初の区間は細分類ニューラルネットワークP(図1の6d)を選択し、対応するフレームの特徴パラメータを入力して細分類ニューラルネットワークPの出力値を得るように駆動する。
【0017】ここで、細分類ニューラルネットワーク6a〜6fは、一例として図5に示した、母音Vを細分類するニューラルネットワークVで示すように、図2(a) に示すセグメンテーション・大分類ニューラルネットワーク3と同種の構造の多層パーセプトロン型ニューラルネットワークを用いている。従って図3の一覧からわかるように、細分類の出力層の数は各ニューラルネットワークによって異なり、例えば大分類音素記号Zの細分類では、出力はOz , Oh の2つしかない。
【0018】そして、図1に示す細分類認識手段7は、前述したセグメンテーション・大分類認識手段4と同様にフレームの各出力値(この場合Op , Ot , Ok )と各々のしきい値を越えたもの、あるいは最大出力となったものを選択してその出力に対応した細分類音素記号61(この場合pppt……)を得、さらにこのp区間内で最多出現回数のpをこの区間の最終的な認識音素8として出力する。以下同様に、次のVと大分類された区間は細分類ニューラルネットワークV(図1の6a)を選択・駆動し、認識音素Oを出力する、という処理を行ってゆき、入力音声に対応した認識音素列8を得るというものである。
【0019】なお、半母音音素yおよびwは母音vとして大分類し、例えばその細分類認識結果が「iea」または「ea」といった連続母音列として出現した場合は、これを「ya」と認識出力し、また他に「oa」または「ua」といった連続母音として出現した場合は、これを「wa」として認識出力する、というような現実に対応させたルール処理を図1の細分類認識手段7にて行うようにしている。また、無音のデータに対しては細分類するまでもないので、大分類ニューラルネットワークの出力層24より得られた出力OU のしきい値以上の結果をそのまま保持し、細分類データに無音時間のデータとして付加される。
【0020】なお、上記実施例は本発明の一実施例を示すものであり、本発明はこれに限定されるものではない。例えば、特徴パラメータとしてケプストラム係数以外のものとして、所定周波数のスペクトル相当値を用いても良い。フレーム数もフレーム周期も必要とするシステムによって自由に設定、変更できる。個々のニューラルネットワークとしても全結合型の多層パーセプトロン以外の、例えば前述TDNN、あるいは他の構造のニューラルネットワークを用いても良い。
【0021】以上説明したように、音素を認識するためのニューラルネットとして、まず大分類ニューラルネットワークを駆動してセグメンテーションと大分類認識を同時に行い、大分類されたセグメンテーション区間について細分類認識のために必要な細分類ニューラルネットワークのみを選択・駆動して最終的な細かい音素認識を行う構成とすることにより、計算・処理量の大きいニューラルネットワーク処理が極めて効率よく行えると同時に、精度よく音素認識されることがわかる。
【図面の簡単な説明】
【図1】本発明の音素認識方式の全体のブロック構成図。
【図2】大分類のニューラルネットワークの構成図。
【図3】大分類音素記号の対応図。
【図4】実際の分析しデータ一覧図。
【図5】細分類のニューラルネットワークの構成図。
【図6】従来の音素認識方式を示す構成図。
【符号の説明】
1 入力音声(被分析音声データ)
2 分析手段
3 セグメンテーション・大分類ニューラルネットワーク(セグメンテーション・大分類音素抽出手段)
4 セグメンテーション・大分類認識手段
5 細分類ニューラルネットワーク選択・駆動手段
6 細分類ニューラルネットワーク群(細分類音素抽出手段)
7 細分類認識手段
8 認識音素列(細分類結果、分析結果データ)
21 入力層
22 中間1層
23 中間2層
24 出力層
31〜37 セグメンテーション・大分類ニューラルネットワーク出力
41、42 セグメンテーション・大分類結果
61 細分類ニューラルネット出力選択結果

【特許請求の範囲】
【請求項1】ニューラルネットワークを用いた音素認識装置において、入力音を所定のフレーム周期ごとに分析して複数個の特徴パラメータを求める分析手段と、前記特徴パラメータを時間的にフレーム単位でずらしながら、所定フレーム数分とった特徴パラメータ系列が入力されて、該入力音をセグメンテーションすると同時に、音素の大分類認識を行うのに必要な出力値を得るセグメンテーション・大分類ニューラルネットワークと、同じく前記特徴パラメータ系列が入力されて音素の細分類認識を行うのに必要な出力値を得る複数個の細分類ニューラルネットワークより成る細分類ニューラルネットワーク群と、前記セグメンテーション・大分類ニューラルネットワークの出力値をもとに該入力音をセグメンテーションすると同時に、音素の大分類を行うセグメンテーション・大分類認識手段と、このセグメンテーション・大分類結果に基づいて、該当する細分類ニューラルネットワーク群より逐次選択すると同時に、セグメンテーションされた区間について駆動する細分類ニューラルネットワーク選択・駆動手段と、前記細分類ニューラルネットワーク群の出力値をもとに該入力音に対応した認識音素列を得る細分類認識手段とから構成されることを特徴とする音素認識装置。
【請求項2】前記セグメンテーション・大分類ニューラルネットワークは単一のニューラルネットワークであって、あらかじめ無音を含むすべての音素について同時に学習させてあることを特徴とする請求項1記載の音素認識装置。
【請求項3】ニューラルネットワークを用いた入力音の音素認識方法において、該入力音を所定のフレーム周期ごとに分析して複数個の該フレームの特徴パラメータを求め、前記特徴パラメータを時間的にフレーム単位でずらしながら、所定フレーム数分とった特徴パラメータ系列をセグメンテーション・大分類音素抽出手段に入力して該入力音をセグメンテーションすると同時に音素の大分類認識を行い、該セグメンテーション・大分類認識の結果に基づいて、該当する細分類音素抽出手段を逐次選択すると同時に、セグメンテーションされた区間について前記細分類音素抽出手段を駆動し、当該区間の前記特徴パラメータ系列を基に音素の細分類認識を行い、前記細分類認識の出力値をもとに該入力音に対応した認識音素列を得ることを特徴とする音素認識方法。

【図2】
image rotate


【図3】
image rotate


【図5】
image rotate


【図1】
image rotate


【図4】
image rotate


【図6】
image rotate


【公開番号】特開平6−348299
【公開日】平成6年(1994)12月22日
【国際特許分類】
【出願番号】特願平5−164284
【出願日】平成5年(1993)6月7日
【出願人】(000004260)日本電装株式会社 (27,639)