説明

音声認識用WFST作成装置とそれを用いた音声認識装置と、それらの方法とプログラムと記憶媒体

【課題】状態数、状態遷移数を削減したサイズの小さな音声認識用WFSTを作成する音声認識用WFST作成装置と、その音声認識用WFSTを用いた音声認識装置を提供する。
【解決手段】音素モデル構造表作成部は、音響モデルの要素である音素環境と状態位置と状態数で特定されるHMM状態にHMM状態IDを付与し、そのHMM状態IDの表を音素モデル構造表として作成して音素モデル構造表記憶部に記憶する。構造合致照合部は、複数の音響モデル間において同一の音素環境と状態位置と状態数である複数の状HMM態IDを併合させて新たに併合したHMM状態IDを付与し、そのHMM状態IDと対応する音素環境と状態位置と状態数とから成る表になるように音素モデル構造表を更新する。音響モデルWFST作成部は、その併合されたHMM状態IDを入力とし、出力を音素環境とする併合音響モデルWFSTを作成する。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、複数種類の音響モデルを用いて音声認識用の重み付き有限状態トランスデューサ(以下、WFSTと称する)を作成する音声認識用WFST作成装置とそれを用いた音声認識装置と、それらの方法とプログラムと記憶媒体に関する。
【背景技術】
【0002】
WFSTを用いた音声認識は、音響モデルや辞書、言語モデルなど音声認識に必要な情報を統合したWFSTに変換し、入力である音声認識対象音声を、WFSTを探索空間と見立ててデコードし、音声認識結果文字列に変換する手法である。
【0003】
図13に簡単なWFSTの例を示す。WFSTは、WFST状態と状態遷移の集合で表され、状態遷移の際に入力記号列を受け入れ、出力記号列を出力する。その際に重みを付与し、遷移ごとに累積される。図13では、例えば入力記号列「bdf」を受け入れ、「yv」を出力する。この際の累積重みは0.7+0.8+1=2.5と成る。
【0004】
これを音声認識に適用する場合は、音響モデルや辞書、言語モデルなどを個別にWFSTに変換し、これらのWFSTを合成、最適化することで音声認識用のWFST(以下、音声認識用WFSTと称する)を得る。ここで最適化とは、決定化、最小化といったWFSTの最適化演算の総称である。また、入力音声と音響モデルとの照合スコア、つまり音響スコアや言語モデルによる言語スコアは重みとして累積され、最終的に最も重みの高い出力記号列が音声認識結果となる。
【0005】
音声認識用WFSTによる音声認識では、音響モデルの構造を音声認識用WFSTに変換することから、音響モデルの構造が異なる場合は各音響モデルごとに構造が異なるWFSTに変換し、後に統合処理をおこなうことになるため、音声認識用WFSTのサイズは音響モデルの数に比例して肥大化する。しかし例えば、男声用音響モデルと女声用音響モデルを同時に用いることで、入力音声に、より適合した音響モデルで得た認識結果を採用することで認識精度の向上を図ることが可能である。
【0006】
音声認識用WFSTによる音声認識において、このような複数の音響モデルを利用する場合、音響モデルの数にほぼ比例して音声認識用WFSTのメモリが増大するため、消費メモリの問題が深刻化する。この増大する消費メモリ量を削減する従来の試みとしては、非特許文献1に開示された方法が知られている。その一つは、全ての音声認識用WFSTを合成せず、一部の音声認識用WFSTについては探索中に動的に合成するようにして、メモリの肥大化を防ぐ方法である。もう一つは、認識時に全ての音声認識用WFSTをメモリ上に読み込むのではなく、ディスク上に展開して置き、必要な分だけ随時メモリ領域に読み込んで利用する方法である。
【先行技術文献】
【非特許文献】
【0007】
【非特許文献1】大西翼、ディクソンポール、岩野公司、古井貞煕「WFST音声認識デコーダの省メモリ化に関する検討」、日本音響学会講演論文集、7〜10頁、2008年3月.
【発明の概要】
【発明が解決しようとする課題】
【0008】
従来の消費メモリの増加に対処する方法は、音声認識処理に用いる音声認識用WFSTは逐次合成されるか、又は読み込まれ、容量の大きな音声認識用WFST全体はディスク上に保存される。つまり従来は、音声認識用WFSTそのものの大きさを小さくする考えは無かった。
【0009】
この発明は、音声認識用WFSTそのもののサイズを小さくする音声認識用WFST作成装置とそれを用いた音声認識装置と、それらの方法とプログラムと記憶媒体を提供することを目的とする。
【課題を解決するための手段】
【0010】
この発明の音声認識用WFST作成装置は、音響モデル記憶部と、音素モデル構造表作成部と、構造合致照合部と、音響モデルWFST作成部と、音響モデルWFST記憶部と、音素WFST記憶部と、辞書WFST記憶部と、言語モデルWFST記憶部と、音声認識用WFST作成部と、を具備する。音響モデル記憶部は、複数種類の音声にそれぞれ対応した音響モデルを記憶する。音素モデル構造表作成部は、音響モデルの要素である音素環境と状態位置と状態数で特定されるHMM状態にHMM状態IDを付与し、そのHMM状態IDの表を音素モデル構造表として作成して音素モデル構造表記憶部に記憶する。構造合致照合部は、複数の音響モデル間において同一の音素環境と状態位置と状態数である複数のHMM状態IDを併合させたHMM状態IDを新たに付与して音素モデル構造表を更新する。音響モデルWFST作成部は、HMM状態IDを入力とし、出力を音素環境とする併合音響モデルWFSTを作成する。音響モデルWFST記憶部は、併合音響モデルWFSTを記憶する。音素WFST記憶部は、音素環境を音素に変換する音素WFSTを記憶する。辞書WFST記憶部は、音素列を単語に変換する辞書WFSTを記憶する。言語モデルWFST記憶部は、単語列に言語スコアを付与する言語モデルWFSTを記憶する。音声認識用WFST作成部は、併合音響モデルWFSTと音素WFSTと辞書WFSTと言語スコアWFSTとを合成して最適化することで、入力をHMM状態ID、出力を単語列とする音声認識用WFSTを作成する。
【0011】
また、この発明の音声認識装置は、上記した音声認識用WFST作成装置で作成した音声認識用WFSTを記憶した音声認識用WFST記憶部と、その認識用WFST記憶部から最もスコアの高い状態遷移列を抽出して音声認識結果を出力する探索部と、を備えた音声認識装置であって、探索部は、音響分析部と、初期仮説生成部と、仮説展開部と、探索終了部と、を具備する。音響分析部は、入力音声信号をフレームごとに音声特徴量に変換する。初期仮説生成部は、最初の第1フレームの処理前に音声認識用WFSTの開始状態で音響モデルごとに初期仮説を作成する。仮説展開部は、第1フレーム以降にそれぞれ対応するWFST状態の遷移に対して、その遷移の入力記号列であるHMM状態IDから元のHMM状態IDと音響モデルIDを抽出し、抽出された音響モデルに合致する仮説が音声認識用WFSTに存在する場合に該当する音響モデルのHMM状態IDに付与されている混合正規分布を読み出して音声特徴量に対する音響スコアを計算し、その音響スコアと遷移の重みである言語スコアと出力記号列を該当する音響モデルの仮説に累積する。探索終了部は、音声認識用WFSTの終了状態において、音響スコアと言語スコアの和の最も高い仮説の出力記号列を音声認識結果として出力する。
【発明の効果】
【0012】
この発明の音声認識用WFST作成装置は、複数の音響モデルを利用したWFSTの、状態数、状態遷移数を削減したサイズの小さな音声認識用WFSTを提供する。また、この発明の音声認識装置は、この発明の音声認識用WFST作成装置で作成した音声認識用WFSTを用いて音声認識をするので認識時の使用メモリ量を削減する効果を奏する。
【図面の簡単な説明】
【0013】
【図1】連続混合分布HMMによる音素モデルの例を示す図。
【図2】この発明の音声認識用WFST作成装置100,200の機能構成例を示す図。
【図3】音声認識用WFST作成装置100の動作フローを示す図。
【図4】音素モデル構造表を示す図であり、(a)は音素モデルのそれぞれにHMM状態IDを付与した表の一例を示す図、(b)は構造合致照合部30で同一の音素環境と状態位置と状態数の複数の音素モデルを併合させて更新した音素モデル構造表の一例を示す図である。
【図5】この発明の音響モデルWFSTの一例を示す図。
【図6】音素モデル構造表を示す図であり、(a)は音素モデルの各状態にHMM状態ID系列を付与した音素モデル構造表の例を示す図、(b)は複数の音響モデル間において同一の音素モデルである複数のHMM状態ID系列を併合させて更新した音素モデル構造表の一例を示す図である。
【図7】構造合致照合部202が更新した音素モデル構造表の、HMM状態ID系列を入力、出力を音素環境とした併合音響モデルWFSTを図7に示す図。
【図8】この発明の音声認識用WFST作成装置300の機能構成例を示す図
【図9】この発明の音声認識装置400,500の機能構成例を示す図。
【図10】音声認識装置400の動作フローを示す図。
【図11】音声認識用WFSTの例を示す図。
【図12】音声認識用WFSTの例を示す図。
【図13】簡単なWFSTの例を示す図。
【発明を実施するための形態】
【0014】
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。実施例の説明の前に、この発明の考えを説明する。
【0015】
〔この発明の考え〕
この発明は、複数の音響モデル間の構造の類似性に着目し、ある音素環境に対して音響モデルの共有構造が音響モデル間で同じ場合は、WFST化においても状態遷移を共有化することでWFSTの状態数を削減する。
【0016】
ここで、音響モデルについて図1を参照して説明する。音響モデルは、隣接する音素の影響を考慮した音素(音素環境)の特徴量を混合正規分布でモデル化した音素モデルの集合であり、連続混合分布HMM(Hidden Markov Model)をもって表せる。図1は、音素「a−k+a」(a:先行音素、k:中心音素、a:後続音素のトライフォン)を表す連続混合分布HMMによる音素モデルであり、「a−k+a」という音素の時系列を3分割した状態で表す。
【0017】
この音響モデルを学習する過程においては、有限である学習データに含まれる音素環境にデータ量の偏りが発生し、数少ない音素環境の音素モデルでは統計的に混合正規分布が十分に学習されないという問題がある。この問題を解決するために、数少ないデータ量の音素モデルあるいはそれを構成する状態を、複数の音素環境及び音素モデルで共有することで学習パラメータを少なくし、実質的に割り当てられるデータ量を多くして学習する方法がある(例えば参考文献:高橋、他「4階層共有構造の音響モデルによる音声認識」電子情報通信学会論文誌Vol.J82-D-II)。
【0018】
この発明では、ある音素モデルを複数の音素環境で共有化する音素モデル共有、又はあるHMM状態を複数の音素モデルで共有化する状態共有の、併合操作を行う。音素モデル共有音響モデルの場合は、同じ音素環境でかつその音素モデルの状態数が同じで或る音素モデルの状態系列について、WFST化において状態遷移の入力記号列である状態ID系列を併合する。
【0019】
状態共有音響モデルの場合は、同じ音素環境でかつ、その音素モデルの状態数と状態位置が音響モデル間で同じである音響モデルの状態について、WFST化において状態遷移の入力記号列である状態IDを併合する。
【0020】
また、併合されたWFSTを用いた音声認識装置は、WFSTの開始状態から仮説の状態遷移時において、状態遷移に関連付けられた音響モデルの仮説の展開のみを行う。このように、この発明は、複数の音響モデル間の共有構造の類似性に着目して音声認識用WFSTのサイズを削減し、またそれに応じた音声認識の探索処理を行う。
【実施例1】
【0021】
図2に、この発明の音声認識用WFST作成装置100の機能構成例を示す。その動作フローを図3に示す。音声認識用WFST作成装置100は、複数の音響モデル記憶部1〜Nと、音素モデル構造表作成部10と、音素モデル構造表記憶部20と、構造合致照合部30と、音響モデルWFST作成部40と、音響モデルWFST記憶部50と、音素WFST記憶部60と、辞書WFST記憶部70と、言語モデルWFST記憶部80と、音声認識用WFST作成部90と、制御部95と、を具備する。その各部の機能は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
【0022】
複数の音響モデル記憶部1〜Nは、複数種類の音声にそれぞれ対応した音響モデルを記憶する。音素モデル構造表作成部10は、音素モデルの要素である音素環境と状態位置と状態数で特定される状態にHMM状態IDを付与し、そのHMM状態IDの表を音素モデル構造表として作成する(ステップS10)。音素モデル構造表作成部10は、未処理の音響モデルがあり(ステップS950のYes)、未処理の音素モデルがある(ステップS951のYes)時に、全ての状態にHMM状態IDを付与する(ステップS952のYes)。ステップS950〜S952の制御は制御部95が行う。全ての状態にHMM状態IDが付与された音素モデルは、音素モデル構造表記憶部30に記憶される。
【0023】
図4(a)に、全ての状態にHMM状態IDが付与された音素モデルの例を示す。図4(a)は、音素モデルがトライフォンの場合(図1を参照)の例を示す。音素環境「a−k+a」、位置「1」、状態数「3」を、後の照合が容易なように例えば「a−k+a:1/3」と連結して記述している。この状態には例えばHMM状態ID「s1_1」が付与される。なお、「_1」は、例えば男声の音響モデルであることを意味する。「_2」は、例えば女声の音響モデルであることを意味する。HMM状態ID「s5_1」のように2つの音素モデル(p−a+i:2/3,t−a+i:2/3)が併記されているのは、音響モデルの学習過程でHMM状態が共有化された場合を示している。
【0024】
構造合致照合部30は、複数の音響モデル間での共有構造の一致具合を調査し、音素モデル構造表を更新する(ステップS30)。つまり、複数の音響モデル間において同一の音素環境と状態位置と状態数である複数のHMM状態IDを併合させて新たに併合したHMM状態IDを付与し(ステップS301)、単独の音素環境と状態位置と状態数の状態IDはそのままとして、その状態IDと対応する音素環境と状態位置と状態数とから成る表になるように音響モデル構造表を更新する(ステップS302)。
【0025】
図4(b)に、HMM状態IDが付与されて更新された音響モデル構造表の例を示す。図4(a)の1行目の音素モデル「a−k+a:1/3」と、8行目の音素モデル「a−k+a:1/3」は、それぞれの音素環境、状態位置、状態数の全てが合致するので併合される。そのHMM状態IDは、「s1_1+s7_2」として置き換えられ、以降この行は処理済とされる。なお、図4(b)には、同じHMM状態ID(「s1_1+s8_2」等)が存在するが、一方は削除しても良い。
【0026】
音響モデルWFST作成部40は、HMM状態IDを入力とし、出力を音素環境とする併合音響モデルWFSTを作成する(ステップS40)。併合音響モデルWFSTは、音響モデルWFST記憶部50に記憶される。図5に、音響モデルWFSTの例を示す。WFST状態0からWFST状態1には、HMM状態ID「s1_1+s7_2」を入力として、音素モデル「a−k+a」を出力する。HMM状態ID「s1_1+s7_2」は、HMM状態ID「s1_1」又は「s7_2」のオア(OR)を意味する。つまり、状態遷移が音響モデル_1と_2との間で共有化されている。WFST状態1〜WFST状態13の状態遷移は、実際の音素のフレーム時間に合わせるためのものである。音素「a−k+a」そのものは、WFST状態0からWFST状態1に遷移する時に出力される。
【0027】
音声認識用WFST作成部90は、音響モデルWFST記憶部50に記憶された併合音響モデルWFSTと、音素WFST記憶部60に記憶された音素環境を音素に変換する音素WFSTと、辞書WFST70に記憶された複数の音素列を単語に変換する辞書WFSTと、言語モデルWFST記憶部80に記憶された単語列に言語スコアを付与する言語モデルWFSTと、を合成して最適化することで、入力をHMM状態ID、出力を単語列とする音声認識用WFSTを作成する(ステップS90)。音声認識用WFSTの作成は、全てのHMM状態IDについて終了するまで繰り返される(ステップS953のNo)。作成された音声認識用WFSTは、図示していない認識用WFST記憶部に記憶される。なお、音声認識用WFSTの具体例については後述する音声認識装置で説明する。
【0028】
このように音声認識用WFST作成装置100は、複数の音響モデルを利用したWFSTの、状態数、状態遷移数を削減したサイズの小さな音声認識用WFSTを提供することが出来る。
【実施例2】
【0029】
次に、音響モデルの構造状態が音素モデル共有までなされており、状態共有はなされていない音素モデルを用いる音声認識用WFST作成装置200を説明する。音声認識用WFST作成装置200は、音素モデル構造表作成部201が複数の音響モデルの要素である音素モデルの各HMM状態にHMM状態ID系列を付与する点と、構造合致照合部202が複数の音響モデル間において同一の音素モデルである複数のHMM状態ID系列は併合させ、そのHMM状態ID系列と対応する音素モデルとから成る表になるように音素モデル構造表を更新する点で、音声認識用WFST作成装置100と異なる。他の機能構成は、音声認識用WFST作成装置100(図2)と同じである。
【0030】
音声認識用WFST作成装置200では音素モデルのHMM状態ごとの併合操作は行われない。このことにより、音素モデル構造表の作成と合致処理とが簡便で済むため音声認識用WFSTを作成する処理量を少なくできる。
【0031】
図6(a)に、音素モデル構造表作成部201が、音素モデルの各HMM状態にHMM状態ID系列を付与した音素モデル構造表の例を示す。この例では、トライフォンの音素モデル「a−k+a」に「s1_1,s2_1,s3_1」、音素モデル「p−a+i,t−a+i」に「s4_1,s5_1,s3_1」のHMM状態ID系列が付与されている。この状態ID系列は時系列の意味も持つ。図6(a)の3行目以降の説明は省略する。
【0032】
図6(b)に、構造合致照合部202が、複数の音響モデル間において同一の音素モデルである複数のHMM状態ID系列を併合させて更新した音素モデル構造表を示す。男声の音響モデルと女声の音響モデルとの間で同一の音素モデルの例えば「a−k+a」が併合され、その音素モデルに併合されたHMM状態ID系列「s1_1+s7_2,s2_1+s8_2,s3_1+s9_2」(図6(b)の1行目)が付与されている。
【0033】
構造合致照合部202が更新した音素モデル構造表のHMM状態ID系列を入力、出力を音素環境とした併合音響モデルWFSTを図7に示す。WFST状態0から、WFST状態1→2→3→16への遷移は、HMM状態ID系列「s1_1+s7_2,s2_1+s8_2,s3_1+s9_2」の入力があった時に行われる。ここで、WFST状態0からWFST状態1への遷移が、s1_1+s7_2と音響モデル_1と_2との間で併合されているので、音声認識用WFSTのサイズが削減される。
【実施例3】
【0034】
図8に、全ての音響モデルが同じ共有構造であることが既知である複数の音響モデルを用いた音声認識用WFST作成装置300の機能構成例を示す。ここで、全ての音響モデルが同じ共有構造であるとは、異なる音響モデル間で音素モデルが同じHMM状態IDを持つことを意味する。つまり、音響モデルWFSTのWFST状態及び状態遷移が全て共有されるためWFSTのサイズは全く増加しない。
【0035】
音声認識用WFST作成装置300は、音素モデル構造表作成部10と、音素モデル構造表記億部20と、構造合致照合部30と、を備えない点で音声認識用WFST作成装置100,200と異なる。また、複数の音響モデル記憶部1′〜N′は、音響モデルそれぞれが同じ共有構造を持つ点と、音響モデルWFST作成部301に、複数の音響モデル記憶部から直接、音響モデルが入力される点で異なる。
【0036】
音響モデルWFST作成部301は、複数の音響モデルの各HMM状態にHMM状態IDが付与された音響モデルを入力として、そのHMM状態IDを入力、出力を音素環境とする併合音響モデルWFSTを作成する。この併合音響モデルWFSTのサイズは、1個の音響モデルを用いた場合とWFSTの大きさと全く同じである。つまり、N′個の音響モデルを用いても音響モデルWFSTのサイズは音響モデル1個分で済む。
【実施例4】
【0037】
図9に、この発明の音声認識装置400の機能構成例を示す。その動作フローを図10に示す。音声認識装置400は、この発明の音声認識用WFST作成装置100〜300で作成した音声認識用WFSTを記憶した音声認識用WFST記憶部410と、探索部420とを備える。探索部420は、音響分析部421と、初期仮説生成部422と、仮説展開部423と、探索終了部424と、複数の音響モデル記憶部1〜Nと、を具備する。その各部の機能は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
【0038】
なお、図9において、入力音声を電気信号に変換するマイクロホンや、その電気信号をディジタル信号に変換するA/D変換器などは省略している。音響分析部421は、入力音声信号の全フレームをフレームごとに音声特徴量に変換する(ステップS421)。フレームとは、例えば20ミリ秒程度の時間幅の入力音声信号の単位のことである。音響分析部421は、このフレームごとに入力音声信号をケプストラム、Δケプストラム、Δパワーなどの音声認識用の音声特徴量に変換する。
【0039】
探索部420は、この音声特徴量と音響モデルとを照合した音響スコアや、言語モデルによる言語スコアである重みを認識結果候補である仮説に累積し、最終的に最も重みの高い仮説の出力記号列を音声認識結果とする処理を行う。探索部420の動作を具体的に説明する。
【0040】
初期仮説生成部422は、最初の第1フレームの処理前に、音声認識用WFSTの開始状態に対して音響モデルごとの初期仮説を作成する(ステップS422)。なお、開始状態では言語スコアや音響スコアがまだ存在しないので、それらの値が初期化された状態で保持される。
【0041】
仮説展開部423は、第1フレーム以降にそれぞれ対応するWFST状態の遷移に対して、その遷移の入力記号列であるHMM状態IDから元のHMM状態IDと音響モデルIDを抽出し、抽出された音響モデルに合致する仮説がWFSTに存在する場合(ステップS512のYes)に該当する音響モデルのHMM状態IDに付与されている混合正規分布を読み出して音声特徴量に対する音響スコアを計算し、その音響スコアと遷移の重みである言語スコアと出力記号列を該当する音響モデルの仮説に累積する(ステップS423)。この仮説展開は、仮説が存在する未処理のWFSTの状態が無くなるまで繰り返される(ステップS510のYes)。
【0042】
図11に、音声認識用WFSTの例を示して仮説展開部423の動作を説明する。音声認識用WFSTのWFST状態110から次のWFST状態111に遷移する場合を説明する。WFST状態110からWFST状態111への遷移には入力記号列としてHMM状態ID「s1_1+s7_2」とあるので、音響モデル1と音響モデル2のHMM状態が併合されていることが分かる。WFST状態110には、両者の仮説があることから、これら全てが展開の対象となる。まず、音声特徴量と音響モデル1のHMM状態ID「s1_1」の混合正規分布から音響スコアを計算する。音響モデル1の単語列「大きな」の音響スコアが20、「小さな」が19、「これが」が15である。この音響スコアと遷移の重みである言語スコア/10、出力記号列である「傘」を音響モデル1の仮説に累積する。累積した仮説が、WFST状態111の例えば「大きな傘」の言語スコア40、音響スコア26となる。この累積された仮説を次のWFST状態111に遷移して保存する。同様に音響モデル2のHMM状態ID「s7_2」の混合正規分布から音響スコアを計算して、音響モデル2の仮説に言語スコアと共に累積する。
【0043】
次に、音響モデル間でHMM状態が共有されていないHMM状態IDに対する遷移を、図12を参照して説明する。WFST状態1000からWFST状態1050とWFST状態2490に遷移する場合で説明する。WFST状態ID1000からWFST状態ID1050への遷移には、入力記号列としてHMM状態ID「s4_1」とあるので、音響モデル1のみに該当することが分かる。WFST状態1000には音響モデル1と2の仮説があるが、この遷移については音響モデル1の仮説のみが展開の対象となる。音声特徴量と音響モデル1のHMM状態ID「s4_1」の混合正規分布から音響スコアを計算する。そして、その音響スコアと遷移の重みである言語スコア/8と、出力記号列である「ピザ」を音響モデル1の仮説に累積して、次のWFST状態1050に保存する。ここで、音響モデル2の仮説はWFST状態1050には保存されない。
【0044】
WFST状態1000からWFST状態2490への遷移には、入力記号列としてHMM状態ID「s10_2」とあるので、音響モデル2のみに該当する。この遷移については、音響モデル2の仮説のみを展開の対象とする。したがって、WFST状態2490には音響モデル1の仮説は保存されない。
【0045】
WFST状態1050からWFST状態1051への遷移も同様に処理される。ここでの入力記号列は、HMM状態ID「s5_1+s11_2」とあり、音響モデル1と2が該当する。しかし、WFST状態1050には、音響モデル1の仮説のみが保存されているので音響モデル1の仮説のみが展開の対象となる。一方、WFST状態2490からWFST状態1051への遷移は、WFST状態2490には音響モデル2の仮説のみが保存されているので音響モデル2の仮説のみが展開の対象となる。よって、WFST状態1051では、再び音響モデル1と2の仮説が保存されることになる。
【0046】
以上説明した処理を全てのフレーム(音声特徴量)について行う。探索終了部424は、音響スコアと言語スコアの和の最も高い仮説の出力記号列を音声認識結果として出力する(ステップS424)。
【0047】
このように、複数の音響モデル間での音素モデルの状態構造の類似性を考慮してWFSTの状態遷移自体を音響モデル間で共有化した音声認識用WFSTを用いて音声認識処理を行うことで、メモリ消費量を削減することができる。
【実施例5】
【0048】
次に、探索に用いる音響モデルの数を事前に数個未満に限定するこの発明の音声認識装置500を説明する。図9に、音声認識装置500の機能構成例を示す。音声認識装置500は、音声認識装置400に対して認識用音響モデル判別部501を備える点で異なる。
【0049】
認識用音響モデル判別部501は、入力音声信号に対して最も高い音響スコアを出力する音響モデルを判別する。判別は、音響分析部421で入力音声信号を音声特徴量に変換した後に、音声特徴量の一部あるいは全てを用いて探索に用いる音響モデルを判別する。
【0050】
判別方法としては、音響モデルごとに作成したGMM(Gaussian Mixture Model)やモノフォンなどの簡易的な音素モデルを用いることで入力音声信号に対して最も音響スコアを高く出力した上位N個の音響モデルを認識用音響モデルとして指定する。認識用音響モデル判別部501は、例えば男女2つの音響モデルから1つを選択したり、老人、青年、子供の3つの音響モデルから2つ以下を選択する判定を行う。判別は、例えば周波数フィルタを用いても行うことが可能である。GMMやモノフォン、周波数フィルタを用いて入力音声に対して類似する音響モデルを判別する方法は従来技術である。
【0051】
初期仮説生成部422は、認識用音響モデル判別部501で判定された音響モデルのHMM状態IDのみを読み込んで、HMM状態IDで指定された音響モデルに対する初期仮説のみを作成する。仮説展開部423での処理は、実施例4と同じである。但し、音声認識用WFSTの開始状態で既に利用しない音響モデルの仮説が生成されないため、WFST状態間の遷移の入力記号列に利用しない音響モデルのHMM状態IDが含まれたとしても、それに該当する音響スコアの計算と仮説の展開は行われない。よって、音声認識装置400よりも更に音声認識時のメモリ消費量を削減することができる。
【0052】
〔評価結果〕
表1に、実施例1で説明した音声認識用WFST作成装置100によって、男声の音響モデルと女声の音響モデルの2つから作成した音声認識用WFSTと、1個の性別非依存の音響モデルによる音声認識用WFSTを用いて音声認識処理をした場合の使用メモリ量を示す。
【0053】
【表1】

この発明の音声認識用WFST作成装置100で作成した音声認識用WFSTを用いた方が、音声認識時の使用メモリ量を微小ながら削減されていることが分かる。これは、音響モデルの共有構造が同じであることを利用した結果、音声認識用WFSTのサイズの増加が抑えられ、更に入力音声信号に適合した音響モデルが利用されることから生成される仮説数が少なくなり、消費メモリ量が削減されたことによる。
【0054】
以上述べたように、この発明の音声認識用WFST作成装置100,200,300は、複数の音響モデルを利用したWFSTの、状態数、状態遷移数を削減したサイズの小さな音声認識用WFSTを提供する。また、この発明の音声認識装置400,500は、この発明の音声認識用WFST作成装置で作成した音声認識用WFSTを用いて音声認識をするので消費メモリ量の増加を削減することが出来る。
なお、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
【0055】
また、上記方法及び装置において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
【0056】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP-ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
【0057】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0058】
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

【特許請求の範囲】
【請求項1】
複数種類の音声にそれぞれ対応した音響モデルを記憶した複数の音響モデル記憶部と、
上記音響モデルの要素である音素環境と状態位置と状態数で特定されるHMM状態にHMM状態IDを付与し、そのHMM状態IDの表を音素モデル構造表として作成して音素モデル構造表記憶部に記憶する音素モデル構造表作成部と、
複数の音響モデル間において同一の音素環境と状態位置と状態数である複数のHMM状態IDを併合させたHMM状態IDを新たに付与して、上記音素モデル構造表を更新する構造合致照合部と、
上記HMM状態IDを入力とし、出力を音素環境とする併合音響モデルWFSTを作成する音響モデルWFST作成部と、
上記併合音響モデルWFSTを記憶する音響モデルWFST記憶部と、
音素環境を音素に変換する音素WFSTを記憶する音素WFST記憶部と、
音素列を単語に変換する辞書WFSTを記憶する辞書WFST記憶部と、
単語列に言語スコアを付与する言語モデルWFSTを記憶する言語モデルWFST記憶部と、
上記併合音響モデルWFSTと上記音素WFSTと上記辞書WFSTと上記言語モデルWFSTと、を合成して最適化することで、入力を上記HMM状態ID、出力を単語列とする音声認識用WFSTを作成する音声認識用WFST作成部と、
を具備する音声認識用WFST作成装置。
【請求項2】
複数種類の音声にそれぞれ対応した音響モデルを記憶した複数の音響モデル記憶部と、
上記音響モデルの要素である音素モデルの各HMM状態にHMM状態ID系列を付与し、そのHMM状態ID系列の表を音素モデル構造表として作成する音素モデル構造表作成部と、
複数の音響モデル間において同一の音素モデルである複数のHMM状態ID系列は併合させたHMM状態ID系列を新たに付与して、上記音素モデル構造表を更新する構造合致照合部と、
上記HMM状態ID列を入力とし、出力を音素環境とする併合音響モデルWFSTを作成する音響モデルWFST作成部と、
上記併合音響モデルWFSTを記憶する音響モデルWFST記憶部と、
音素環境を音素に変換する音素WFSTを記憶する音素WFST記憶部と、
音素列を単語に変換する辞書WFSTを記憶する辞書WFST記憶部と、
単語列に言語スコアを付与する言語モデルWFSTを記憶する言語モデルWFST記憶部と、
上記併合音響モデルWFSTと、上記音素WFSTと、上記辞書WFSTと、上記言語モデルWFSTと、を合成して最適化することで音声認識用WFSTを作成する音声認識用WFST作成部と、
を具備する音声認識用WFST作成装置。
【請求項3】
複数種類の音声にそれぞれ対応し、それぞれが同じ共有構造を持ち音響モデルの各HMM状態にHMM状態IDを付与した音響モデルを記憶した複数の音響モデル記憶部と、
上記HMM状態IDを入力とし、出力を音素環境とする併合音響モデルWFSTを作成する音響モデルWFST作成部と、
上記併合音響モデルWFSTを記憶する音響モデルWFST記憶部と、
音素環境を音素に変換する音素WFSTを記憶する音素WFST記憶部と、
音素列を単語に変換する辞書WFSTを記憶する辞書WFST記憶部と、
単語列に言語スコアを付与する言語スコアWFSTを記憶する言語モデルWFST記憶部と、
上記併合音響モデルWFSTと上記音素WFSTと上記辞書WFSTと上記言語スコアWFSTと、を合成して最適化することで、入力を上記HMM状態ID列、出力をテキストとして言語スコアと音響スコアを計算する音声認識用WFSTを作成する音声認識用WFST作成部と、
を具備する音声認識用WFST作成装置。
【請求項4】
請求項1乃至3の何れかに記載した音声認識用WFST作成装置で作成した音声認識用WFSTを記憶した音声認識用WFST記憶部と、
上記認識用WFST記憶部から最もスコアの高い状態遷移列を抽出して音声認識結果を出力する探索部と、を備えた音声認識装置であって、
上記探索部は、
入力音声信号をフレームごとに音声特徴量に変換する音響分析部と、
最初の第1フレームの処理前に音声認識用WFSTの開始状態に音響モデルごとの初期仮説を作成する初期仮説生成部と、
上記第1フレーム以降にそれぞれ対応するWFST状態の遷移に対して、その遷移の入力記号列であるHMM状態IDから元のHMM状態IDと音響モデルIDを抽出し、抽出された音響モデルに合致する仮説が上記音声認識用WFSTに存在する場合に該当する音響モデルのHMM状態IDに付与されている混合正規分布を読み出して上記音声特徴量に対する音響スコアを計算し、その音響スコアと遷移の重みである言語スコアと出力記号列を該当する音響モデルの仮説に累積する仮説展開部と、
上記音声認識用WFSTの終了状態において、音響スコアと言語スコアの和の最も高い仮説の出力記号列を音声認識結果として出力する探索終了部と、
を具備することを特徴とする音声認識装置。
【請求項5】
請求項4に記載した音声認識装置において、
上記探索部は、
更に、入力音声信号に対して最も高い音響スコアを出力する音響モデルを判別する認識用音響モデル判別部を備え、
上記初期仮説生成部は、上記認識用音響モデル判別部が判別した音響モデルについてのみ初期仮説を作成し、
上記仮説展開部は、上記認識用音響モデル判別部が判別した音響モデルについてのみ音響スコアを計算することを特徴とする音声認識装置。
【請求項6】
音素モデル構造表作成部が、複数の音響モデル記憶部に記憶された音響モデルに、それぞれの音響モデルの要素である音素環境と状態位置と状態数で特定されるHMM状態にHMM状態IDを付与し、そのHMM状態IDの表を音素モデル構造表として作成して音素モデル構造表記憶部に記憶する音素モデル構造表作成過程と、
構造合致照合部が、複数の音響モデル間において同一の音素環境と状態位置と状態数である複数のHMM状態IDを併合させたHMM状態IDを新たに付与して、上記音素モデル構造表を更新する構造合致照合過程と、
音響モデルWFST作成部が、上記HMM状態IDを入力とし、出力を音素環境とする併合音響モデルWFSTを作成する音響モデルWFST作成過程と、
音声認識用WFST作成部が、音響モデルWFST記憶部に記憶された併合音響モデルWFSTと、音素WFST記憶部に記憶された音素WFSTと、辞書WFST記憶部に記憶された辞書WFSTと、言語モデルWFST記憶部に記憶された言語モデルWFSTと、を合成して最適化することで、入力を上記HMM状態ID、出力を単語列とする音声認識用WFSTを作成する音声認識用WFST作成過程と、
を備える音声認識用WFST作成方法。
【請求項7】
音素モデル構造表作成部が、複数の音響モデル記憶部に記憶された音響モデルの要素である音素モデルの各HMM状態にHMM状態ID系列を付与し、そのHMM状態ID系列の表を音素モデル構造表として作成して音素モデル構造表記憶部に記憶する音素モデル構造表作成過程と、
構造合致照合部が、複数の音響モデル間において同一の音素モデルである複数のHMM状態系列は併合させて新たに併合したHMM状態ID系列を付与し、単独の音素モデルはそのままとして、そのHMM状態ID系列と対応する音素モデルとから成る表になるように上記音素モデル構造表を更新する構造合致照合過程と、
音響モデルWFST作成部が、上記HMM状態ID系列を入力とし、出力を音素環境とする併合音響モデルWFSTを作成する音響モデルWFST作成過程と、
音声認識用WFST作成部が、音響モデルWFST記憶部に記憶された併合音響モデルWFSTと、音素WFST記憶部に記憶された音素WFSTと、辞書WFST記憶部に記憶された辞書WFSTと、言語モデルWFST記憶部に記憶された言語モデルWFSTと、を合成して最適化することで、入力を上記HMM状態ID系列、出力を単語列とする音声認識用WFSTを作成する音声認識用WFST作成過程と、
を備える音声認識用WFST作成方法。
【請求項8】
請求項6又は7に記載した音声認識用WFST作成方法で作成した音声認識用WFSTを記憶する音声認識用WFST記憶過程と、
上記認識用WFST記憶過程で得られた最もスコアの高い状態遷移列を抽出して音声認識結果を出力する探索過程と、を備えた音声認識方法であって、
上記探索過程は、
音響分析部が、入力音声信号をフレームごとに音声特徴量に変換する音響分析過程と、
初期仮説生成部が、最初の第1フレームの処理前に認識用WFSTの開始状態に音響モデルごとの初期仮説を作成する初期仮説生成過程と、
仮説展開部が、上記第1フレーム以降にそれぞれ対応するWFST状態の遷移に対して、その遷移の入力記号列であるHMM状態IDから元のHMM状態IDと音響モデルIDを抽出し、抽出された音響モデルに合致する仮説が上記音声認識用WFSTに存在する場合に該当する音響モデルのHMM状態IDに付与されている混合正規分布を読み出して上記音声特徴量に対する音響スコアを計算し、その音響スコアと遷移の重みである言語スコアと出力記号列を該当する音響モデルの仮説に累積する仮説展開過程と、
探索終了部が、上記音声認識用WFSTの終了状態において、音響スコアと言語スコアの和の最も高い仮説の出力記号列を音声認識結果として出力する探索終了過程と、
を含むことを特徴とする音声認識方法。
【請求項9】
請求項1乃至5の何れかに記載した音声認識用WFST作成装置又は音声認識装置としてコンピュータを機能させるためのプログラム。
【請求項10】
請求項9に記載した何れかのプログラムを記憶したコンピュータで読み取り可能な記憶媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate


【公開番号】特開2012−113087(P2012−113087A)
【公開日】平成24年6月14日(2012.6.14)
【国際特許分類】
【出願番号】特願2010−261077(P2010−261077)
【出願日】平成22年11月24日(2010.11.24)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】