音響モデル作成方法とその装置とプログラム
【課題】識別学習法において、音声認識誤りを含む音声認識結果ラティスの大きさを自動的に最適化する。
【解決手段】部分学習データ選択部が、学習用音声データベースの中から部分学習用音声データを選択し、部分認識パラメータ判定部がその部分学習用音声データが所定の大きさの部分ラティスとなる決定認識パラメータを求める。そして、ラティス作成用認識部が、その決定認識パラメータを用いて音声認識結果ラティスを生成する。識別学習部が、音声認識結果ラティスと正解シンボル系列を対比させて識別学習を行い識別学習済音響モデルを生成する。
【解決手段】部分学習データ選択部が、学習用音声データベースの中から部分学習用音声データを選択し、部分認識パラメータ判定部がその部分学習用音声データが所定の大きさの部分ラティスとなる決定認識パラメータを求める。そして、ラティス作成用認識部が、その決定認識パラメータを用いて音声認識結果ラティスを生成する。識別学習部が、音声認識結果ラティスと正解シンボル系列を対比させて識別学習を行い識別学習済音響モデルを生成する。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は、識別学習法を用いて音響モデルを作成する音響モデル作成方法と、その装置とプログラムに関する。
【背景技術】
【0002】
音響モデルの学習方法として、従来の最尤推定に基づく手法から、音素等のシンボル間の識別能力を向上させる識別学習法が用いられることが多くなって来ている。識別学習法は、音声認識誤りを含まない参照単語列と、音声認識誤りを含む認識単語列とを同時に用いることで識別モデルの学習効果を向上させるものである。認識単語列には、音声認識結果を単語ラティス(複数の認識単語列をコンパクトに表現するための有向非循環グラフ)等の形式で表現したものが用いられる。
【0003】
識別学習法は、例えば特許文献1と2、及び非特許文献1に開示されている。図11を参照して従来の識別学習法による音響モデル作成装置900を簡単に説明する。音響モデル作成装置900は、学習用音声データベース90と、言語モデル記憶部91と、学習用音響モデル記憶部92と、ラティス作成用認識部93と、識別学習部94と、を備える。
【0004】
学習用音声データベース90は、音声データとその正解シンボル系列を組みにした学習用音声データを記憶する。言語モデル記憶部91は、単語間の連接関係を表現する文法等(発音辞書を含む)を記憶する。学習用音響モデル記憶部92は、音素と音声の特徴量とを対応付ける学習用の音響モデルを記憶する。ラティス作成用認識部93は、言語モデルと音響モデルと、認識パラメータに基づいて全ての学習用音声データに対して音声認識を行い音声認識結果の単語ラティス(以降は単純に、「音声認識結果ラティス」又は「単語ラティス」と表現する。)を生成する。識別学習部94は、音声認識結果ラティスと正解シンボル系列を対比させて識別学習を行い識別学習済音響モデルを生成する。
【0005】
図12に、音声認識結果ラティスの一例を示す。図12は、「お電話ありがとうございます。」の音声を認識した誤りを含む複数の認識単語列を、有向非循環グラフで表したものである。この音声認識結果ラティスと、誤りを含まない正解ラティスとを対比して識別学習を行うことで、音響モデルを効率的に学習することが出来る。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2007−322984号公報
【特許文献2】特開2006−201553号公報
【非特許文献】
【0007】
【非特許文献1】Erik McDermott and Atsushi Nakamura, “String and Lattice based Discriminative Training for the Corpus of Spontaneous Japanese Lecture Transcription Task”, INTERSPEECH, pp.2081−2084, Aug. 2007.
【発明の概要】
【発明が解決しようとする課題】
【0008】
従来の音響モデル作成装置900では、単語ラティスの作成に大量のメモリを使用するので、メモリ容量(ディスク容量)を圧迫してしまう課題がある。近年のメモリ容量の大容量化に伴い、学習用音声データベースに記憶される音声データの量は数百時間といった大規模なデータになりつつある。その大規模な音声データに対して音声認識を行って、単語ラティスを生成しようとすると、上記したように単語ラティスは可能性のある多くの音声認識結果を包含するものであるため、そのデータ量は莫大なものになる。また、単語ラティスの大きさは、学習用音声データの音質、音響モデル、言語モデル、音声認識パラメータ等に依存するので、事前に予測することが困難である。
【0009】
そのようなことから大規模な音声データから直接、単語ラティスを生成しようとすると、場合によってディスク容量を使いきりメモリ不足に陥ることで、音響モデル作成装置900は動作不能になる。それを防止する目的で、音声認識の認識パラメータの1つである例えば探索ビーム幅を狭めると、単語ラティスが得られない音声データも出現し、学習後の音響モデルの精度が下がってしまう問題が発生する。
【0010】
この発明は、このような点に鑑みてなされたものであり、音声認識結果ラティスを生成する際の音声認識パラメータを自動的に最適化して、適切な大きさの単語ラティスを生成することが可能な音響モデル作成方法と、その装置とプログラムを提供することを目的とする。
【課題を解決するための手段】
【0011】
この発明の音響モデル作成方法は、部分学習データ選択過程と、部分ラティス作成用認識過程と、部分認識パラメータ判定過程と、ラティス作成用認識過程と、識別学習過程と、を備える。部分学習データ選択過程は、学習用音声データベースに記憶された音声データとその正解シンボル系列を組にした学習用音声データの中から部分学習用音声データを選択する。部分ラティス作成用認識過程は、部分学習用音声データと、言語モデル記憶部に記憶された言語モデルと学習用音響モデル記憶部に記憶された学習用音響モデルと、部分認識パラメータ判定過程で得られる制御用認識パラメータを用いて音声認識して部分ラティスを生成する。部分認識パラメータ判定過程は、部分ラティスの容量を評価して制御用認識パラメータを制御し、所定の容量の部分ラティスが得られた制御用認識パラメータを決定認識パラメータとして出力する。ラティス作成用認識過程は、言語モデルと学習用音響モデルと、結滞認識パラメータに基づいて全ての学習用音声データに対して音声認識を行い音声認識結果ラティスを生成する。識別学習過程は、音声認識結果ラティスと正解シンボル系列を対比させて識別学習を行い識別済音響モデルを生成する。
【発明の効果】
【0012】
この発明の音響モデル作成方法は、学習用音声データベースの中から部分学習用音声データを選択し、その部分学習用音声データが所定の大きさの部分ラティスとなる決定認識パラメータを求める。そして、その決定認識パラメータを用いて音声認識結果ラティスを生成するので、自動的に音声認識結果ラティスの大きさを適切なものにすることが可能である。
【図面の簡単な説明】
【0013】
【図1】この発明の音響モデル作成装置100の機能構成例を示す図。
【図2】音響モデル作成装置100の動作フローを示す図。
【図3】この発明の音響モデル作成装置200の機能構成例を示す図。
【図4】音響モデル作成装置200の動作フローを示す図。
【図5】この発明の音響モデル作成装置300の機能構成例を示す図。
【図6】音響モデル作成装置300の動作フローを示す図。
【図7】この発明の音響モデル作成装置400の機能構成例を示す図。
【図8】音響モデル作成装置400の動作フローを示す図。
【図9】この発明の音響モデル作成装置500の機能構成例を示す図。
【図10】音響モデル作成装置600の機能構成例を示す図。
【図11】従来の音響モデル作成装置900の機能構成を示す図。
【図12】音声認識結果ラティスの一例を示す図。
【発明を実施するための形態】
【0014】
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。
【実施例1】
【0015】
図1に、この発明の音響モデル作成装置100の機能構成例を示す。その動作フローを図2に示す。音響モデル作成装置100は、学習用音声データベース90と、部分学習データ選択部11と、部分ラティス作成用認識部12と、部分認識パラメータ判定部13と、言語モデル記憶部91と、学習用音響モデル記憶部92と、ラティス作成用認識部93と、識別学習部94と、を具備する。データベースと記憶部を除く各部の機能は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
【0016】
音響モデル作成装置100は、従来の音響モデル作成装置900に対して、部分学習データ選択部11と部分ラティス作成用認識部12と部分認識パラメータ判定部13と、を備える点で新しい。
【0017】
なお、音響モデル作成装置100は、音声ディジタル信号を音声認識処理するものであり、学習用音声データベース90には、ディジタル信号に変換された音声データが複数の音声ファイルとして記録されている。そして、音声データを例えば20msと言った時間間隔を1フレームとして、1フレームごとに音声認識処理するものである。
【0018】
学習用音声データベース90は、音声データとその正解シンボル系列を組みにした学習用音声データを記録する。部分学習データ選択部11は、学習用音声データベース90の中から部分学習用音声データを選択する(ステップS11)。その選択は、学習用音声データの大きさ、つまり音声ファイルのデータ量が大きな音声ファイルを部分学習用音声データとしても良いし、又は、そのデータ量を既知としてランダムに選択した音声ファイルを部分学習用音声データとしても良い。
【0019】
部分ラティス作成用認識部12は、その部分学習用音声データを、言語モデル記憶部91に記憶された言語モデルと学習用音響モデル記憶部92に記憶された学習用音響モデルと、部分認識パラメータ判定部13から入力される制御用認識パラメータと、を用いて音声認識して部分ラティスを生成する(ステップS12)。
【0020】
なお、初回の部分ラティスの生成時には、制御用認識パラメータが決められないので認識パラメータとして予め部分ラティス作成用認識部12に設定されている初期認識パラメータ120を用いる。認識パラメータとしては、探索ビーム幅や言語重み等がある。探索ビーム幅とは、音声認識結果の仮説の足切り幅のことであり、初期認識パラメータ120としては例えば1000個の仮説を探索する。言語重みは、信頼度スコアを音響スコアと言語スコアの和で表現した場合に言語スコアに乗ずる重みであり、初期認識パラメータ120としては例えば10といった値に設定される。単語ラティスについては、上記した非特許文献1にも記載されているもので一般的なものである。部分ラティスの生成そのものは、この発明の主要部ではないので詳しい説明は省略する。
【0021】
部分認識パラメータ判定部13は、部分ラティス作成用認識部12が出力する部分ラティスの容量を評価して制御用認識パラメータを制御し、所定の容量の部分ラティスが得られた制御用認識パラメータを決定認識パラメータとして出力する(ステップS13)。部分認識パラメータ判定部13は、部分ラティスの容量LEを目標ラティス容量LTと比較して、目標に近づくように制御用認識パラメータを調整する。
【0022】
部分ラティスの容量LEが目標ラティス容量LTに比べて小さい場合は、制御用認識パラメータとして探索ビーム幅Bを用いる場合、探索ビーム幅Bを拡大し、逆に大きい場合は縮小する。例えば、制御用認識パラメータの探索ビーム幅B′は、目標ラティス容量LTに対する比率r=LE/LTを元にB′=B/rで求めても良い。そして、所定の容量の部分ラティスが得られた制御用認識パラメータを決定認識パラメータとして出力する。
【0023】
目標ラティス容量LTは、部分学習用音声データの大きさによって変化するので、その部分学習用音声データのフレーム数を考慮した値で設定する(式(1))。
【0024】
【数1】
【0025】
ここで、LEは部分学習用音声データから生成した部分ラティスの容量、NEはその部分学習用音声データのフレーム数(ファイル長)である。Nは全ての学習用音声データの総フレーム数である。
【0026】
目標ラティス容量LTは、単語ラティスを書き込むディスクの残り容量と、学習用音声データの総容量の比率から求めても良い。また、入力に正解ラベルを入れる場合、正解ラベルを言語モデルとして与えた場合のラティス容量を基準として目標ラティス容量LTを決定しても良い(例えば、基準の10倍等)。
【0027】
部分認識パラメータ判定部13は、部分ラティスの容量LEと目標ラティス容量LTを比較して、目標ラティス容量LTとほぼ等しい(或いは差が一定の値以下、例えば差が1%以下等)容量LEが得られた制御用認識パラメータを決定認識パラメータとして出力する。なお、ここで調整のための回数制限等を設けても良い。
【0028】
ラティス作成用認識部93は、言語モデル記憶部91に記憶された言語モデルと学習用音響モデル記憶部92に記憶された学習用音響モデルと、決定認識パラメータに基づいて全ての学習用音声データに対して音声認識を行い音声認識結果ラティスを生成する(ステップS93)。
【0029】
識別学習部94は、ラティス作成用認識部93が生成した音声認識結果ラティスと、学習用音声データベース90に記憶された正解シンボル系列を対比させて識別学習を行い識別学習済音響モデルを生成する(ステップS94)。
【0030】
このように音響モデル作成装置100は、学習用音声データの一部の音声データから部分ラティスを生成させ、その部分ラティスの大きさが所定の大きさになるように音声認識用の認識パラメータを決定するので、適切な大きさの音声認識結果ラティスを自動的に生成することができる。
【0031】
なお、音声認識結果ラティスは、音声認識結果のN−bestに置き換えることも可能である。つまり、部分ラティス作成用認識部12及び部分認識パラメータ判定部13が、単語ラティスに代えて適当な大きさのN−bestが得られるように制御用認識パラメータを制御して決定認識パラメータを求める。そして、その決定パラメータを用いてラティス作成用認識部93が、音声認識結果のN−bestを生成することで、適切な大きさの音声認識結果のN−bestを自動的に生成することができる。
【実施例2】
【0032】
図3に、この発明の音響モデル作成装置200の機能構成例を示す。その動作フローを
図4に示す。音響モデル作成装置200は、上記した音響モデル作成装置100に対して部分学習データ選択部20と、部分ラティス作成用認識部12′のみが異なる。
【0033】
部分学習データ選択部20は初期ラティス容量計算手段201を備える。初期ラティス容量計算手段201は、学習用音声データベース90に記録された学習用音声データの音声ファイルについて初期認識パラメータ120(図示を省略、図1に示したものと同じものでも良い)を用いて音声認識処理を行い、音声ファイルのそれぞれの初期ラティス容量を計算する(ステップS201)。この時、全ての学習用音声データについて初期ラティス容量を求めても良いし、複数個のファイルに限定して求めても良い。そして、部分学習データ選択部20は、初期ラティス容量の大きな音声ファイルを、部分学習用音声データとして選択する(ステップS202)。
【0034】
部分ラティス作成用認識部12′は、その初期ラティス容量の大きさ情報を部分認識パラメータ判定部13に伝達した後に、部分認識パラメータ判定部13から入力される制御用認識パラメータを用いて部分学習用音声データの部分ラティスを作成する(ステップS12′)。そして、部分認識パラメータ判定部13は、その部分ラティスが所定の大きさになるように制御用認識パラメータを制御して決定認識パラメータを出力する(ステップS13)。
【0035】
このように初期ラティス容量の大きな音声ファイルを対象にして決定認識パラメータを設定するので、音声認識結果ラティスを生成する際に、ディスク容量を超えてしまう危険を減らすことが可能であり、より効率的に音声認識結果ラティスを生成することができる。
〔変形例〕
部分学習データ選択部20′は、認識パラメータの変化に対して部分ラティス容量の変化が大きな音声ファイルを部分学習用音声データとして選択するようにしても良い。部分学習データ選択部20′は初期ラティス容量計算手段201′を備える。
【0036】
初期ラティス容量計算手段201′は、初期認識パラメータ120を用いて音声認識処理を行って音声ファイルの初期ラティス容量を計算すると共に、初期認識パラメータ120を変更した第2認識パラメータを用いて音声ファイルの第2ラティス容量を計算する(ステップS201′)。
【0037】
部分学習データ選択部20′は、初期ラティス容量と第2ラティス容量の差分が大きな音声ファイルを部分学習用音声データとして選択する(ステップS20′)。ここで、第2認識パラメータを、初期認識パラメータに対してわずかに変化させた値(例えば探索ビーム幅を10%程度変更した値)とすることで、部分学習データ選択部20′は認識パラメータの変化に対するラティス容量の変化の大きな感度の高い音声ファイルを選択することができる。
【0038】
部分認識パラメータ判定部13は、認識パラメータの変化に対する感度の高い音声ファイルを用いて決定認識パラメータを設定する。よって、ラティス作成用認識部93は、より適切な大きさの音声認識結果ラティスを生成することができる。
【実施例3】
【0039】
図5に、この発明の音響モデル作成装置300の機能構成例を示す。その動作フローを図6に示す。音響モデル作成装置300は、上記した音響モデル作成装置100と200に対して部分学習データ選択部30のみが異なる。
【0040】
部分学習データ選択部30は、特徴量抽出手段301と、信頼度スコア計算手段302を備える。特徴量算出手段301は、学習用音声データの音声ファイルの音声データをフレーム毎に音声特徴量otに変換する(ステップS301)。音声特徴量otとしては、例えばMFCC(Mel-Frequency Cepstrum Coefficient)の1〜12元と、その変化量であるΔMFCC等の動的パラメータや、パワーやΔパワー等を用いる。また、ケプストラム平均正規化(CMN)等の処理を行っても良い。
【0041】
信頼度スコア計算手段302は、音声特徴量otの系列に対する音声認識結果の音響スコアと言語スコアから推定される信頼度に変換し、その信頼度から音声ファイルごとの信頼度を当該ファイルのファイル長で正規化した信頼度スコアを計算する(ステップS302)。信頼度スコアは、音声認識結果から推定されるもので従来から音声認識装置で用いられているものを用いると良い。
【0042】
部分学習データ選択部30は、信頼度スコアの小さい音声ファイルを部分学習用音声データとして選択する(ステップS303)。この時、全ての学習用音声データの信頼度スコアを計算しても良いし、複数個に限定して求めた信頼度スコアを比較して部分学習用音声データを選択しても良い。
【0043】
信頼度スコアが小さな音声ファイルから音声認識結果ラティスを生成すると、単語の対立候補が多くなるのでラティス容量が大きくなる。よって、音声認識結果ラティス容量の総量を抑えるためには、信頼度スコアが小さな音声ファイルから決定認識パラメータを求めることで、総ラティス容量がディスク容量を超えてしまう危険性を軽減することができる。
【実施例4】
【0044】
図7に、この発明の音響モデル作成装置400の機能構成例を示す。その動作フローを図8に示す。音響モデル作成装置400は、上記した音響モデル作成装置300に対して部分学習データ選択部40が、事前高速信頼度スコア計算手段401を備える点で異なる。
【0045】
事前高速信頼度スコア計算手段401は、フレーム毎の音声特徴量に対するモノフォンGMM(Gaussian Mixture Model)から得られる出力確率bsと、そのGMMの属する状態の出現確率の積が最も高いものをモノフォン最尤値P(s^)bs^(ot)として求め、そのモノフォン最尤値の対数と、音声/ポーズ最尤値bg^(ot)の対数との差を音声ファイル単位で平均化した高速事前信頼度スコアを計算する(ステップS401)。式(2)はフレーム毎の高速事前信頼度スコアc(ot)であり、式(3)は音声ファイル単位で平均化した高速事前信頼度スコアCである。
【0046】
【数2】
【0047】
ここでTは各音声ファイルの総フレーム長である。なお、高速事前信頼度スコアCの計算は、参考文献1:「小橋川、浅見、山口、政瀧、高橋「事前信頼度推定に基づく音声認識対象データ選択」日本音響学会講演論文集、2010年3月」、又は、参考文献2:「Kobashikawa, Asami, Yamaguchi, Masataki, Takahashi, “Efficient Data Selection for Speech Recognition Based on Prior Confidence Estimation Using Speech and Context Independent Models”, INTERSPEECH 2010, pp.238-241 September 2010」に記載された方法を用いても良い。
【0048】
部分学習データ選択部40は、高速事前信頼度スコアCの小さい音声ファイルを部分学習用音声データとして選択する(ステップS403)。この時、全ての学習用音声データの高速事前信頼度スコアCを計算しても良いし、複数個に限定して求めた高速事前信頼度スコアCを比較して部分学習用音声データを選択しても良い。
【0049】
このように、モフォンGMMから得られる出力確率から信頼度スコアを計算することで、トライフォンやバイフォン等の音響モデルを用いる場合よりも処理を高速化することが可能である。音響モデル作成装置400は、音響モデル作成装置300よりも高速に音声認識結果ラティスを生成することができる。
【実施例5】
【0050】
図9に、この発明の音響モデル作成装置500の機能構成例を示す。音響モデル作成装置500は、音響モデル作成装置100に対して、言語モデル記憶部が学習用音声データベースの音声ファイルから作成されたラティス作成用言語モデルを記憶したラティス作成用言語モデル記憶部50である点のみが異なる。
【0051】
単語ラティス作成時に用いる言語モデルを学習用の音響モデルから作成することで、未知語が無くなり対立候補が減るので、音声認識結果ラティスの容量を削減することが可能である。その結果、ディスクを効率的に使用することができる。
【0052】
なお、音響モデル作成装置500は、音響モデル作成装置100をベースに説明したが、他の音響モデル作成装置200〜400の言語モデル記憶部を、ラティス作成用言語モデル記憶部50に変更することで同様な効果が期待できる。
【0053】
また、図9に、学習用音声データベース90に記録された正解シンボル系列から言語モデルを作成するラティス作成用言語モデル作成部51を破線で示す。このようにラティス作成用言語モデル作成部51を音響モデル作成装置500として一体化して、ラティス作成用言語モデルを逐次生成するようにしても良い。また、ラティス作成用言語モデル作成部51を別体として、予め作成したラティス作成用言語モデルを記憶したラティス作成用言語モデル記憶部50のみを用いるようにしても良い。
【実施例6】
【0054】
図10に、この発明の音響モデル作成装置600の機能構成例を示す。音響モデル作成装置600は、音響モデル作成装置500に対して、更に言語モデル作成用データ整備部60を備える点で異なる。
【0055】
言語モデル作成用データ整備部60は、学習用音声データベース90から正解シンボル系列に対応するカタカナ又はひらがなの読みラベルを抽出する。ラティス作成用言語モデル作成部51は、その正解の読みラベルから言語モデルを作成する。
【0056】
正解の読みラベルを用いることで表記揺れが減り、語彙サイズの増加が抑えられるのでラティス容量を削減することが可能である。
【0057】
なお、読みラベルの単語区切りによっては、音として二重母音とすべきところを単語境界として分断されてしまう問題が生じる場合がある。二重母音とは、「ei」、「ou」、「iu」等であり、それぞれが一つの音である。この二重母音が「e/i」と分断されると表示揺れとなり、語彙サイズの増加の原因となる。
【0058】
そこで、二重母音とすべき区間はフレームの連結処理を行うことで同じ音響特徴量の音声が別の音素に割り当たらないようにする。そうすることで、音素間の混同が減り、音響モデルの精度を高めることができる。また、音声認識結果ラティスの容量を削減することも可能である。
【0059】
具体的には、連結すべき二重母音を二重母音リストに登録し、二重母音がそのリストに含まれるか否かを判定し、含まれる場合は単語境界としないようにする。また、分断してポーズを挿入した場合と連結した場合とで尤度を比較するポーズ挿入判定を行って言語モデルを作成する方法が考えられる。
【0060】
以上述べたように、この発明の音響モデル作成装置100〜500は、生成する音声認識結果ラティスの容量を抑えることが可能である。また音声認識結果ラティスの容量を事前に凡そ予測できるので、用意すべきディスクの空き容量を適切に決めることが可能である。また、適切な音声認識パラメータを自動的に決定することが可能であり、ディスク容量に適応させて精度の高い識別学習済音響モデルを自動的に生成することができる。更に、この発明の音響モデル作成装置600は、学習用音声データベース90から言語モデルを作成するので言語モデルを用意する必要が無い等の優れた効果を奏する。
【0061】
また、上記した音声認識結果の単語ラティスは、音声認識結果のN−bestに置き換えても良く、その場合でも同様の効果を奏する音響モデル作成方法を提供することが可能である。
【0062】
なお、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
【0063】
また、上記方法及び装置において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
【0064】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP-ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
【0065】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0066】
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
【技術分野】
【0001】
この発明は、識別学習法を用いて音響モデルを作成する音響モデル作成方法と、その装置とプログラムに関する。
【背景技術】
【0002】
音響モデルの学習方法として、従来の最尤推定に基づく手法から、音素等のシンボル間の識別能力を向上させる識別学習法が用いられることが多くなって来ている。識別学習法は、音声認識誤りを含まない参照単語列と、音声認識誤りを含む認識単語列とを同時に用いることで識別モデルの学習効果を向上させるものである。認識単語列には、音声認識結果を単語ラティス(複数の認識単語列をコンパクトに表現するための有向非循環グラフ)等の形式で表現したものが用いられる。
【0003】
識別学習法は、例えば特許文献1と2、及び非特許文献1に開示されている。図11を参照して従来の識別学習法による音響モデル作成装置900を簡単に説明する。音響モデル作成装置900は、学習用音声データベース90と、言語モデル記憶部91と、学習用音響モデル記憶部92と、ラティス作成用認識部93と、識別学習部94と、を備える。
【0004】
学習用音声データベース90は、音声データとその正解シンボル系列を組みにした学習用音声データを記憶する。言語モデル記憶部91は、単語間の連接関係を表現する文法等(発音辞書を含む)を記憶する。学習用音響モデル記憶部92は、音素と音声の特徴量とを対応付ける学習用の音響モデルを記憶する。ラティス作成用認識部93は、言語モデルと音響モデルと、認識パラメータに基づいて全ての学習用音声データに対して音声認識を行い音声認識結果の単語ラティス(以降は単純に、「音声認識結果ラティス」又は「単語ラティス」と表現する。)を生成する。識別学習部94は、音声認識結果ラティスと正解シンボル系列を対比させて識別学習を行い識別学習済音響モデルを生成する。
【0005】
図12に、音声認識結果ラティスの一例を示す。図12は、「お電話ありがとうございます。」の音声を認識した誤りを含む複数の認識単語列を、有向非循環グラフで表したものである。この音声認識結果ラティスと、誤りを含まない正解ラティスとを対比して識別学習を行うことで、音響モデルを効率的に学習することが出来る。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2007−322984号公報
【特許文献2】特開2006−201553号公報
【非特許文献】
【0007】
【非特許文献1】Erik McDermott and Atsushi Nakamura, “String and Lattice based Discriminative Training for the Corpus of Spontaneous Japanese Lecture Transcription Task”, INTERSPEECH, pp.2081−2084, Aug. 2007.
【発明の概要】
【発明が解決しようとする課題】
【0008】
従来の音響モデル作成装置900では、単語ラティスの作成に大量のメモリを使用するので、メモリ容量(ディスク容量)を圧迫してしまう課題がある。近年のメモリ容量の大容量化に伴い、学習用音声データベースに記憶される音声データの量は数百時間といった大規模なデータになりつつある。その大規模な音声データに対して音声認識を行って、単語ラティスを生成しようとすると、上記したように単語ラティスは可能性のある多くの音声認識結果を包含するものであるため、そのデータ量は莫大なものになる。また、単語ラティスの大きさは、学習用音声データの音質、音響モデル、言語モデル、音声認識パラメータ等に依存するので、事前に予測することが困難である。
【0009】
そのようなことから大規模な音声データから直接、単語ラティスを生成しようとすると、場合によってディスク容量を使いきりメモリ不足に陥ることで、音響モデル作成装置900は動作不能になる。それを防止する目的で、音声認識の認識パラメータの1つである例えば探索ビーム幅を狭めると、単語ラティスが得られない音声データも出現し、学習後の音響モデルの精度が下がってしまう問題が発生する。
【0010】
この発明は、このような点に鑑みてなされたものであり、音声認識結果ラティスを生成する際の音声認識パラメータを自動的に最適化して、適切な大きさの単語ラティスを生成することが可能な音響モデル作成方法と、その装置とプログラムを提供することを目的とする。
【課題を解決するための手段】
【0011】
この発明の音響モデル作成方法は、部分学習データ選択過程と、部分ラティス作成用認識過程と、部分認識パラメータ判定過程と、ラティス作成用認識過程と、識別学習過程と、を備える。部分学習データ選択過程は、学習用音声データベースに記憶された音声データとその正解シンボル系列を組にした学習用音声データの中から部分学習用音声データを選択する。部分ラティス作成用認識過程は、部分学習用音声データと、言語モデル記憶部に記憶された言語モデルと学習用音響モデル記憶部に記憶された学習用音響モデルと、部分認識パラメータ判定過程で得られる制御用認識パラメータを用いて音声認識して部分ラティスを生成する。部分認識パラメータ判定過程は、部分ラティスの容量を評価して制御用認識パラメータを制御し、所定の容量の部分ラティスが得られた制御用認識パラメータを決定認識パラメータとして出力する。ラティス作成用認識過程は、言語モデルと学習用音響モデルと、結滞認識パラメータに基づいて全ての学習用音声データに対して音声認識を行い音声認識結果ラティスを生成する。識別学習過程は、音声認識結果ラティスと正解シンボル系列を対比させて識別学習を行い識別済音響モデルを生成する。
【発明の効果】
【0012】
この発明の音響モデル作成方法は、学習用音声データベースの中から部分学習用音声データを選択し、その部分学習用音声データが所定の大きさの部分ラティスとなる決定認識パラメータを求める。そして、その決定認識パラメータを用いて音声認識結果ラティスを生成するので、自動的に音声認識結果ラティスの大きさを適切なものにすることが可能である。
【図面の簡単な説明】
【0013】
【図1】この発明の音響モデル作成装置100の機能構成例を示す図。
【図2】音響モデル作成装置100の動作フローを示す図。
【図3】この発明の音響モデル作成装置200の機能構成例を示す図。
【図4】音響モデル作成装置200の動作フローを示す図。
【図5】この発明の音響モデル作成装置300の機能構成例を示す図。
【図6】音響モデル作成装置300の動作フローを示す図。
【図7】この発明の音響モデル作成装置400の機能構成例を示す図。
【図8】音響モデル作成装置400の動作フローを示す図。
【図9】この発明の音響モデル作成装置500の機能構成例を示す図。
【図10】音響モデル作成装置600の機能構成例を示す図。
【図11】従来の音響モデル作成装置900の機能構成を示す図。
【図12】音声認識結果ラティスの一例を示す図。
【発明を実施するための形態】
【0014】
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。
【実施例1】
【0015】
図1に、この発明の音響モデル作成装置100の機能構成例を示す。その動作フローを図2に示す。音響モデル作成装置100は、学習用音声データベース90と、部分学習データ選択部11と、部分ラティス作成用認識部12と、部分認識パラメータ判定部13と、言語モデル記憶部91と、学習用音響モデル記憶部92と、ラティス作成用認識部93と、識別学習部94と、を具備する。データベースと記憶部を除く各部の機能は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
【0016】
音響モデル作成装置100は、従来の音響モデル作成装置900に対して、部分学習データ選択部11と部分ラティス作成用認識部12と部分認識パラメータ判定部13と、を備える点で新しい。
【0017】
なお、音響モデル作成装置100は、音声ディジタル信号を音声認識処理するものであり、学習用音声データベース90には、ディジタル信号に変換された音声データが複数の音声ファイルとして記録されている。そして、音声データを例えば20msと言った時間間隔を1フレームとして、1フレームごとに音声認識処理するものである。
【0018】
学習用音声データベース90は、音声データとその正解シンボル系列を組みにした学習用音声データを記録する。部分学習データ選択部11は、学習用音声データベース90の中から部分学習用音声データを選択する(ステップS11)。その選択は、学習用音声データの大きさ、つまり音声ファイルのデータ量が大きな音声ファイルを部分学習用音声データとしても良いし、又は、そのデータ量を既知としてランダムに選択した音声ファイルを部分学習用音声データとしても良い。
【0019】
部分ラティス作成用認識部12は、その部分学習用音声データを、言語モデル記憶部91に記憶された言語モデルと学習用音響モデル記憶部92に記憶された学習用音響モデルと、部分認識パラメータ判定部13から入力される制御用認識パラメータと、を用いて音声認識して部分ラティスを生成する(ステップS12)。
【0020】
なお、初回の部分ラティスの生成時には、制御用認識パラメータが決められないので認識パラメータとして予め部分ラティス作成用認識部12に設定されている初期認識パラメータ120を用いる。認識パラメータとしては、探索ビーム幅や言語重み等がある。探索ビーム幅とは、音声認識結果の仮説の足切り幅のことであり、初期認識パラメータ120としては例えば1000個の仮説を探索する。言語重みは、信頼度スコアを音響スコアと言語スコアの和で表現した場合に言語スコアに乗ずる重みであり、初期認識パラメータ120としては例えば10といった値に設定される。単語ラティスについては、上記した非特許文献1にも記載されているもので一般的なものである。部分ラティスの生成そのものは、この発明の主要部ではないので詳しい説明は省略する。
【0021】
部分認識パラメータ判定部13は、部分ラティス作成用認識部12が出力する部分ラティスの容量を評価して制御用認識パラメータを制御し、所定の容量の部分ラティスが得られた制御用認識パラメータを決定認識パラメータとして出力する(ステップS13)。部分認識パラメータ判定部13は、部分ラティスの容量LEを目標ラティス容量LTと比較して、目標に近づくように制御用認識パラメータを調整する。
【0022】
部分ラティスの容量LEが目標ラティス容量LTに比べて小さい場合は、制御用認識パラメータとして探索ビーム幅Bを用いる場合、探索ビーム幅Bを拡大し、逆に大きい場合は縮小する。例えば、制御用認識パラメータの探索ビーム幅B′は、目標ラティス容量LTに対する比率r=LE/LTを元にB′=B/rで求めても良い。そして、所定の容量の部分ラティスが得られた制御用認識パラメータを決定認識パラメータとして出力する。
【0023】
目標ラティス容量LTは、部分学習用音声データの大きさによって変化するので、その部分学習用音声データのフレーム数を考慮した値で設定する(式(1))。
【0024】
【数1】
【0025】
ここで、LEは部分学習用音声データから生成した部分ラティスの容量、NEはその部分学習用音声データのフレーム数(ファイル長)である。Nは全ての学習用音声データの総フレーム数である。
【0026】
目標ラティス容量LTは、単語ラティスを書き込むディスクの残り容量と、学習用音声データの総容量の比率から求めても良い。また、入力に正解ラベルを入れる場合、正解ラベルを言語モデルとして与えた場合のラティス容量を基準として目標ラティス容量LTを決定しても良い(例えば、基準の10倍等)。
【0027】
部分認識パラメータ判定部13は、部分ラティスの容量LEと目標ラティス容量LTを比較して、目標ラティス容量LTとほぼ等しい(或いは差が一定の値以下、例えば差が1%以下等)容量LEが得られた制御用認識パラメータを決定認識パラメータとして出力する。なお、ここで調整のための回数制限等を設けても良い。
【0028】
ラティス作成用認識部93は、言語モデル記憶部91に記憶された言語モデルと学習用音響モデル記憶部92に記憶された学習用音響モデルと、決定認識パラメータに基づいて全ての学習用音声データに対して音声認識を行い音声認識結果ラティスを生成する(ステップS93)。
【0029】
識別学習部94は、ラティス作成用認識部93が生成した音声認識結果ラティスと、学習用音声データベース90に記憶された正解シンボル系列を対比させて識別学習を行い識別学習済音響モデルを生成する(ステップS94)。
【0030】
このように音響モデル作成装置100は、学習用音声データの一部の音声データから部分ラティスを生成させ、その部分ラティスの大きさが所定の大きさになるように音声認識用の認識パラメータを決定するので、適切な大きさの音声認識結果ラティスを自動的に生成することができる。
【0031】
なお、音声認識結果ラティスは、音声認識結果のN−bestに置き換えることも可能である。つまり、部分ラティス作成用認識部12及び部分認識パラメータ判定部13が、単語ラティスに代えて適当な大きさのN−bestが得られるように制御用認識パラメータを制御して決定認識パラメータを求める。そして、その決定パラメータを用いてラティス作成用認識部93が、音声認識結果のN−bestを生成することで、適切な大きさの音声認識結果のN−bestを自動的に生成することができる。
【実施例2】
【0032】
図3に、この発明の音響モデル作成装置200の機能構成例を示す。その動作フローを
図4に示す。音響モデル作成装置200は、上記した音響モデル作成装置100に対して部分学習データ選択部20と、部分ラティス作成用認識部12′のみが異なる。
【0033】
部分学習データ選択部20は初期ラティス容量計算手段201を備える。初期ラティス容量計算手段201は、学習用音声データベース90に記録された学習用音声データの音声ファイルについて初期認識パラメータ120(図示を省略、図1に示したものと同じものでも良い)を用いて音声認識処理を行い、音声ファイルのそれぞれの初期ラティス容量を計算する(ステップS201)。この時、全ての学習用音声データについて初期ラティス容量を求めても良いし、複数個のファイルに限定して求めても良い。そして、部分学習データ選択部20は、初期ラティス容量の大きな音声ファイルを、部分学習用音声データとして選択する(ステップS202)。
【0034】
部分ラティス作成用認識部12′は、その初期ラティス容量の大きさ情報を部分認識パラメータ判定部13に伝達した後に、部分認識パラメータ判定部13から入力される制御用認識パラメータを用いて部分学習用音声データの部分ラティスを作成する(ステップS12′)。そして、部分認識パラメータ判定部13は、その部分ラティスが所定の大きさになるように制御用認識パラメータを制御して決定認識パラメータを出力する(ステップS13)。
【0035】
このように初期ラティス容量の大きな音声ファイルを対象にして決定認識パラメータを設定するので、音声認識結果ラティスを生成する際に、ディスク容量を超えてしまう危険を減らすことが可能であり、より効率的に音声認識結果ラティスを生成することができる。
〔変形例〕
部分学習データ選択部20′は、認識パラメータの変化に対して部分ラティス容量の変化が大きな音声ファイルを部分学習用音声データとして選択するようにしても良い。部分学習データ選択部20′は初期ラティス容量計算手段201′を備える。
【0036】
初期ラティス容量計算手段201′は、初期認識パラメータ120を用いて音声認識処理を行って音声ファイルの初期ラティス容量を計算すると共に、初期認識パラメータ120を変更した第2認識パラメータを用いて音声ファイルの第2ラティス容量を計算する(ステップS201′)。
【0037】
部分学習データ選択部20′は、初期ラティス容量と第2ラティス容量の差分が大きな音声ファイルを部分学習用音声データとして選択する(ステップS20′)。ここで、第2認識パラメータを、初期認識パラメータに対してわずかに変化させた値(例えば探索ビーム幅を10%程度変更した値)とすることで、部分学習データ選択部20′は認識パラメータの変化に対するラティス容量の変化の大きな感度の高い音声ファイルを選択することができる。
【0038】
部分認識パラメータ判定部13は、認識パラメータの変化に対する感度の高い音声ファイルを用いて決定認識パラメータを設定する。よって、ラティス作成用認識部93は、より適切な大きさの音声認識結果ラティスを生成することができる。
【実施例3】
【0039】
図5に、この発明の音響モデル作成装置300の機能構成例を示す。その動作フローを図6に示す。音響モデル作成装置300は、上記した音響モデル作成装置100と200に対して部分学習データ選択部30のみが異なる。
【0040】
部分学習データ選択部30は、特徴量抽出手段301と、信頼度スコア計算手段302を備える。特徴量算出手段301は、学習用音声データの音声ファイルの音声データをフレーム毎に音声特徴量otに変換する(ステップS301)。音声特徴量otとしては、例えばMFCC(Mel-Frequency Cepstrum Coefficient)の1〜12元と、その変化量であるΔMFCC等の動的パラメータや、パワーやΔパワー等を用いる。また、ケプストラム平均正規化(CMN)等の処理を行っても良い。
【0041】
信頼度スコア計算手段302は、音声特徴量otの系列に対する音声認識結果の音響スコアと言語スコアから推定される信頼度に変換し、その信頼度から音声ファイルごとの信頼度を当該ファイルのファイル長で正規化した信頼度スコアを計算する(ステップS302)。信頼度スコアは、音声認識結果から推定されるもので従来から音声認識装置で用いられているものを用いると良い。
【0042】
部分学習データ選択部30は、信頼度スコアの小さい音声ファイルを部分学習用音声データとして選択する(ステップS303)。この時、全ての学習用音声データの信頼度スコアを計算しても良いし、複数個に限定して求めた信頼度スコアを比較して部分学習用音声データを選択しても良い。
【0043】
信頼度スコアが小さな音声ファイルから音声認識結果ラティスを生成すると、単語の対立候補が多くなるのでラティス容量が大きくなる。よって、音声認識結果ラティス容量の総量を抑えるためには、信頼度スコアが小さな音声ファイルから決定認識パラメータを求めることで、総ラティス容量がディスク容量を超えてしまう危険性を軽減することができる。
【実施例4】
【0044】
図7に、この発明の音響モデル作成装置400の機能構成例を示す。その動作フローを図8に示す。音響モデル作成装置400は、上記した音響モデル作成装置300に対して部分学習データ選択部40が、事前高速信頼度スコア計算手段401を備える点で異なる。
【0045】
事前高速信頼度スコア計算手段401は、フレーム毎の音声特徴量に対するモノフォンGMM(Gaussian Mixture Model)から得られる出力確率bsと、そのGMMの属する状態の出現確率の積が最も高いものをモノフォン最尤値P(s^)bs^(ot)として求め、そのモノフォン最尤値の対数と、音声/ポーズ最尤値bg^(ot)の対数との差を音声ファイル単位で平均化した高速事前信頼度スコアを計算する(ステップS401)。式(2)はフレーム毎の高速事前信頼度スコアc(ot)であり、式(3)は音声ファイル単位で平均化した高速事前信頼度スコアCである。
【0046】
【数2】
【0047】
ここでTは各音声ファイルの総フレーム長である。なお、高速事前信頼度スコアCの計算は、参考文献1:「小橋川、浅見、山口、政瀧、高橋「事前信頼度推定に基づく音声認識対象データ選択」日本音響学会講演論文集、2010年3月」、又は、参考文献2:「Kobashikawa, Asami, Yamaguchi, Masataki, Takahashi, “Efficient Data Selection for Speech Recognition Based on Prior Confidence Estimation Using Speech and Context Independent Models”, INTERSPEECH 2010, pp.238-241 September 2010」に記載された方法を用いても良い。
【0048】
部分学習データ選択部40は、高速事前信頼度スコアCの小さい音声ファイルを部分学習用音声データとして選択する(ステップS403)。この時、全ての学習用音声データの高速事前信頼度スコアCを計算しても良いし、複数個に限定して求めた高速事前信頼度スコアCを比較して部分学習用音声データを選択しても良い。
【0049】
このように、モフォンGMMから得られる出力確率から信頼度スコアを計算することで、トライフォンやバイフォン等の音響モデルを用いる場合よりも処理を高速化することが可能である。音響モデル作成装置400は、音響モデル作成装置300よりも高速に音声認識結果ラティスを生成することができる。
【実施例5】
【0050】
図9に、この発明の音響モデル作成装置500の機能構成例を示す。音響モデル作成装置500は、音響モデル作成装置100に対して、言語モデル記憶部が学習用音声データベースの音声ファイルから作成されたラティス作成用言語モデルを記憶したラティス作成用言語モデル記憶部50である点のみが異なる。
【0051】
単語ラティス作成時に用いる言語モデルを学習用の音響モデルから作成することで、未知語が無くなり対立候補が減るので、音声認識結果ラティスの容量を削減することが可能である。その結果、ディスクを効率的に使用することができる。
【0052】
なお、音響モデル作成装置500は、音響モデル作成装置100をベースに説明したが、他の音響モデル作成装置200〜400の言語モデル記憶部を、ラティス作成用言語モデル記憶部50に変更することで同様な効果が期待できる。
【0053】
また、図9に、学習用音声データベース90に記録された正解シンボル系列から言語モデルを作成するラティス作成用言語モデル作成部51を破線で示す。このようにラティス作成用言語モデル作成部51を音響モデル作成装置500として一体化して、ラティス作成用言語モデルを逐次生成するようにしても良い。また、ラティス作成用言語モデル作成部51を別体として、予め作成したラティス作成用言語モデルを記憶したラティス作成用言語モデル記憶部50のみを用いるようにしても良い。
【実施例6】
【0054】
図10に、この発明の音響モデル作成装置600の機能構成例を示す。音響モデル作成装置600は、音響モデル作成装置500に対して、更に言語モデル作成用データ整備部60を備える点で異なる。
【0055】
言語モデル作成用データ整備部60は、学習用音声データベース90から正解シンボル系列に対応するカタカナ又はひらがなの読みラベルを抽出する。ラティス作成用言語モデル作成部51は、その正解の読みラベルから言語モデルを作成する。
【0056】
正解の読みラベルを用いることで表記揺れが減り、語彙サイズの増加が抑えられるのでラティス容量を削減することが可能である。
【0057】
なお、読みラベルの単語区切りによっては、音として二重母音とすべきところを単語境界として分断されてしまう問題が生じる場合がある。二重母音とは、「ei」、「ou」、「iu」等であり、それぞれが一つの音である。この二重母音が「e/i」と分断されると表示揺れとなり、語彙サイズの増加の原因となる。
【0058】
そこで、二重母音とすべき区間はフレームの連結処理を行うことで同じ音響特徴量の音声が別の音素に割り当たらないようにする。そうすることで、音素間の混同が減り、音響モデルの精度を高めることができる。また、音声認識結果ラティスの容量を削減することも可能である。
【0059】
具体的には、連結すべき二重母音を二重母音リストに登録し、二重母音がそのリストに含まれるか否かを判定し、含まれる場合は単語境界としないようにする。また、分断してポーズを挿入した場合と連結した場合とで尤度を比較するポーズ挿入判定を行って言語モデルを作成する方法が考えられる。
【0060】
以上述べたように、この発明の音響モデル作成装置100〜500は、生成する音声認識結果ラティスの容量を抑えることが可能である。また音声認識結果ラティスの容量を事前に凡そ予測できるので、用意すべきディスクの空き容量を適切に決めることが可能である。また、適切な音声認識パラメータを自動的に決定することが可能であり、ディスク容量に適応させて精度の高い識別学習済音響モデルを自動的に生成することができる。更に、この発明の音響モデル作成装置600は、学習用音声データベース90から言語モデルを作成するので言語モデルを用意する必要が無い等の優れた効果を奏する。
【0061】
また、上記した音声認識結果の単語ラティスは、音声認識結果のN−bestに置き換えても良く、その場合でも同様の効果を奏する音響モデル作成方法を提供することが可能である。
【0062】
なお、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
【0063】
また、上記方法及び装置において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
【0064】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP-ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
【0065】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0066】
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
【特許請求の範囲】
【請求項1】
学習用音声データベースに記憶された音声データとその正解シンボル系列を組みにした学習用音声データの中から部分学習用音声データを選択する部分学習データ選択過程と、
上記部分学習用音声データと、言語モデル記憶部に記憶された言語モデルと学習用音響モデル記憶部に記憶された学習用音響モデルと、部分認識パラメータ判定過程で得られる制御用認識パラメータを用いて音声認識して部分ラティスを生成する部分ラティス作成用認識過程と、
上記部分ラティスの容量を評価して制御用認識パラメータを制御し、所定の容量の部分ラティスが得られた制御用認識パラメータを決定認識パラメータとして出力する部分認識パラメータ判定過程と、
上記言語モデルと上記学習用音響モデルと、上記決定認識パラメータに基づいて上記全ての学習用音声データに対して音声認識を行い音声認識結果ラティスを生成するラティス作成用認識過程と、
上記音声認識結果ラティスと上記正解シンボル系列を対比させて識別学習を行い識別済音響モデルを生成する識別学習過程と、
を備える音響モデル作成方法。
【請求項2】
請求項1に記載した音響モデル作成方法において、
上記部分学習データ選択過程は、
上記学習用音声データの音声ファイルについて初期認識パラメータを用いて音声認識処理を行って上記音声ファイルのそれぞれの初期ラティス容量を計算する初期ラティス容量計算ステップを含み、
上記初期ラティス容量の大きな音声ファイルを上記部分学習用音声データとして選択する過程であることを特徴とする音響モデル作成方法。
【請求項3】
請求項2に記載した音響モデル作成方法において、
上記初期ラティス容量計算ステップは、更に上記初期認識パラメータを変更した第2認識パラメータを用いた第2ラティス容量を計算するものであり、
上記部分学習データ選択過程は、上記初期ラティス容量と上記第2ラティス容量の差分が大きな音声ファイルを上記部分学習用音声データとして選択する過程であることを特徴とする音響モデル作成方法。
【請求項4】
請求項1に記載した音響モデル作成方法において、
上記部分学習データ選択過程は、
上記学習用音声データの音声ファイルの音声データをフレーム毎に音声特徴量に変換する特徴量分析ステップと、
上記音声特徴量を音響スコアと言語スコアから成る信頼度に変換し、その信頼度から音声ファイルごとの信頼度を当該ファイルのファイル長で正規化した信頼度スコアを計算する信頼度スコア計算ステップとを含み、
上記信頼度スコアの小さな音声ファイルを上記部分学習用音声データとして選択する過程であることを特徴とする音響モデル作成方法。
【請求項5】
請求項1に記載した音響モデル作成方法において、
上記部分学習データ選択過程は、
上記学習用音声データの音声ファイルの音声データをフレーム毎に音声特徴量に変換する特徴量分析ステップと、
上記フレーム毎の音声特徴量に対するモノフォンGMMから得られる出力確率とそのGMMの属する状態の出現確率の積が最も高いものをモノフォン最尤値として求め、そのモノフォン最尤値の対数と、音声/ポーズ最尤値の対数との差を音声ファイル単位で平均化した高速事前信頼度スコアを計算する高速事前信頼度スコア計算ステップとを含み、
上記高速事前信頼度スコアの小さい音声ファイルを上記部分学習用音声データとして選択する過程であることを特徴とする音響モデル作成方法。
【請求項6】
請求項1乃至5の何れかに記載した音響モデル作成方法において、
上記言語モデルは、上記学習用音声データベースの音声ファイルから作成されたラティス作成用言語モデルを記憶したものであることを特徴とする音響モデル作成方法。
【請求項7】
請求項6に記載した音響モデル作成方法において、
上記ラティス作成用言語モデルは、正解読みラベルから作成された言語モデルであることを特徴とする音響モデル作成方法。
【請求項8】
請求項7に記載した音響モデル作成方法において、
上記正解読みラベルの二重母音は、単語境界としないことを特徴とする音響モデル作成方法。
【請求項9】
音声データとその正解シンボル系列を組みにした学習用音声データを記録した学習用音声データベースと、
単語間の連接関係を表現する文法を言語モデルとして記憶した言語モデル記憶部と、
音素と音声の特徴量とを対応付ける学習用音響モデルを記憶した学習用音響モデル記憶部と、
上記学習用音声データの中から部分学習用音声データを選択する部分学習データ選択部と、
上記部分学習用音声データを、上記言語モデルと上記音響モデルと、部分認識パラメータ判定部から入力される制御用認識パラメータを用いて音声認識して部分ラティスを生成する部分ラティス作成用認識部と、
上記部分ラティスの容量を評価して上記制御用認識パラメータを制御し、所定の容量の部分ラティスが得られた制御用認識パラメータを決定認識パラメータとして出力する部分認識パラメータ判定部と、
上記言語モデルと上記学習用音響モデルと、上記決定認識パラメータに基づいて上記全ての学習用音声データに対して音声認識を行い音声認識結果ラティスを生成するラティス作成用認識部と、
上記音声認識結果ラティスと上記正解シンボル系列を対比させて識別学習を行い識別学習済音響モデルを生成する識別学習部と、
を具備する音響モデル作成装置。
【請求項10】
請求項9に記載した音響モデル作成装置において、
上記部分学習データ選択部は、上記学習用音声データの音声ファイルについて初期認識パラメータを用いて音声認識処理を行って上記音声ファイルのそれぞれの初期ラティス容量を計算する初期ラティス容量計算手段を備え、
上記初期ラティス容量の大きな音声ファイルを上記部分学習用音声データとして選択することを特徴とする音響モデル作成装置。
【請求項11】
請求項10に記載した音響モデル作成装置において、
上記初期ラティス容量計算手段は、上記初期認識パラメータを変更した第2認識パラメータを用いて第2ラティス容量を計算するものであり、
上記部分学習データ選択部は上記初期ラティス容量と上記第2ラティス容量の差分が大きな音声ファイルを上記部分学習用音声データとして選択することを特徴とする音響モデル作成装置。
【請求項12】
請求項9に記載した音響モデル作成装置において、
上記部分学習データ選択部は、
上記学習用音声データの音声ファイルの音声データをフレーム毎に音声特徴量に変換する特徴量分析手段と、
上記音声特徴量を音響スコアと言語スコアから成る信頼度に変換し、その信頼度から音声ファイルごとの信頼度を当該ファイルのファイル長で正規化した信頼度スコアを計算する信頼度スコア計算手段を備え、
上記信頼度スコアの小さい音声ファイルを上記部分学習用音声データとして選択することを特徴とする音響モデル作成装置。
【請求項13】
請求項9に記載した音響モデル作成装置において、
上記部分学習データ選択部は、
上記学習用音声データの音声ファイルの音声データをフレーム毎に音声特徴量に変換する特徴量分析手段と、
上記フレーム毎の音声特徴量に対するモノフォンGMMから得られる出力確率とそのGMMの属する状態の出現確率の積が最も高いものをモノフォン最尤値として求め、そのモノフォン最尤値の対数と、音声/ポーズ最尤値の対数との差を音声ファイル単位で平均化した高速事前信頼度スコアを計算する高速事前信頼度スコア計算手段を備え、
上記高速事前信頼度スコアの小さい音声ファイルを上記部分学習用音声データとして選択することを特徴とする音響モデル作成装置。
【請求項14】
請求項9乃至13の何れかに記載した音響モデル作成装置において、
上記言語モデル記憶部は、
上記学習用音声データベースから作成されたラティス作成用言語モデルを記憶したものであることを特徴とする音響モデル作成装置。
【請求項15】
請求項1乃至8の何れかに記載した音響モデル作成方法をコンピュータに実行させるためのプログラム。
【請求項1】
学習用音声データベースに記憶された音声データとその正解シンボル系列を組みにした学習用音声データの中から部分学習用音声データを選択する部分学習データ選択過程と、
上記部分学習用音声データと、言語モデル記憶部に記憶された言語モデルと学習用音響モデル記憶部に記憶された学習用音響モデルと、部分認識パラメータ判定過程で得られる制御用認識パラメータを用いて音声認識して部分ラティスを生成する部分ラティス作成用認識過程と、
上記部分ラティスの容量を評価して制御用認識パラメータを制御し、所定の容量の部分ラティスが得られた制御用認識パラメータを決定認識パラメータとして出力する部分認識パラメータ判定過程と、
上記言語モデルと上記学習用音響モデルと、上記決定認識パラメータに基づいて上記全ての学習用音声データに対して音声認識を行い音声認識結果ラティスを生成するラティス作成用認識過程と、
上記音声認識結果ラティスと上記正解シンボル系列を対比させて識別学習を行い識別済音響モデルを生成する識別学習過程と、
を備える音響モデル作成方法。
【請求項2】
請求項1に記載した音響モデル作成方法において、
上記部分学習データ選択過程は、
上記学習用音声データの音声ファイルについて初期認識パラメータを用いて音声認識処理を行って上記音声ファイルのそれぞれの初期ラティス容量を計算する初期ラティス容量計算ステップを含み、
上記初期ラティス容量の大きな音声ファイルを上記部分学習用音声データとして選択する過程であることを特徴とする音響モデル作成方法。
【請求項3】
請求項2に記載した音響モデル作成方法において、
上記初期ラティス容量計算ステップは、更に上記初期認識パラメータを変更した第2認識パラメータを用いた第2ラティス容量を計算するものであり、
上記部分学習データ選択過程は、上記初期ラティス容量と上記第2ラティス容量の差分が大きな音声ファイルを上記部分学習用音声データとして選択する過程であることを特徴とする音響モデル作成方法。
【請求項4】
請求項1に記載した音響モデル作成方法において、
上記部分学習データ選択過程は、
上記学習用音声データの音声ファイルの音声データをフレーム毎に音声特徴量に変換する特徴量分析ステップと、
上記音声特徴量を音響スコアと言語スコアから成る信頼度に変換し、その信頼度から音声ファイルごとの信頼度を当該ファイルのファイル長で正規化した信頼度スコアを計算する信頼度スコア計算ステップとを含み、
上記信頼度スコアの小さな音声ファイルを上記部分学習用音声データとして選択する過程であることを特徴とする音響モデル作成方法。
【請求項5】
請求項1に記載した音響モデル作成方法において、
上記部分学習データ選択過程は、
上記学習用音声データの音声ファイルの音声データをフレーム毎に音声特徴量に変換する特徴量分析ステップと、
上記フレーム毎の音声特徴量に対するモノフォンGMMから得られる出力確率とそのGMMの属する状態の出現確率の積が最も高いものをモノフォン最尤値として求め、そのモノフォン最尤値の対数と、音声/ポーズ最尤値の対数との差を音声ファイル単位で平均化した高速事前信頼度スコアを計算する高速事前信頼度スコア計算ステップとを含み、
上記高速事前信頼度スコアの小さい音声ファイルを上記部分学習用音声データとして選択する過程であることを特徴とする音響モデル作成方法。
【請求項6】
請求項1乃至5の何れかに記載した音響モデル作成方法において、
上記言語モデルは、上記学習用音声データベースの音声ファイルから作成されたラティス作成用言語モデルを記憶したものであることを特徴とする音響モデル作成方法。
【請求項7】
請求項6に記載した音響モデル作成方法において、
上記ラティス作成用言語モデルは、正解読みラベルから作成された言語モデルであることを特徴とする音響モデル作成方法。
【請求項8】
請求項7に記載した音響モデル作成方法において、
上記正解読みラベルの二重母音は、単語境界としないことを特徴とする音響モデル作成方法。
【請求項9】
音声データとその正解シンボル系列を組みにした学習用音声データを記録した学習用音声データベースと、
単語間の連接関係を表現する文法を言語モデルとして記憶した言語モデル記憶部と、
音素と音声の特徴量とを対応付ける学習用音響モデルを記憶した学習用音響モデル記憶部と、
上記学習用音声データの中から部分学習用音声データを選択する部分学習データ選択部と、
上記部分学習用音声データを、上記言語モデルと上記音響モデルと、部分認識パラメータ判定部から入力される制御用認識パラメータを用いて音声認識して部分ラティスを生成する部分ラティス作成用認識部と、
上記部分ラティスの容量を評価して上記制御用認識パラメータを制御し、所定の容量の部分ラティスが得られた制御用認識パラメータを決定認識パラメータとして出力する部分認識パラメータ判定部と、
上記言語モデルと上記学習用音響モデルと、上記決定認識パラメータに基づいて上記全ての学習用音声データに対して音声認識を行い音声認識結果ラティスを生成するラティス作成用認識部と、
上記音声認識結果ラティスと上記正解シンボル系列を対比させて識別学習を行い識別学習済音響モデルを生成する識別学習部と、
を具備する音響モデル作成装置。
【請求項10】
請求項9に記載した音響モデル作成装置において、
上記部分学習データ選択部は、上記学習用音声データの音声ファイルについて初期認識パラメータを用いて音声認識処理を行って上記音声ファイルのそれぞれの初期ラティス容量を計算する初期ラティス容量計算手段を備え、
上記初期ラティス容量の大きな音声ファイルを上記部分学習用音声データとして選択することを特徴とする音響モデル作成装置。
【請求項11】
請求項10に記載した音響モデル作成装置において、
上記初期ラティス容量計算手段は、上記初期認識パラメータを変更した第2認識パラメータを用いて第2ラティス容量を計算するものであり、
上記部分学習データ選択部は上記初期ラティス容量と上記第2ラティス容量の差分が大きな音声ファイルを上記部分学習用音声データとして選択することを特徴とする音響モデル作成装置。
【請求項12】
請求項9に記載した音響モデル作成装置において、
上記部分学習データ選択部は、
上記学習用音声データの音声ファイルの音声データをフレーム毎に音声特徴量に変換する特徴量分析手段と、
上記音声特徴量を音響スコアと言語スコアから成る信頼度に変換し、その信頼度から音声ファイルごとの信頼度を当該ファイルのファイル長で正規化した信頼度スコアを計算する信頼度スコア計算手段を備え、
上記信頼度スコアの小さい音声ファイルを上記部分学習用音声データとして選択することを特徴とする音響モデル作成装置。
【請求項13】
請求項9に記載した音響モデル作成装置において、
上記部分学習データ選択部は、
上記学習用音声データの音声ファイルの音声データをフレーム毎に音声特徴量に変換する特徴量分析手段と、
上記フレーム毎の音声特徴量に対するモノフォンGMMから得られる出力確率とそのGMMの属する状態の出現確率の積が最も高いものをモノフォン最尤値として求め、そのモノフォン最尤値の対数と、音声/ポーズ最尤値の対数との差を音声ファイル単位で平均化した高速事前信頼度スコアを計算する高速事前信頼度スコア計算手段を備え、
上記高速事前信頼度スコアの小さい音声ファイルを上記部分学習用音声データとして選択することを特徴とする音響モデル作成装置。
【請求項14】
請求項9乃至13の何れかに記載した音響モデル作成装置において、
上記言語モデル記憶部は、
上記学習用音声データベースから作成されたラティス作成用言語モデルを記憶したものであることを特徴とする音響モデル作成装置。
【請求項15】
請求項1乃至8の何れかに記載した音響モデル作成方法をコンピュータに実行させるためのプログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【公開番号】特開2012−118441(P2012−118441A)
【公開日】平成24年6月21日(2012.6.21)
【国際特許分類】
【出願番号】特願2010−270174(P2010−270174)
【出願日】平成22年12月3日(2010.12.3)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】
【公開日】平成24年6月21日(2012.6.21)
【国際特許分類】
【出願日】平成22年12月3日(2010.12.3)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】
[ Back to top ]