音響モデル作成方法とその装置とプログラム

【課題】識別学習法において、音声認識誤りを含む音声認識結果ラティスの大きさを自動的に最適化する。
【解決手段】部分学習データ選択部が、学習用音声データベースの中から部分学習用音声データを選択し、部分認識パラメータ判定部がその部分学習用音声データが所定の大きさの部分ラティスとなる決定認識パラメータを求める。そして、ラティス作成用認識部が、その決定認識パラメータを用いて音声認識結果ラティスを生成する。識別学習部が、音声認識結果ラティスと正解シンボル系列を対比させて識別学習を行い識別学習済音響モデルを生成する。

【発明の詳細な説明】
【技術分野】
【０００１】
この発明は、識別学習法を用いて音響モデルを作成する音響モデル作成方法と、その装置とプログラムに関する。
【背景技術】
【０００２】
音響モデルの学習方法として、従来の最尤推定に基づく手法から、音素等のシンボル間の識別能力を向上させる識別学習法が用いられることが多くなって来ている。識別学習法は、音声認識誤りを含まない参照単語列と、音声認識誤りを含む認識単語列とを同時に用いることで識別モデルの学習効果を向上させるものである。認識単語列には、音声認識結果を単語ラティス（複数の認識単語列をコンパクトに表現するための有向非循環グラフ）等の形式で表現したものが用いられる。
【０００３】
識別学習法は、例えば特許文献１と２、及び非特許文献１に開示されている。図１１を参照して従来の識別学習法による音響モデル作成装置９００を簡単に説明する。音響モデル作成装置９００は、学習用音声データベース９０と、言語モデル記憶部９１と、学習用音響モデル記憶部９２と、ラティス作成用認識部９３と、識別学習部９４と、を備える。
【０００４】
学習用音声データベース９０は、音声データとその正解シンボル系列を組みにした学習用音声データを記憶する。言語モデル記憶部９１は、単語間の連接関係を表現する文法等（発音辞書を含む）を記憶する。学習用音響モデル記憶部９２は、音素と音声の特徴量とを対応付ける学習用の音響モデルを記憶する。ラティス作成用認識部９３は、言語モデルと音響モデルと、認識パラメータに基づいて全ての学習用音声データに対して音声認識を行い音声認識結果の単語ラティス（以降は単純に、「音声認識結果ラティス」又は「単語ラティス」と表現する。）を生成する。識別学習部９４は、音声認識結果ラティスと正解シンボル系列を対比させて識別学習を行い識別学習済音響モデルを生成する。
【０００５】
図１２に、音声認識結果ラティスの一例を示す。図１２は、「お電話ありがとうございます。」の音声を認識した誤りを含む複数の認識単語列を、有向非循環グラフで表したものである。この音声認識結果ラティスと、誤りを含まない正解ラティスとを対比して識別学習を行うことで、音響モデルを効率的に学習することが出来る。
【先行技術文献】
【特許文献】
【０００６】
【特許文献１】特開２００７−３２２９８４号公報
【特許文献２】特開２００６−２０１５５３号公報
【非特許文献】
【０００７】
【非特許文献１】Erik McDermott and Atsushi Nakamura, “String and Lattice based Discriminative Training for the Corpus of Spontaneous Japanese Lecture Transcription Task”, INTERSPEECH, pp.2081−2084, Aug. 2007.
【発明の概要】
【発明が解決しようとする課題】
【０００８】
従来の音響モデル作成装置９００では、単語ラティスの作成に大量のメモリを使用するので、メモリ容量（ディスク容量）を圧迫してしまう課題がある。近年のメモリ容量の大容量化に伴い、学習用音声データベースに記憶される音声データの量は数百時間といった大規模なデータになりつつある。その大規模な音声データに対して音声認識を行って、単語ラティスを生成しようとすると、上記したように単語ラティスは可能性のある多くの音声認識結果を包含するものであるため、そのデータ量は莫大なものになる。また、単語ラティスの大きさは、学習用音声データの音質、音響モデル、言語モデル、音声認識パラメータ等に依存するので、事前に予測することが困難である。
【０００９】
そのようなことから大規模な音声データから直接、単語ラティスを生成しようとすると、場合によってディスク容量を使いきりメモリ不足に陥ることで、音響モデル作成装置９００は動作不能になる。それを防止する目的で、音声認識の認識パラメータの１つである例えば探索ビーム幅を狭めると、単語ラティスが得られない音声データも出現し、学習後の音響モデルの精度が下がってしまう問題が発生する。
【００１０】
この発明は、このような点に鑑みてなされたものであり、音声認識結果ラティスを生成する際の音声認識パラメータを自動的に最適化して、適切な大きさの単語ラティスを生成することが可能な音響モデル作成方法と、その装置とプログラムを提供することを目的とする。
【課題を解決するための手段】
【００１１】
この発明の音響モデル作成方法は、部分学習データ選択過程と、部分ラティス作成用認識過程と、部分認識パラメータ判定過程と、ラティス作成用認識過程と、識別学習過程と、を備える。部分学習データ選択過程は、学習用音声データベースに記憶された音声データとその正解シンボル系列を組にした学習用音声データの中から部分学習用音声データを選択する。部分ラティス作成用認識過程は、部分学習用音声データと、言語モデル記憶部に記憶された言語モデルと学習用音響モデル記憶部に記憶された学習用音響モデルと、部分認識パラメータ判定過程で得られる制御用認識パラメータを用いて音声認識して部分ラティスを生成する。部分認識パラメータ判定過程は、部分ラティスの容量を評価して制御用認識パラメータを制御し、所定の容量の部分ラティスが得られた制御用認識パラメータを決定認識パラメータとして出力する。ラティス作成用認識過程は、言語モデルと学習用音響モデルと、結滞認識パラメータに基づいて全ての学習用音声データに対して音声認識を行い音声認識結果ラティスを生成する。識別学習過程は、音声認識結果ラティスと正解シンボル系列を対比させて識別学習を行い識別済音響モデルを生成する。
【発明の効果】
【００１２】
この発明の音響モデル作成方法は、学習用音声データベースの中から部分学習用音声データを選択し、その部分学習用音声データが所定の大きさの部分ラティスとなる決定認識パラメータを求める。そして、その決定認識パラメータを用いて音声認識結果ラティスを生成するので、自動的に音声認識結果ラティスの大きさを適切なものにすることが可能である。
【図面の簡単な説明】
【００１３】
【図１】この発明の音響モデル作成装置１００の機能構成例を示す図。
【図２】音響モデル作成装置１００の動作フローを示す図。
【図３】この発明の音響モデル作成装置２００の機能構成例を示す図。
【図４】音響モデル作成装置２００の動作フローを示す図。
【図５】この発明の音響モデル作成装置３００の機能構成例を示す図。
【図６】音響モデル作成装置３００の動作フローを示す図。
【図７】この発明の音響モデル作成装置４００の機能構成例を示す図。
【図８】音響モデル作成装置４００の動作フローを示す図。
【図９】この発明の音響モデル作成装置５００の機能構成例を示す図。
【図１０】音響モデル作成装置６００の機能構成例を示す図。
【図１１】従来の音響モデル作成装置９００の機能構成を示す図。
【図１２】音声認識結果ラティスの一例を示す図。
【発明を実施するための形態】
【００１４】
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。
【実施例１】
【００１５】
図１に、この発明の音響モデル作成装置１００の機能構成例を示す。その動作フローを図２に示す。音響モデル作成装置１００は、学習用音声データベース９０と、部分学習データ選択部１１と、部分ラティス作成用認識部１２と、部分認識パラメータ判定部１３と、言語モデル記憶部９１と、学習用音響モデル記憶部９２と、ラティス作成用認識部９３と、識別学習部９４と、を具備する。データベースと記憶部を除く各部の機能は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現されるものである。
【００１６】
音響モデル作成装置１００は、従来の音響モデル作成装置９００に対して、部分学習データ選択部１１と部分ラティス作成用認識部１２と部分認識パラメータ判定部１３と、を備える点で新しい。
【００１７】
なお、音響モデル作成装置１００は、音声ディジタル信号を音声認識処理するものであり、学習用音声データベース９０には、ディジタル信号に変換された音声データが複数の音声ファイルとして記録されている。そして、音声データを例えば２０ｍｓと言った時間間隔を１フレームとして、１フレームごとに音声認識処理するものである。
【００１８】
学習用音声データベース９０は、音声データとその正解シンボル系列を組みにした学習用音声データを記録する。部分学習データ選択部１１は、学習用音声データベース９０の中から部分学習用音声データを選択する（ステップＳ１１）。その選択は、学習用音声データの大きさ、つまり音声ファイルのデータ量が大きな音声ファイルを部分学習用音声データとしても良いし、又は、そのデータ量を既知としてランダムに選択した音声ファイルを部分学習用音声データとしても良い。
【００１９】
部分ラティス作成用認識部１２は、その部分学習用音声データを、言語モデル記憶部９１に記憶された言語モデルと学習用音響モデル記憶部９２に記憶された学習用音響モデルと、部分認識パラメータ判定部１３から入力される制御用認識パラメータと、を用いて音声認識して部分ラティスを生成する（ステップＳ１２）。
【００２０】
なお、初回の部分ラティスの生成時には、制御用認識パラメータが決められないので認識パラメータとして予め部分ラティス作成用認識部１２に設定されている初期認識パラメータ１２０を用いる。認識パラメータとしては、探索ビーム幅や言語重み等がある。探索ビーム幅とは、音声認識結果の仮説の足切り幅のことであり、初期認識パラメータ１２０としては例えば１０００個の仮説を探索する。言語重みは、信頼度スコアを音響スコアと言語スコアの和で表現した場合に言語スコアに乗ずる重みであり、初期認識パラメータ１２０としては例えば１０といった値に設定される。単語ラティスについては、上記した非特許文献１にも記載されているもので一般的なものである。部分ラティスの生成そのものは、この発明の主要部ではないので詳しい説明は省略する。
【００２１】
部分認識パラメータ判定部１３は、部分ラティス作成用認識部１２が出力する部分ラティスの容量を評価して制御用認識パラメータを制御し、所定の容量の部分ラティスが得られた制御用認識パラメータを決定認識パラメータとして出力する（ステップＳ１３）。部分認識パラメータ判定部１３は、部分ラティスの容量Ｌ_Ｅを目標ラティス容量Ｌ_Ｔと比較して、目標に近づくように制御用認識パラメータを調整する。
【００２２】
部分ラティスの容量Ｌ_Ｅが目標ラティス容量Ｌ_Ｔに比べて小さい場合は、制御用認識パラメータとして探索ビーム幅Ｂを用いる場合、探索ビーム幅Ｂを拡大し、逆に大きい場合は縮小する。例えば、制御用認識パラメータの探索ビーム幅Ｂ′は、目標ラティス容量Ｌ_Ｔに対する比率ｒ＝Ｌ_Ｅ/Ｌ_Ｔを元にＢ′＝Ｂ/ｒで求めても良い。そして、所定の容量の部分ラティスが得られた制御用認識パラメータを決定認識パラメータとして出力する。
【００２３】
目標ラティス容量Ｌ_Ｔは、部分学習用音声データの大きさによって変化するので、その部分学習用音声データのフレーム数を考慮した値で設定する（式（１））。
【００２４】
【数１】

【００２５】
ここで、Ｌ_Ｅは部分学習用音声データから生成した部分ラティスの容量、Ｎ_Ｅはその部分学習用音声データのフレーム数（ファイル長）である。Ｎは全ての学習用音声データの総フレーム数である。
【００２６】
目標ラティス容量Ｌ_Ｔは、単語ラティスを書き込むディスクの残り容量と、学習用音声データの総容量の比率から求めても良い。また、入力に正解ラベルを入れる場合、正解ラベルを言語モデルとして与えた場合のラティス容量を基準として目標ラティス容量Ｌ_Ｔを決定しても良い（例えば、基準の１０倍等）。
【００２７】
部分認識パラメータ判定部１３は、部分ラティスの容量Ｌ_Ｅと目標ラティス容量Ｌ_Ｔを比較して、目標ラティス容量Ｌ_Ｔとほぼ等しい（或いは差が一定の値以下、例えば差が１％以下等）容量Ｌ_Ｅが得られた制御用認識パラメータを決定認識パラメータとして出力する。なお、ここで調整のための回数制限等を設けても良い。
【００２８】
ラティス作成用認識部９３は、言語モデル記憶部９１に記憶された言語モデルと学習用音響モデル記憶部９２に記憶された学習用音響モデルと、決定認識パラメータに基づいて全ての学習用音声データに対して音声認識を行い音声認識結果ラティスを生成する（ステップＳ９３）。
【００２９】
識別学習部９４は、ラティス作成用認識部９３が生成した音声認識結果ラティスと、学習用音声データベース９０に記憶された正解シンボル系列を対比させて識別学習を行い識別学習済音響モデルを生成する（ステップＳ９４）。
【００３０】
このように音響モデル作成装置１００は、学習用音声データの一部の音声データから部分ラティスを生成させ、その部分ラティスの大きさが所定の大きさになるように音声認識用の認識パラメータを決定するので、適切な大きさの音声認識結果ラティスを自動的に生成することができる。
【００３１】
なお、音声認識結果ラティスは、音声認識結果のＮ−ｂｅｓｔに置き換えることも可能である。つまり、部分ラティス作成用認識部１２及び部分認識パラメータ判定部１３が、単語ラティスに代えて適当な大きさのＮ−ｂｅｓｔが得られるように制御用認識パラメータを制御して決定認識パラメータを求める。そして、その決定パラメータを用いてラティス作成用認識部９３が、音声認識結果のＮ−ｂｅｓｔを生成することで、適切な大きさの音声認識結果のＮ−ｂｅｓｔを自動的に生成することができる。
【実施例２】
【００３２】
図３に、この発明の音響モデル作成装置２００の機能構成例を示す。その動作フローを
図４に示す。音響モデル作成装置２００は、上記した音響モデル作成装置１００に対して部分学習データ選択部２０と、部分ラティス作成用認識部１２′のみが異なる。
【００３３】
部分学習データ選択部２０は初期ラティス容量計算手段２０１を備える。初期ラティス容量計算手段２０１は、学習用音声データベース９０に記録された学習用音声データの音声ファイルについて初期認識パラメータ１２０（図示を省略、図１に示したものと同じものでも良い）を用いて音声認識処理を行い、音声ファイルのそれぞれの初期ラティス容量を計算する（ステップＳ２０１）。この時、全ての学習用音声データについて初期ラティス容量を求めても良いし、複数個のファイルに限定して求めても良い。そして、部分学習データ選択部２０は、初期ラティス容量の大きな音声ファイルを、部分学習用音声データとして選択する（ステップＳ２０２）。
【００３４】
部分ラティス作成用認識部１２′は、その初期ラティス容量の大きさ情報を部分認識パラメータ判定部１３に伝達した後に、部分認識パラメータ判定部１３から入力される制御用認識パラメータを用いて部分学習用音声データの部分ラティスを作成する（ステップＳ１２′）。そして、部分認識パラメータ判定部１３は、その部分ラティスが所定の大きさになるように制御用認識パラメータを制御して決定認識パラメータを出力する（ステップＳ１３）。
【００３５】
このように初期ラティス容量の大きな音声ファイルを対象にして決定認識パラメータを設定するので、音声認識結果ラティスを生成する際に、ディスク容量を超えてしまう危険を減らすことが可能であり、より効率的に音声認識結果ラティスを生成することができる。
〔変形例〕
部分学習データ選択部２０′は、認識パラメータの変化に対して部分ラティス容量の変化が大きな音声ファイルを部分学習用音声データとして選択するようにしても良い。部分学習データ選択部２０′は初期ラティス容量計算手段２０１′を備える。
【００３６】
初期ラティス容量計算手段２０１′は、初期認識パラメータ１２０を用いて音声認識処理を行って音声ファイルの初期ラティス容量を計算すると共に、初期認識パラメータ１２０を変更した第２認識パラメータを用いて音声ファイルの第２ラティス容量を計算する（ステップＳ２０１′）。
【００３７】
部分学習データ選択部２０′は、初期ラティス容量と第２ラティス容量の差分が大きな音声ファイルを部分学習用音声データとして選択する（ステップＳ２０′）。ここで、第２認識パラメータを、初期認識パラメータに対してわずかに変化させた値（例えば探索ビーム幅を１０％程度変更した値）とすることで、部分学習データ選択部２０′は認識パラメータの変化に対するラティス容量の変化の大きな感度の高い音声ファイルを選択することができる。
【００３８】
部分認識パラメータ判定部１３は、認識パラメータの変化に対する感度の高い音声ファイルを用いて決定認識パラメータを設定する。よって、ラティス作成用認識部９３は、より適切な大きさの音声認識結果ラティスを生成することができる。
【実施例３】
【００３９】
図５に、この発明の音響モデル作成装置３００の機能構成例を示す。その動作フローを図６に示す。音響モデル作成装置３００は、上記した音響モデル作成装置１００と２００に対して部分学習データ選択部３０のみが異なる。
【００４０】
部分学習データ選択部３０は、特徴量抽出手段３０１と、信頼度スコア計算手段３０２を備える。特徴量算出手段３０１は、学習用音声データの音声ファイルの音声データをフレーム毎に音声特徴量ｏ_ｔに変換する（ステップＳ３０１）。音声特徴量ｏ_ｔとしては、例えばＭＦＣＣ（Mel-Frequency Cepstrum Coefficient）の１〜１２元と、その変化量であるΔＭＦＣＣ等の動的パラメータや、パワーやΔパワー等を用いる。また、ケプストラム平均正規化（ＣＭＮ）等の処理を行っても良い。
【００４１】
信頼度スコア計算手段３０２は、音声特徴量ｏ_ｔの系列に対する音声認識結果の音響スコアと言語スコアから推定される信頼度に変換し、その信頼度から音声ファイルごとの信頼度を当該ファイルのファイル長で正規化した信頼度スコアを計算する（ステップＳ３０２）。信頼度スコアは、音声認識結果から推定されるもので従来から音声認識装置で用いられているものを用いると良い。
【００４２】
部分学習データ選択部３０は、信頼度スコアの小さい音声ファイルを部分学習用音声データとして選択する（ステップＳ３０３）。この時、全ての学習用音声データの信頼度スコアを計算しても良いし、複数個に限定して求めた信頼度スコアを比較して部分学習用音声データを選択しても良い。
【００４３】
信頼度スコアが小さな音声ファイルから音声認識結果ラティスを生成すると、単語の対立候補が多くなるのでラティス容量が大きくなる。よって、音声認識結果ラティス容量の総量を抑えるためには、信頼度スコアが小さな音声ファイルから決定認識パラメータを求めることで、総ラティス容量がディスク容量を超えてしまう危険性を軽減することができる。
【実施例４】
【００４４】
図７に、この発明の音響モデル作成装置４００の機能構成例を示す。その動作フローを図８に示す。音響モデル作成装置４００は、上記した音響モデル作成装置３００に対して部分学習データ選択部４０が、事前高速信頼度スコア計算手段４０１を備える点で異なる。
【００４５】
事前高速信頼度スコア計算手段４０１は、フレーム毎の音声特徴量に対するモノフォンＧＭＭ（Gaussian Mixture Model）から得られる出力確率ｂ_ｓと、そのＧＭＭの属する状態の出現確率の積が最も高いものをモノフォン最尤値Ｐ（ｓ＾）ｂｓ＾（ｏ_ｔ）として求め、そのモノフォン最尤値の対数と、音声／ポーズ最尤値ｂｇ＾（ｏ_ｔ）の対数との差を音声ファイル単位で平均化した高速事前信頼度スコアを計算する（ステップＳ４０１）。式（２）はフレーム毎の高速事前信頼度スコアｃ（ｏ_ｔ）であり、式（３）は音声ファイル単位で平均化した高速事前信頼度スコアＣである。
【００４６】
【数２】

【００４７】
ここでＴは各音声ファイルの総フレーム長である。なお、高速事前信頼度スコアＣの計算は、参考文献１：「小橋川、浅見、山口、政瀧、高橋「事前信頼度推定に基づく音声認識対象データ選択」日本音響学会講演論文集、2010年3月」、又は、参考文献２：「Kobashikawa, Asami, Yamaguchi, Masataki, Takahashi, “Efficient Data Selection for Speech Recognition Based on Prior Confidence Estimation Using Speech and Context Independent Models”, INTERSPEECH 2010, pp.238-241 September 2010」に記載された方法を用いても良い。
【００４８】
部分学習データ選択部４０は、高速事前信頼度スコアＣの小さい音声ファイルを部分学習用音声データとして選択する（ステップＳ４０３）。この時、全ての学習用音声データの高速事前信頼度スコアＣを計算しても良いし、複数個に限定して求めた高速事前信頼度スコアＣを比較して部分学習用音声データを選択しても良い。
【００４９】
このように、モフォンＧＭＭから得られる出力確率から信頼度スコアを計算することで、トライフォンやバイフォン等の音響モデルを用いる場合よりも処理を高速化することが可能である。音響モデル作成装置４００は、音響モデル作成装置３００よりも高速に音声認識結果ラティスを生成することができる。
【実施例５】
【００５０】
図９に、この発明の音響モデル作成装置５００の機能構成例を示す。音響モデル作成装置５００は、音響モデル作成装置１００に対して、言語モデル記憶部が学習用音声データベースの音声ファイルから作成されたラティス作成用言語モデルを記憶したラティス作成用言語モデル記憶部５０である点のみが異なる。
【００５１】
単語ラティス作成時に用いる言語モデルを学習用の音響モデルから作成することで、未知語が無くなり対立候補が減るので、音声認識結果ラティスの容量を削減することが可能である。その結果、ディスクを効率的に使用することができる。
【００５２】
なお、音響モデル作成装置５００は、音響モデル作成装置１００をベースに説明したが、他の音響モデル作成装置２００〜４００の言語モデル記憶部を、ラティス作成用言語モデル記憶部５０に変更することで同様な効果が期待できる。
【００５３】
また、図９に、学習用音声データベース９０に記録された正解シンボル系列から言語モデルを作成するラティス作成用言語モデル作成部５１を破線で示す。このようにラティス作成用言語モデル作成部５１を音響モデル作成装置５００として一体化して、ラティス作成用言語モデルを逐次生成するようにしても良い。また、ラティス作成用言語モデル作成部５１を別体として、予め作成したラティス作成用言語モデルを記憶したラティス作成用言語モデル記憶部５０のみを用いるようにしても良い。
【実施例６】
【００５４】
図１０に、この発明の音響モデル作成装置６００の機能構成例を示す。音響モデル作成装置６００は、音響モデル作成装置５００に対して、更に言語モデル作成用データ整備部６０を備える点で異なる。
【００５５】
言語モデル作成用データ整備部６０は、学習用音声データベース９０から正解シンボル系列に対応するカタカナ又はひらがなの読みラベルを抽出する。ラティス作成用言語モデル作成部５１は、その正解の読みラベルから言語モデルを作成する。
【００５６】
正解の読みラベルを用いることで表記揺れが減り、語彙サイズの増加が抑えられるのでラティス容量を削減することが可能である。
【００５７】
なお、読みラベルの単語区切りによっては、音として二重母音とすべきところを単語境界として分断されてしまう問題が生じる場合がある。二重母音とは、「ｅｉ」、「ｏｕ」、「ｉｕ」等であり、それぞれが一つの音である。この二重母音が「ｅ／ｉ」と分断されると表示揺れとなり、語彙サイズの増加の原因となる。
【００５８】
そこで、二重母音とすべき区間はフレームの連結処理を行うことで同じ音響特徴量の音声が別の音素に割り当たらないようにする。そうすることで、音素間の混同が減り、音響モデルの精度を高めることができる。また、音声認識結果ラティスの容量を削減することも可能である。
【００５９】
具体的には、連結すべき二重母音を二重母音リストに登録し、二重母音がそのリストに含まれるか否かを判定し、含まれる場合は単語境界としないようにする。また、分断してポーズを挿入した場合と連結した場合とで尤度を比較するポーズ挿入判定を行って言語モデルを作成する方法が考えられる。
【００６０】
以上述べたように、この発明の音響モデル作成装置１００〜５００は、生成する音声認識結果ラティスの容量を抑えることが可能である。また音声認識結果ラティスの容量を事前に凡そ予測できるので、用意すべきディスクの空き容量を適切に決めることが可能である。また、適切な音声認識パラメータを自動的に決定することが可能であり、ディスク容量に適応させて精度の高い識別学習済音響モデルを自動的に生成することができる。更に、この発明の音響モデル作成装置６００は、学習用音声データベース９０から言語モデルを作成するので言語モデルを用意する必要が無い等の優れた効果を奏する。
【００６１】
また、上記した音声認識結果の単語ラティスは、音声認識結果のＮ−ｂｅｓｔに置き換えても良く、その場合でも同様の効果を奏する音響モデル作成方法を提供することが可能である。
【００６２】
なお、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
【００６３】
また、上記方法及び装置において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
【００６４】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD（Digital Versatile Disc）、DVD-RAM（Random Access Memory）、CD-ROM（Compact Disc Read Only Memory）、CD-R（Recordable）/RW（ReWritable）等を、光磁気記録媒体として、MO（Magneto Optical disc）等を、半導体メモリとしてEEP-ROM（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。
【００６５】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【００６６】
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

【特許請求の範囲】
【請求項１】
学習用音声データベースに記憶された音声データとその正解シンボル系列を組みにした学習用音声データの中から部分学習用音声データを選択する部分学習データ選択過程と、
上記部分学習用音声データと、言語モデル記憶部に記憶された言語モデルと学習用音響モデル記憶部に記憶された学習用音響モデルと、部分認識パラメータ判定過程で得られる制御用認識パラメータを用いて音声認識して部分ラティスを生成する部分ラティス作成用認識過程と、
上記部分ラティスの容量を評価して制御用認識パラメータを制御し、所定の容量の部分ラティスが得られた制御用認識パラメータを決定認識パラメータとして出力する部分認識パラメータ判定過程と、
上記言語モデルと上記学習用音響モデルと、上記決定認識パラメータに基づいて上記全ての学習用音声データに対して音声認識を行い音声認識結果ラティスを生成するラティス作成用認識過程と、
上記音声認識結果ラティスと上記正解シンボル系列を対比させて識別学習を行い識別済音響モデルを生成する識別学習過程と、
を備える音響モデル作成方法。
【請求項２】
請求項１に記載した音響モデル作成方法において、
上記部分学習データ選択過程は、
上記学習用音声データの音声ファイルについて初期認識パラメータを用いて音声認識処理を行って上記音声ファイルのそれぞれの初期ラティス容量を計算する初期ラティス容量計算ステップを含み、
上記初期ラティス容量の大きな音声ファイルを上記部分学習用音声データとして選択する過程であることを特徴とする音響モデル作成方法。
【請求項３】
請求項２に記載した音響モデル作成方法において、
上記初期ラティス容量計算ステップは、更に上記初期認識パラメータを変更した第２認識パラメータを用いた第２ラティス容量を計算するものであり、
上記部分学習データ選択過程は、上記初期ラティス容量と上記第２ラティス容量の差分が大きな音声ファイルを上記部分学習用音声データとして選択する過程であることを特徴とする音響モデル作成方法。
【請求項４】
請求項１に記載した音響モデル作成方法において、
上記部分学習データ選択過程は、
上記学習用音声データの音声ファイルの音声データをフレーム毎に音声特徴量に変換する特徴量分析ステップと、
上記音声特徴量を音響スコアと言語スコアから成る信頼度に変換し、その信頼度から音声ファイルごとの信頼度を当該ファイルのファイル長で正規化した信頼度スコアを計算する信頼度スコア計算ステップとを含み、
上記信頼度スコアの小さな音声ファイルを上記部分学習用音声データとして選択する過程であることを特徴とする音響モデル作成方法。
【請求項５】
請求項１に記載した音響モデル作成方法において、
上記部分学習データ選択過程は、
上記学習用音声データの音声ファイルの音声データをフレーム毎に音声特徴量に変換する特徴量分析ステップと、
上記フレーム毎の音声特徴量に対するモノフォンＧＭＭから得られる出力確率とそのＧＭＭの属する状態の出現確率の積が最も高いものをモノフォン最尤値として求め、そのモノフォン最尤値の対数と、音声／ポーズ最尤値の対数との差を音声ファイル単位で平均化した高速事前信頼度スコアを計算する高速事前信頼度スコア計算ステップとを含み、
上記高速事前信頼度スコアの小さい音声ファイルを上記部分学習用音声データとして選択する過程であることを特徴とする音響モデル作成方法。
【請求項６】
請求項１乃至５の何れかに記載した音響モデル作成方法において、
上記言語モデルは、上記学習用音声データベースの音声ファイルから作成されたラティス作成用言語モデルを記憶したものであることを特徴とする音響モデル作成方法。
【請求項７】
請求項６に記載した音響モデル作成方法において、
上記ラティス作成用言語モデルは、正解読みラベルから作成された言語モデルであることを特徴とする音響モデル作成方法。
【請求項８】
請求項７に記載した音響モデル作成方法において、
上記正解読みラベルの二重母音は、単語境界としないことを特徴とする音響モデル作成方法。
【請求項９】
音声データとその正解シンボル系列を組みにした学習用音声データを記録した学習用音声データベースと、
単語間の連接関係を表現する文法を言語モデルとして記憶した言語モデル記憶部と、
音素と音声の特徴量とを対応付ける学習用音響モデルを記憶した学習用音響モデル記憶部と、
上記学習用音声データの中から部分学習用音声データを選択する部分学習データ選択部と、
上記部分学習用音声データを、上記言語モデルと上記音響モデルと、部分認識パラメータ判定部から入力される制御用認識パラメータを用いて音声認識して部分ラティスを生成する部分ラティス作成用認識部と、
上記部分ラティスの容量を評価して上記制御用認識パラメータを制御し、所定の容量の部分ラティスが得られた制御用認識パラメータを決定認識パラメータとして出力する部分認識パラメータ判定部と、
上記言語モデルと上記学習用音響モデルと、上記決定認識パラメータに基づいて上記全ての学習用音声データに対して音声認識を行い音声認識結果ラティスを生成するラティス作成用認識部と、
上記音声認識結果ラティスと上記正解シンボル系列を対比させて識別学習を行い識別学習済音響モデルを生成する識別学習部と、
を具備する音響モデル作成装置。
【請求項１０】
請求項９に記載した音響モデル作成装置において、
上記部分学習データ選択部は、上記学習用音声データの音声ファイルについて初期認識パラメータを用いて音声認識処理を行って上記音声ファイルのそれぞれの初期ラティス容量を計算する初期ラティス容量計算手段を備え、
上記初期ラティス容量の大きな音声ファイルを上記部分学習用音声データとして選択することを特徴とする音響モデル作成装置。
【請求項１１】
請求項１０に記載した音響モデル作成装置において、
上記初期ラティス容量計算手段は、上記初期認識パラメータを変更した第２認識パラメータを用いて第２ラティス容量を計算するものであり、
上記部分学習データ選択部は上記初期ラティス容量と上記第２ラティス容量の差分が大きな音声ファイルを上記部分学習用音声データとして選択することを特徴とする音響モデル作成装置。
【請求項１２】
請求項９に記載した音響モデル作成装置において、
上記部分学習データ選択部は、
上記学習用音声データの音声ファイルの音声データをフレーム毎に音声特徴量に変換する特徴量分析手段と、
上記音声特徴量を音響スコアと言語スコアから成る信頼度に変換し、その信頼度から音声ファイルごとの信頼度を当該ファイルのファイル長で正規化した信頼度スコアを計算する信頼度スコア計算手段を備え、
上記信頼度スコアの小さい音声ファイルを上記部分学習用音声データとして選択することを特徴とする音響モデル作成装置。
【請求項１３】
請求項９に記載した音響モデル作成装置において、
上記部分学習データ選択部は、
上記学習用音声データの音声ファイルの音声データをフレーム毎に音声特徴量に変換する特徴量分析手段と、
上記フレーム毎の音声特徴量に対するモノフォンＧＭＭから得られる出力確率とそのＧＭＭの属する状態の出現確率の積が最も高いものをモノフォン最尤値として求め、そのモノフォン最尤値の対数と、音声／ポーズ最尤値の対数との差を音声ファイル単位で平均化した高速事前信頼度スコアを計算する高速事前信頼度スコア計算手段を備え、
上記高速事前信頼度スコアの小さい音声ファイルを上記部分学習用音声データとして選択することを特徴とする音響モデル作成装置。
【請求項１４】
請求項９乃至１３の何れかに記載した音響モデル作成装置において、
上記言語モデル記憶部は、
上記学習用音声データベースから作成されたラティス作成用言語モデルを記憶したものであることを特徴とする音響モデル作成装置。
【請求項１５】
請求項１乃至８の何れかに記載した音響モデル作成方法をコンピュータに実行させるためのプログラム。

【図１】