説明

適応化音響モデル生成装置及びプログラム

【課題】第1タスクの音声で学習して生成された音響モデルを用いて該第1タスクとは異なる第2タスクの音声に適応化させた音響モデルを生成する適応化音響モデル生成装置及びプログラムを提供する。
【解決手段】本発明の適応化音響モデル生成装置(1)は、第1タスクの音響モデルと、第2タスクの音声の音声認識用の言語モデルとを用いて、第2タスクの音声について音声認識処理を実行し、認識結果としての仮説単語ラティスを生成する音声認識手段(21)と、仮説単語ラティスと第2タスクの音声用の書き起こしを用いて、第2タスクの音声中の発声変形の部分を特定し、該発声変形の単語専用の音素を生成する発声変形単語専用音素生成手段(22,23)と、発声変形の単語専用の音素を第1タスクの音響モデルに付加して学習し、タスク適応化音響モデルを生成するタスク適応化音響モデル生成手段(24,25,26)とを備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、各音素の音響特徴量の統計量を音響モデルとした音声認識に関し、特に、音響モデルの元々の学習音声とは異なる言い回しが多く含まれる認識対象(タスク)の音声の認識精度の向上を図るための適応化音響モデル生成装置及びプログラムに関する。
【背景技術】
【0002】
従来からの統計的な音響モデルを用いた音声認識では、学習音声から各音素に現れる音響特徴量の統計量を学習している。
【0003】
例えば、図11(a)に、従来からの音響モデル生成装置のブロック図を示す。従来からの音響モデル生成装置101は、学習音声入力部112を介して学習対象の音声(学習音声)を入力するとともに、書き起こし入力部111を介して当該学習音声に対応する書き起こしを入力し、適宜、データとして記憶部103に格納する。学習処理部102は、音響モデル学習部125と、学習後音響モデル生成部126とを有する。
【0004】
音響モデル学習部125は、入力される学習音声と書き起こしを用いて(又は記憶部103に格納された学習音声と書き起こしのデータを読み出して)、学習音声とその学習音声に対応する書き起こしの対からなる各音素に現れる音響特徴量の統計量を得るための学習データを生成し、学習後音響モデル生成部126に送出する。学習後音響モデル生成部126は、音響モデル学習部125によって学習した学習データを入力し、学習後の音響モデルを生成する。従って、音響モデル生成装置101によって、学習音声を所定の単位毎に音響特徴量の統計量で表した音響モデルを得ることができ、この音響モデルは、音素ごとに音素が発話されるときの音響特徴量の統計量を表すデータテーブルとして生成することができる。音響特徴量として、例えば、10ミリ秒ごとの間隔でそれぞれ開始する25ミリ秒のフレーム内の音声の周波数パワー分布を基にしたMFCC(メル周波数ケプストラム係数、Mel-Frequency Cepstrum Coefficient)を用いることができる。
【0005】
図11(b)に、従来からの音声認識装置のブロック図を示す。従来からの音声認識装置200は、前述の音響モデル生成装置101によって生成した音響モデルを用いて、入力音声の音声認識を実行する装置である。
【0006】
従来からの音声認識装置200は、音声入力部214を介して音声を入力するとともに、音響モデル入力部216を介して当該音響モデルを入力し、適宜、データとして記憶部203に格納する。認識処理部202は、主に、音声認識部220として構成され、音声認識部220は、入力音声と音響モデルを用いて(又は記憶部203に格納された入力音声と音響モデルのデータを読み出して)、音声認識処理を実行し、認識結果を生成する。尚、認識結果として、音声認識の結果を表すデータ以外に、認識仮説としてのデータ、即ち仮説単語ラティス上のアーク点ごとに、始点ノード、終点ノード、言語的単位、信頼度を表すデータ列を得ることができる。信頼度は、認識結果におけるそのアークの信頼度(言語モデル及び音響モデルを基にした統計的処理で得られる認識結果の信頼度)を表す数値で表される。
【0007】
ただし、音響モデルにおける音響特徴量の統計量は、タスクに依存している部分があり、音響モデルの学習音声とは異なるタスクの音声について音声認識を実行する場合は、十分な認識結果が得られない場合がある。ここで、「異なるタスク」とは、発話スタイルの異なる認識対象音声を云い、例えば、読み上げ音声が中心のニュース番組や、考えながらの自由発話が中心の対談番組などである。実際に、ニュース番組で学習した音響モデルで、対談番組の音声を認識しても十分な認識精度が得られていない。このようなタスクの認識精度の向上を図るために、比較的小規模な異なるタスクの音声を用いた音響モデルの適応化(更新)が行われる。
【0008】
一般的に、この適応化には、既存の音素の統計量を適応化する技法がとられ、音素誤り最小化基準(MPE)で識別学習した音響モデルの適応化では、DLT(Discriminative Linear Transforms)が有効であることが知られている(例えば、非特許文献1,2参照)。
【0009】
一方、上述の対談番組のような自由発話には、タスクに特有の発話スタイルに依存した「言い回し」があり、この言い回しには不明瞭な発声がみられることがよくある。この不明瞭な言い回しは「発声変形」と称され、従来、発声変形をモデリングするために、発声変形時の音声に最も近い音素列を発音辞書に併記する技法が提案されている(例えば、非特許文献3,4,5参照)。
【0010】
この発音辞書を用いた技法によれば、発声変形における音素の音響特徴量の統計量を学習する必要がないので、少量の学習音声で発声変形をモデリングすることができる。
【0011】
また、対談音声を学習したり認識したりする場合には、収録された音声における発話と発話との間に適切な無音区間がない場合があるため、性別や複数の話者などの発話環境毎に音声を分割することが難しい。このような音声の認識に、性別依存音響モデルを利用して、男女の話者の音声が混在する音声の認識精度の向上を図る男女並列音声認識が知られている(例えば、特許文献1参照)。
【先行技術文献】
【特許文献】
【0012】
【特許文献1】特開2007−233149号公報
【非特許文献】
【0013】
【非特許文献1】D. Povey, “Minimum phone error and I-smoothing for improved discriminative training”, in Proc. ICASSP, 2002年, pp. 105-108
【非特許文献2】L. Wang, P. C. Woodland, “MPE-based discriminative linear transforms for speaker adaptation”, Computer Speech and Language, 22, 2008年, pp. 256-272.
【非特許文献3】T. Imai, A. Ando, E. Miyasaka, “A new method for automatic generation of speaker-dependent phonological rules”, proc of ICASSP, 1995年, pp. 864-867
【非特許文献4】緒方淳、後藤真孝、“Confusion networkと語彙制約なし音声認識を用いた動的発音モデリング”、情報処理学会研究報告、No. 68, 2008年,pp. 7-12
【非特許文献5】Bahram V., Farshad A. Seyed M. A., “Hybrid statistical pronunciation models designed to be trained by a medium-size corpus”, Computer Speech and Language, No. 23, 2009年, pp. 1-24
【発明の概要】
【発明が解決しようとする課題】
【0014】
上述した発音辞書を用いた発声変形のモデリングでは、発声変形の部分の不明瞭な音響特徴量が隠れマルコフモデル(Hidden Markov Model、HMM)のパラメータに反映されない。そのため、発声変形の音素の特徴量が既存の音素と異なる特徴量分布を有する場合には対応できない。
【0015】
そこで、本発明の目的は、音響モデルの元々の学習音声とは異なる言い回しが多く含まれる認識対象(タスク)において、タスクに特有の発話スタイルに依存した言い回しに起こりやすい発声変形の部分の認識精度の向上を図る適応化音響モデル生成装置及びプログラムを提供することにある。
【課題を解決するための手段】
【0016】
本発明は、包括的には、音声認識タスクに特有の言い回しに起こりやすい発声変形を特定し、発声変形の部分用の音素を含む音響モデルを学習することで、認識精度の向上を図ることにある。より具体的には、タスクに依存する発声変形の部分の認識精度を高めるために、適応化対象の音声(以下、「タスク適応化音声」と称する)から、発声変形の部分を特定し、新たに発声変形の部分(単語)専用の音素(以下、「発声変形単語専用音素」と称する)を導入し、他の音素とは別に音響特徴量の統計量を識別学習する。
【0017】
即ち、本発明による適応化音響モデル生成装置は、第1タスクの音声で学習して生成された音響モデルを用いて該第1タスクとは異なる第2タスクの音声(タスク適応化音声)に適応化させた音響モデルを生成する適応化音響モデル生成装置であって、前記第1タスクの音響モデルと、前記第2タスクの音声の音声認識用の言語モデルを用いて、前記第2タスクの音声について音声認識処理を実行し、認識結果としての仮説単語ラティスを生成する音声認識手段と、前記仮説単語ラティスと前記第2タスクの音声用の書き起こし(タスク適応化音声書き起こし)を用いて、前記第2タスクの音声中の発声変形の部分を特定し、該発声変形の単語専用の音素を生成する発声変形単語専用音素生成手段と、前記発声変形の単語専用の音素(発声変形単語専用音素)を前記第1タスクの音響モデルに付加して、前記書き起こしと前記第2タスクの音声を用いて学習し、タスク別に識別された音素ごとに音素が発話されるときの音響特徴量の統計量を表すタスク適応化音響モデルを生成するタスク適応化音響モデル生成手段とを備えることを特徴とする。
【0018】
また、本発明による適応化音響モデル生成装置において、前記発声変形単語専用音素生成手段は、前記仮説単語ラティス中の単語の事後確率が所定の閾値以下の単語から、前記発声変形の部分を特定することを特徴とする。
【0019】
また、本発明による適応化音響モデル生成装置において、前記発声変形単語専用音素生成手段は、前記仮説単語ラティス中の単語の事後確率が所定の閾値以下の単語のうち、前記第2タスクの音声中の当該単語の出現頻度が所定の閾値以上の単語を前記発声変形の単語として特定することを特徴とする。
【0020】
また、本発明による適応化音響モデル生成装置において、前記発声変形単語専用音素生成手段は、前記仮説単語ラティス中の単語の事後確率が所定の閾値以下の単語のうち、前記第2タスクの音声中の当該単語の出現頻度が最高値から所定の順位までの範囲に含まれる単語を前記発声変形の単語として特定することを特徴とする。
【0021】
また、本発明による適応化音響モデル生成装置において、前記タスク適応化音響モデル生成手段は、前記発声変形の単語専用の音素と該単語専用の音素以外の音素とを識別学習して、前記タスク適応化音響モデルを生成することを特徴とする。
【0022】
また、本発明による適応化音響モデル生成装置において、前記第1タスクの音響モデルは、複数種類の環境依存音響モデルからなり、前記環境依存音響モデルの音素には、複数種類の環境依存音響モデルを識別するための識別子が付されており、前記音声認識手段は、前記複数種類の環境依存音響モデルを用いて複数の発話環境を並列に音声認識し、前記タスク適応化音響モデル生成手段は、前記複数種類の環境依存音響モデルを同時に学習して、前記複数種類の環境依存音響モデルを適応化した音響モデルをそれぞれ生成することを特徴とする。
【0023】
更に、本発明は、第1タスクの音声で学習して生成された音響モデルを用いて該第1タスクとは異なる第2タスクの音声に適応化させた音響モデルを生成する適応化音響モデル生成装置として構成するコンピュータに、前記第1タスクの音響モデルと、前記第2タスクの音声の音声認識用の言語モデルを用いて、前記第2タスクの音声について音声認識処理を実行し、認識結果としての仮説単語ラティスを生成するステップと、前記仮説単語ラティスと前記第2タスクの音声用の書き起こしを用いて、前記第2タスクの音声中の発声変形の部分を特定し、該発声変形の単語専用の音素を生成するステップと、前記発声変形の単語専用の音素を前記第1タスクの音響モデルに付加して、前記書き起こしと前記第2タスクの音声を用いて学習し、タスク別に識別された音素ごとに音素が発話されるときの音響特徴量の統計量を表すタスク適応化音響モデルを生成するステップと、を実行させるためのプログラムとしても特徴付けられる。
【発明の効果】
【0024】
本発明では、比較的小規模なタスク適応化音声から、発声変形が起こりやすい単語を特定することができ、予めタスク適応化音声とは異なるタスクの音声で学習された音響モデルに、発声変形の単語専用の新たな音素(発声変形単語専用音素)を与え、他の音素とは別に識別学習することで、効率よく新たなタスクに適応化した音響モデルを得ることができる。従って、既存の音素と異なる特徴量分布を有する発声変形を特定し、この発声変形の音素の音響特徴量の統計量を識別学習するため、既存の音響モデルを改善して異なるタスクを音声認識することができるようになる。
【図面の簡単な説明】
【0025】
【図1】本発明による実施例1の適応化音響モデル生成装置のブロック図である。
【図2】本発明による実施例1の適応化音響モデル生成装置の一つの動作例を表すフローチャートである。
【図3】タスク適応化音声の高頻度単語のリストを示す図である。
【図4】学習音声のリファレンスと認識結果の仮説単語ラティスの一部を例示する図である。
【図5】図3と同じタスク適応化音声から得られたリファレンス単語列に含まれる単語の集合Wの各単語の事後確率C(―)(h=r)を昇順に5位までについて示す図である。
【図6】事後確率C(―)(h=r)に基づいて特定した単語に、単語依存の識別子(ID)を後置した単語依存の音素(発声変形単語専用音素)を例示する図である。
【図7】発声変形の単語依存性を考慮した音素正解精度(Adisc)と、発声変形の単語依存性を考慮しない音素正解精度(Astd)について、繰り返しDLT学習を行った時の単語誤認識率(WER)の比較結果を示す図である。
【図8】本発明による実施例2の適応化音響モデル生成装置のブロック図である。
【図9】男女並列音声認識の概要を示す図である。
【図10】(a)は、MPE基準の識別学習に用いる発話環境を付与した学習音素のラベルを例示する図であり、(b)は、MPE基準の識別学習に用いる仮説ラティスを例示する図である。
【図11】(a)は、従来からの音響モデル生成装置を示すブロック図であり、(b)は、従来からの音声認識装置を示すブロック図である。
【発明を実施するための形態】
【0026】
以下、本発明による各実施例の適応化音響モデル生成装置を説明する。まず、実施例1の適応化音響モデル生成装置を説明する。
【実施例1】
【0027】
[装置構成]
図1に、本発明による実施例1の適応化音響モデル生成装置のブロック図を示す。実施例1の適応化音響モデル生成装置1は、音響モデルのタスク適応化を行い、新たなタスクに適応化した音響モデル(タスク適応化音響モデル)を生成する装置であり、より具体的には、学習音声の「タスク適応化音声」から特定した発声変形用の音素を、適応化対象の別タスクで学習された「音響モデル」に付加した上で当該音響モデルの識別学習を実行して適応化を行い、「タスク適応化音響モデル」を得る装置である。
【0028】
適応化音響モデル生成装置1は、タスク適応化音声入力部4と、言語モデル入力部5と、音響モデル入力部6と、タスク適応化音声書き起こし入力部7と、適応化処理部2と、記憶部3とを備える。適応化処理部2は、音声認識部21と、発声変形単語抽出部22と、発声変形単語専用音素生成部23と、発声変形単語専用音素入り音響モデル生成部24と、音響モデル識別学習部25と、学習後タスク適応化音響モデル生成部26とを備える。
【0029】
タスク適応化音声入力部4は、予め用意した音響モデル(例えば、図11(a)に示す音響モデル生成装置101の出力データ)の学習に用いた学習音声とは異なるタスクの音声(タスク適応化音声)を入力して適応化処理部2における音声認識部21及び音響モデル識別学習部25に送出する。タスク適応化音声のデータは、適応化処理部2によって、音声認識処理に用いるデータ形式で記憶部3に格納される。
【0030】
言語モデル入力部5は、タスク適応化音声の音声認識に用いる言語モデルを入力して適応化処理部2における音声認識部21に送出する。言語モデルのデータは、適応化処理部2によって、音声認識処理に用いるデータ形式で記憶部3に格納される。尚、言語モデルは、言語的単位である形態素の種類ごとに、形態素単位での出現確率を表すデータテーブルと、形態素どうしの組み合わせに関する各形態素間の接続確率を表すデータテーブルからなる。
【0031】
音響モデル入力部6は、予め用意した音響モデル(例えば、図11(a)に示す音響モデル生成装置101の出力データ)を入力して適応化処理部2における音声認識部21及び発声変形単語専用音素入り音響モデル生成部24に送出する。入力される音響モデルは、タスク適応化音声とは別のタスクの学習音声を所定の単位毎に音響特徴量の統計量で表した、即ち学習音素ごとに学習音素が発話されるときの音響特徴量の統計量を表すデータテーブルからなる。音響特徴量として、例えば、10ミリ秒ごとの間隔でそれぞれ開始する25ミリ秒のフレーム内の音声の周波数パワー分布を基にしたMFCC(メル周波数ケプストラム係数、Mel-Frequency Cepstrum Coefficient)を用いることができる。
【0032】
音声認識部21は、言語モデル入力部5を介して入力される言語モデルと音響モデル入力部6を介して入力される音響モデルとを用いて(又は記憶部3から読み出した言語モデルと音響モデルのデータを用いて)、タスク適応化音声入力部4から入力される(又は記憶部3から読み出される)タスク適応化音声について音声認識処理を実行し、認識結果としての仮説単語ラティスを発声変形単語抽出部22に送出する(又は記憶部3に格納する)。仮説単語ラティスは、ラティス上のアーク点ごとに、始点ノード、終点ノード、言語的単位、信頼度を表すデータ列のテーブルで表すことができ、記憶部3に格納することができる。
【0033】
タスク適応化音声書き起こし入力部7は、タスク適応化音声に対応する書き起こし(以下、「タスク適応化音声書き起こし」と称する)を入力して適応化処理部2における発声変形単語抽出部22及び音響モデル識別学習部25に送出する。タスク適応化音声書き起こしのデータは、適応化処理部2によって、音響モデル識別学習処理に用いるデータ形式で記憶部3に格納される。
【0034】
発声変形単語抽出部22は、音声認識部21から得られる認識結果の仮説単語ラティスを入力して(又は記憶部3から仮説単語ラティスのデータを読み出して)、タスク適応化音声書き起こし入力部7を介して得られるタスク適応化音声書き起こしを用いてタスク適応化音声中の発声変形の部分のデータ(以下、「発声変形単語」と称する)を抽出し、抽出した発声変形単語を発声変形単語専用音素生成部23に送出する。
【0035】
発声変形単語専用音素生成部23は、発声変形単語抽出部22から得られる発声変形単語から発声変形単語専用の音素(発声変形単語専用音素)を生成して、発声変形単語専用音素のデータとして発声変形単語専用音素入り音響モデル生成部24に送出する。発声変形単語及び発声変形単語専用音素の抽出及び生成についての詳細は後述する。
【0036】
発声変形単語専用音素入り音響モデル生成部24は、発声変形単語専用音素生成部23から得られる発声変形単語専用音素のデータを、音響モデル入力部6を介して得られる音響モデルにおける音素のデータに付加して、「発声変形単語専用音素入り音響モデル」として音響モデル識別学習部25に送出する。
【0037】
音響モデル識別学習部25は、発声変形単語専用音素入り音響モデル生成部24から得られる「発声変形単語専用音素入り音響モデル」について、タスク適応化音声書き起こし入力部7を介して得られる「タスク適応化音声書き起こし」と、タスク適応化音声入力部4を介して得られる「タスク適応化音声」とを用いて識別学習を実行し、タスク適応化音声とそのタスク適応化音声に対応する書き起こしの対からなる各音素に現れる音響特徴量の統計量を得るための学習データを生成して学習後タスク適応化音響モデル生成部26に送出する。
【0038】
学習後タスク適応化音響モデル生成部26は、音響モデル識別学習部25から得られる学習データから、識別学習後の音響モデル(タスク適応化音響モデル)を生成する。従って、このタスク適応化音響モデルは、タスク別に識別された音素ごとに音素が発話されるときの音響特徴量の統計量を表すデータテーブルとして生成することができる。
【0039】
これにより、適応化音響モデル生成装置1によって識別学習して新たに生成されたタスク適応化音響モデルは、図11(b)に示した従来からの音声認識装置200に適用することができ、この場合に音声認識装置200によって音響モデルの学習音声とは異なるタスクのタスク適応化音声の音声認識を実行すると、従来よりも認識精度を改善することができる。
【0040】
例えば、適応化音響モデル生成装置1は、タスク適応化音声入力部4における「音響モデルの学習音声としてのタスク適応化音声」に「ニュース番組の音声」を用いて、別のタスクとして「対談番組」の音声で学習して生成された「音響モデル」について学習することができ、このタスク適応化音響モデルを用いて、ニュース番組とは発話スタイルの異なる特定の対談番組の音声を音声認識すると、当該対談番組の認識精度を改善することができる。
【0041】
この場合、300時間程度のニュース番組の音声で別タスクの音響モデルを学習して適応化するのに、30時間程度の当該対談番組の過去の放送分の音声をタスク適応化音声として利用することができることが確認された。認識精度の改善についての詳細は後述する。
【0042】
以下、実施例1の適応化音響モデル生成装置の動作について、更に詳細に説明する。
【0043】
[装置動作]
図2は、本発明による実施例1の適応化音響モデル生成装置の一つの動作例を表すフローチャートである。
【0044】
ステップS1にて、タスク適応化音声入力部4、言語モデル入力部5、音響モデル入力部6、及びタスク適応化音声書き起こし入力部7を介して、異なるタスクの音声(タスク適応化音声)、音声認識に用いる言語モデル、タスク適応化音声とは異なるタスクの音声で学習された予め用意した音響モデル、タスク適応化音声に対応する書き起こしを入力して、それぞれ音声認識処理及び音響モデル学習処理に用いるデータ形式で記憶部3に格納される。
【0045】
ステップS2にて、音声認識部21によって、記憶部3に格納された言語モデルと音響モデルのデータを読み出して、タスク適応化音声入力部4から入力されるタスク適応化音声について音声認識処理を実行し、認識結果としての仮説単語ラティスのデータを生成する(ステップS3)。
【0046】
ステップS4にて、発声変形単語抽出部22によって、記憶部3から読み出されるタスク適応化音声書き起こしと仮説単語ラティスを用いて、タスク適応化音声中の発声変形の部分のデータである「発声変形単語」を抽出する。即ち、タスク適応化音声を音声認識した結果として得られる仮説単語のラティス(仮説単語ラティス)を用いて、タスク適応化音声から発声変形の部分を特定する。
【0047】
ステップS5にて、発声変形単語専用音素生成部23によって、発声変形単語抽出部22から得られる発声変形単語から発声変形単語専用の音素を生成して、発声変形単語専用音素のデータを生成する。
【0048】
ステップS6にて、発声変形単語専用音素入り音響モデル生成部24によって、発声変形単語専用音素生成部23から得られる発声変形単語専用音素のデータを、音響モデル入力部6を介して得られる音響モデルにおける音素のデータに付加して、「発声変形単語専用音素入り音響モデル」を生成する。
【0049】
即ち、発声変形用の音素を特定するためには、発声変形の単語依存性を利用することができる。発声変形単語の特定には、「音響モデル」と「言語モデル」を用いて「タスク適応化音声」を音声認識することで得られる「仮説単語ラティス」を用いる。この仮説単語の事後確率に基づいて「発声変形単語」を特定し、この発声変形単語に依存する発声変形単語専用音素を「音響モデル」に付加して適応化する。この動作の詳細は後述する。
【0050】
ステップS7にて、音響モデル識別学習部25によって、「タスク適応化音声書き起こし」と「タスク適応化音声」を用いて、発声変形単語専用音素入り音響モデル生成部24から得られる「発声変形単語専用音素入り音響モデル」の識別学習を実行し、各音素に現れる音響特徴量の統計量を得るための学習データを生成する。
【0051】
この発声変形単語専用音素をその他の音素とは別に統計量を識別的に学習して適応化することにより、単語に依存する発声変形の統計量を識別学習することができる。
【0052】
また、識別学習による適応化には、音素誤り最小化基準(MPE基準)に基づいて音響モデルのパラメータを線形変換する技法が有効である(例えば、非特許文献2参照)。特に、MPE基準の識別学習では、認識結果から得られる音素ラティスの各枝の事後確率を算出し、音素の認識誤りの期待値が小さくなるように音響モデルのパラメータを推定するように動作するので、MPE基準で推定した音響モデルを適応化の元モデルとして用いる場合に有効である。MPE基準の学習に必要なデータは、学習音声と、その音声に対応する正解音素系列(認識結果)、及び音素の仮説単語ラティスである。
【0053】
ステップS8にて、学習後タスク適応化音響モデル生成部26によって、音響モデル識別学習部25から得られる学習データから、タスク別に識別された音素ごとに音素が発話されるときの音響特徴量の統計量を表すタスク適応化音響モデルのデータテーブルを生成し、外部に送出するか、又は記憶部3に保持する。
【0054】
ここで、仮説単語ラティスから発声変形単語を特定する処理について説明する。
【0055】
認識仮説は、ラティス上のアーク点ごとに、始点ノード、終点ノード、言語的単位、信頼度を表すデータ列のテーブルで表すことができ、図解的にグラフで表すこともできる(図4を参照して後述する)。丸印がノードに相当し、ノード間を結ぶ矢印付き線がアークに相当する。言語的単位は、個別のアークに対応する形態素である。信頼度は、認識結果におけるそのアークの信頼度(言語モデル及び音響モデルを基にした統計的処理で得られる認識結果の信頼度)を表す数値で表される。
【0056】
以下、前向き後ろ向き確率について説明する。認識結果から得られる形態素mのスコアL(m)を基に、事後確率を算出する。ここで、L(m)としては、音響モデルの尤度、言語モデルの尤度、或いはこれらの積を用いる。まず、形態素mの前向き確率α(m)と後ろ向き確率β(m)とを以下の式(1)〜式(5)のように定義する。
【0057】
【数1】

【0058】
【数2】

【0059】
【数3】

【0060】
【数4】

【0061】
【数5】

【0062】
事後確率を計算するため、ここではラティスの両端に、それぞれ始端単語と終端単語に相当するアークを付加する。始端単語は、ラティスの左端に付加され、式(1)における「b」で表される。終端単語は、ラティスの右端に付加され、式(2)における「e」で表される。ここで、前向きとは、始端から終端の方向であり、後ろ向きとは、終端から始端の方向である。LEFT(m)は、形態素(m)に対して左から(つまり始端側から)接続する形態素の集合である。また、RIGHT(m)は、形態素(m)に対して右から(つまり終端側から)接続する形態素の集合である。
【0063】
式(1)に表すように、始端単語(b)の前向き確率は1.0である。また、式(2)に表すように、終端単語(e)の後ろ向き確率は1.0である。
【0064】
式(3)に表すように、形態素mの前向き確率は、形態素mに左から接続する各形態素m’の前向き確率α(m’)に当該形態素mのスコアL(m)を乗じた値の、左から接続する全ての形態素についての総和である。このように前向き確率は再帰的な定義となっているが、始端単語から前向きに順次計算していくことにより、ラティス中の全ての形態素の前向き確率を算出することができる。
【0065】
式(4)に表すように、形態素mの後ろ向き確率は、形態素mに右から接続する各形態素m’の後ろ向き確率β(m’)に当該形態素mのスコアL(m)を乗じた値の、右から接続する全ての形態素についての総和である。このように後ろ向き確率は再帰的な定義となっているが、終端単語から後ろ向きに順次計算していくことにより、ラティス中の全ての形態素の後ろ向き確率を算出することができる。
【0066】
式(5)に表すように、終端単語の前向き確率および始端単語の後ろ向き確率をZとする。
【0067】
形態素mの事後確率γ(m)は、α、β、Zを用いて、式(6)により算出することができる。
【0068】
【数6】

【0069】
さらに、男女などの話者ラベルを利用することで、話者に依存した発声変形を特定することができ、話者特有の言い回しに起こる発声変形部分の認識精度を改善することができる。尚、男女並列音声認識への応用については、実施例2で詳細に説明する。
【0070】
実施例1においても、話者特有の発声変形を特定するために、単語の話者ラベル(“M_”:男声、“F_”:女声)を用いて男声用の音響モデルと女声用の音響モデルを識別的に学習して適応化する。この単語の話者ラベルには、性別だけでなく特定の話者とすることもできる。
【0071】
以下、形態素mの事後確率γ(m)について、仮説単語ラティスにおける時刻情報t〜tにおけるi〜mの各リンクにおける単語w〜wと事後確率p〜pとして、図4を参照して新たに符号を付して説明する。まず、タスク特有の言い回しに含まれる発声変形単語を特定するため、タスク適応化音声中の出現頻度が高い単語を選択する。本実施例では、出現回数の下限値Nを用いて、タスク適応化音声のリファレンス単語列(タスク適応化音声の書き起こしテキスト)から、単語の集合W={w∈W:N(w)≧N}を選ぶ。ここで、Wは、リファレンス単語列に含まれる単語の集合であり、N(w)は、単語wの出現回数である。
【0072】
参考として、図3は、タスク適応化音声の高頻度単語のリストを示す図であり、2007年5月から2008年12月にかけて放送されたNHKの報道系情報番組“クローズアップ現代”248回分(31時間分)の音声の書き起こしから得られた結果を示す。つまり、対談番組“クローズアップ現代”のタスク適応化音声から得られた高頻度単語のリストである。このリストからはタスク依存性が見られず、発声変形の抽出ができないので、本実施例では、このWから発声変形が起こりやすい単語を特定する。
【0073】
発声変形が起こっている単語では、その標準的な音素列に対する尤度の低下が予測される。この尤度の低下について、タスク適応化音声を認識した結果として得られる仮説単語ラティスの事後確率を用いて評価する。図4に、リファレンス単語列と仮説単語ラティスの一部を図示する。図中の各ノード(図4中の丸印)は、時刻情報を表しており、時刻情報t〜tにおけるi〜mの各リンクは、単語w〜wと事後確率p〜pの情報を有している。ここで、仮説単語ラティス中の単語もリファレンス単語列と同様に話者ラベル(“M_”:男声、“F_”:女声)を有しており、後述する男女並列音声認識を用いることで、話者ラベル付きの仮説単語ラティスを得ることができる。ここで、Lをリファレンス単語のリンクの集合、Lを仮説単語のリンクの集合とすると、リンクj∈Lの事後確率を占有重み付き事後確率として次式により定義する。
【0074】
【数7】

【0075】
ここで、T(i)は、リンクiの占有フレーム数、T(j)は、リンクiとリンクjのオーバーラップ部分のフレーム数である。図4の例では、T(i)=T,T(j)=t,T(m)=tである。
【0076】
次に、タスク適応化音声全体で、リファレンス単語rの占有部分における仮説単語hの累積事後確率を次式によって求める。
【0077】
【数8】

【0078】
最後に、仮説単語ラティスにある単語の集合Wを用いて正規化するために、単語j∈Wの占有部分における、単語h∈Wの周辺化事後確率C(―)(h)を次式から求める。
【0079】
【数9】

【0080】
ここで、C(―)(h=r)は、単語rの部分を正しく認識できた事後確率を表す。本実施例では、この事後確率C(―)(h=r)が小さい単語W={w∈W:C(―)(w)≦C}(Cは、発声変形単語を選択するための閾値)は、発声変形が起こっている可能性が高いとして、新たに単語依存の音素モデルを与える。
【0081】
図5に、図3と同じタスク適応化音声から得られたWの各単語の事後確率C(―)(h=r)を昇順に5位までについて示す。図5では、図3に示された単語とは異なり、対談特有の単語が上位に見られることが分かる。
【0082】
つまり、発声変形単語抽出部22は、仮説単語ラティス中の単語の事後確率が所定の閾値以下の単語から、発声変形の部分を特定する。
【0083】
更に、発声変形単語抽出部22は、仮説単語ラティス中の単語の事後確率が所定の閾値以下の単語のうち、第2タスクの音声中の当該単語の出現頻度が所定の閾値以上の単語を発声変形の単語として特定し、及び/又は、仮説単語ラティス中の単語の事後確率が所定の閾値以下の単語のうち、第2タスクの音声中の当該単語の出現頻度が最高値から所定の順位までの範囲に含まれる単語を発声変形の単語として特定するのが好適である。
【0084】
本実施例によれば、事後確率C(―)(h=r)に基づいて特定した単語に、図6に示すように、単語依存の識別子(ID)を後置した単語依存の音素(発声変形単語専用音素)を新たに導入するので、別タスクの音響モデルを適応化することができる。また、実施例2で説明するように、男女音声が混在した音声を用いて男女の音響モデルを同時に適応化することもできる。
【0085】
MPE基準では、仮説の音素正解精度A(s,s)を定義し、次式の目的関数を最大化する(例えば、非特許文献1参照)。
【0086】
【数10】

【0087】
ここで、Xは学習音声、sはリファレンス単語の音素列、sは仮説単語の音素列、Λは音響モデルのモデルパラメータである。
【0088】
一般的に、音素正解精度A(s,s)の算出には、Λに環境依存音素を用いている場合でも中心音素を用いる。これは、中心音素が同じで特徴量分布の重なりが大きい音響モデルを識別的に学習しても良好な結果を得られないためである。
【0089】
一方、本実施例のように導入した図6のような発声変形単語専用音素は、発声変形により標準音素と異なる特徴量分布を有しているため、発声変形の音素とその他の音素とを識別的に学習することができる。音素正解精度A(s,s)の算出時に、単語依存音素(発声変形単語専用音素)を独立して扱うことで、他の中心音素だけでなく発声変形していない同一音素についても識別的に学習することができる。更に、このような発声変形であると定義された単語の部分の音素誤りは、単語固有の音素であるため“単語誤り”と等価に扱うことができるようになる。このため、音素誤り最小化基準(MPE基準)の中で、部分的に単語誤り最小化基準でモデルパラメータを最適化することができる。
【0090】
例えば、発声変形の単語依存性を考慮した音素正解精度(Adisc)と、発声変形の単語依存性を考慮しない音素正解精度(Astd)について、繰り返しDLT学習を行った時の単語誤認識率(WER)の比較結果を図7に示す。発声変形の単語依存性を考慮した音素正解精度(Adisc)と、発声変形の単語依存性を考慮しない音素正解精度(Astd)はいずれもベースラインよりも優れたWERが得られ、繰り返し回数4回以上で、発声変形の単語依存性を考慮した音素正解精度(Adisc)は、発声変形の単語依存性を考慮しない音素正解精度(Astd)よりも更に改善することが分かった。これは、本実施例において特定した発声変形の単語の音素を識別的に学習できていることを意味している。
【0091】
このように、仮説単語のラティス(仮説単語ラティス)の前向き後ろ向き確率計算(動的計画法の一種であるForward‐Backwardアルゴリズム)から求められる仮説単語の事後確率を用いて、発声変形の部分を特定することができ、例えば、正解単語の事後確率が小さい部分を発声変形の部分として特定することができる。
【0092】
また、発声変形の部分の特徴量の統計量を得るためと、頻度の高い発声変形の認識精度の改善のために、タスク適応化音声中の単語の出現頻度と当該単語の事後確率の期待値を併用して発声変形単語を特定するのが好適である。
【0093】
また、通常の識別学習では、同一音素であれば音素環境が異なっていても音素誤りとは認識されないので、このような発声変形単語の音素を識別的に学習していない。そこで、本実施例では、発声変形の部分の統計量を変形のないその他の音素の統計量とは別に学習するために、発声変形単語専用音素を新たに当該音響モデルに与えてタスク適応化音声における発声変形の統計量を識別学習するようにしたので、発声変形単語専用音素を他の音素とは全く異なる音素として識別的に学習することができる。これにより、タスク適応化音響モデルを生成して、音響的特徴が異なる発声変形の部分の認識精度の向上を図ることができる。
【0094】
次に、本発明による実施例2の適応化音響モデル生成装置を説明する。
【実施例2】
【0095】
[装置構成]
図8に、本発明による実施例2の適応化音響モデル生成装置のブロック図を示す。実施例2の適応化音響モデル生成装置11は、実施例1の適応化音響モデル生成装置1の動作及び利点を全て包含するものであり、2種類の環境依存音響モデルを同時に学習する装置として応用した例である。同様な構成要素には同一の参照番号を付して説明する。
【0096】
実施例2の適応化音響モデル生成装置11は、タスク適応化音声入力部4と、言語モデル入力部5と、音響モデル入力部6と、ユーザインターフェース部8と、適応化処理部210と、記憶部3とを備える。適応化処理部210は、発話環境並列音声認識部211と、認識誤り修正部212と、識別子付き書き起こし部213と、発声変形単語抽出部221と、発声変形単語専用音素生成部231と、発声変形単語専用音素入り音響モデル生成部241と、音響モデル識別学習部245と、学習後環境依存音響モデル生成部246とを備える。実施例2の適応化音響モデル生成装置11の動作は、図2に説明した実施例1の動作と同様であり、実施例1と相違する点について詳細に説明する。
【0097】
音響モデル入力部6は、音響モデル(例えば、図11(a)に示す音響モデル生成装置101の出力データ)に、それぞれ男女などの話者ラベルを付した複数種類の音響モデル、例えば第1環境依存音響モデル(例えば、男声の音響モデル)と第2環境依存音響モデル(例えば、女声の音響モデル)を入力して適応化処理部210における発話環境並列音声認識部211及び発声変形単語専用音素入り音響モデル生成部241に送出する。第1環境依存音響モデル及び第2環境依存音響モデルは、学習音声を所定の単位毎に音響特徴量の統計量で表した、即ち識別子付き音素ごとに音素が発話されるときの音響特徴量の統計量を表すデータテーブルからなる。
【0098】
ユーザインターフェース部8は、発話環境並列音声認識部26の識別結果を随意に修正するために、認識誤り修正部27に修正情報を供給するインターフェースである。
【0099】
発話環境並列音声認識部211は、例えば男女並列音声認識などの複数の発話環境を並列に音声認識する機能を有し、音響モデル入力部6を介して供給される複数種類の環境依存音響モデルを用いて、タスク適応化音声入力部4を介して供給される複数の発話環境が混在するタスク適応化音声の学習音声について、該タスク適応化音声の各音素ラベルに当該発話環境識別子を付した状態で並列に音声認識を実行する(後述する図9)。認識結果におけるそれぞれの単語の発話環境(例えば、話者毎の性別)の発話環境識別子(例えば、男女別の識別子)を各音素に自動的に付与するため、後述する図10に示すように、発話環境並列音声認識部211からは、識別子付きの認識結果が得られるとともに、識別子付きの仮説ラティスが得られる。識別子付きの仮説ラティスは、識別学習に用いる際に、発話環境の識別誤りをより減少させることができる。
【0100】
発声変形単語抽出部221、発声変形単語専用音素生成部231、及び発声変形単語専用音素入り音響モデル生成部241は、それぞれ実施例1における発声変形単語抽出部22、発声変形単語専用音素生成部23、及び発声変形単語専用音素入り音響モデル生成部24に対応する。
【0101】
認識誤り修正部212は、ユーザインターフェース部23から供給される修正情報によって必要に応じて、発話環境並列音声認識部211の識別結果を随意に修正し、修正した識別子付き認識結果を識別子付き書き起こし部213に供給する。
【0102】
識別子付き書き起こし部213は、認識誤り修正部212から供給される(修正した)識別子付き認識結果に基づいて、当該生成した認識結果に発話環境識別子を付した状態で書き起こしを作成する。
【0103】
つまり、実施例1の適応化音響モデル生成装置1では、書き起こしを別途入力する態様について説明したが、実施例2の適応化音響モデル生成装置11では、発話環境並列音声認識部211の識別子付きの識別結果(随意に修正可能)に基づいて、当該生成した認識結果に発話環境識別子を付した状態で書き起こしを作成する。
【0104】
従って、実施例2の適応化音響モデル生成装置11の音響モデル識別学習部245は、タスク適応化音声入力部4を介して供給されるタスク適応化音声と、識別子付き書き起こし部213を介して供給される識別子付き書き起こしを用いて、音響モデル入力部6からの環境依存の識別子付き音響モデルを識別学習する。
【0105】
学習後環境依存音響モデル生成部246は、音響モデル識別学習部245から得られる発話環境毎の学習後の識別子付き音響モデルに対して、発話環境識別子を除去し、学習後の当該複数の発話環境依存音響モデルを生成する。例えば、学習後の第1環境依存タスク適応化音響モデル、第2環境依存タスク適応化音響モデルを生成して送出する。この生成した学習後の発話環境依存のタスク適応化音響モデルは、記憶部3に記憶することもできる。
【0106】
以下、男女並列音声認識について説明する。
【0107】
[男女並列音声認識]
図9に、対談音声などのように、一つの発話区間に複数の話者の音声が混在する場合に有効な男女並列音声認識の概要を示す。男女並列音声認識では、男女の性別依存音響モデルにリンクした単語発音辞書の音素ネットワークを並列化し、単語境界での性別属性の入れ替えを許容して探索を行う。
【0108】
発話環境並列音声認識部(男女並列音声認識部)211は、発話検出・性別変更制御部211aを有する。発話検出・性別変更制御部211aは、認識開始すると、男女間遷移が可能で枝刈りも共通の男女並列音素認識を行い、累積音素尤度を利用して発話の始端と終端を迅速に検出し、その結果に基づいて話者属性交代時刻を同定する。
【0109】
この発話の終始端と話者属性の交替時刻を用いて、図10に示すように、男女間遷移が可能で枝刈りも共通の男女並列大語彙連続音声認識を行い、累積音響尤度を利用して認識結果の単語列を出力する。
【0110】
具体的には、音声認識を開始すると(S12)、入力音声の特徴ベクトルをケプストラムと短時間パワー及びそれらの動的特徴量として、様々な音響環境の男性話者音声から学習した音素環境依存音響モデル(トライフォン)と、同様に学習した女性の音響モデルから、単語バイグラムを利用して、図9に示すような単語を構成する音素ネットワークを構成する。ここで、女性用の発話環境音響モデルの音素ネットワークにおいて、発話始端及び発話終端の時刻を利用して、無音(S13a,S15a)の間に単語バイグラム(S14a)を構築し、男性用の発話環境音響モデルの音素ネットワークにおいて、発話始端及び発話終端の時刻を利用して、無音(S13b,S15b)の間に単語バイグラム(S14b)を構築して、男女間遷移を可能にして、音声認識結果を出力する(S16)。
【0111】
また、発話環境並列音声認識部(男女並列音声認識部)211によれば、認識結果(仮説)の各単語に属性情報が付与することもできる。
【0112】
一方、元々の音響モデルの音素には発話環境識別子を音素ラベルに付すようにしたため、最尤単語仮説系列と、それぞれの単語がいずれの音素ネットワークを通って認識されたかを示す話者属性とを得ることができるだけでなく、枝刈りされずに残った探索パスを識別子付きラティスとして得ることもできる。この識別子付きラティスを音響モデルの識別学習に用いる。発話環境(話者)依存音響モデルを学習するには、大量のデータで学習した不特定話者の音響モデルを適応化するのが有効である。
【0113】
実施例2の適応化音響モデル生成装置11は、音響モデルの学習に用いる音声データの音素ラベルに発話環境の識別子を与え、各音素の音響モデルにも同様の発話環境識別子を与えるとともに、各音素の音響モデルにも同一の発話環境識別子を与え、複数の発話環境が混在する音声セグメントから、複数の発話環境に対応する音響モデルを同時に学習するとともに、発声変形を識別的に学習することができる。
【0114】
また、実施例2の適応化音響モデル生成装置11は、発話環境識別子が与えられた音響モデルを作成するにあたって、複数の発話環境依存音響モデルを、発話環境識別子を用いてマージ(統合)して作成しているため、この音響モデルを用いて一度に(一括して)複数の音響モデルを学習することができる。
【0115】
また、実施例2の適応化音響モデル生成装置11は、発話環境の識別子として、男女又は話者別の識別子を与えるとともに、必要であれば男女並列音声認識の認識結果を修正し、学習音声の音素ラベルを作成するため、学習音声に対応する正解音素系列の正解精度の判別も容易になる。
【0116】
実施例2の適応化音響モデル生成装置11は、発話環境識別子を用いた音響モデルの学習にこのような識別学習を導入するには、認識誤りを含む認識仮説のラティスを利用するのが好適である。男女並列音声認識のような複数の音響モデルから得られる仮説を同時に一括して探索してラティスを取得して仮説単語ラティスを生成することができる。このラティス上の各音素にも発話環境識別子を与えて仮説単語ラティスを生成するために、発話環境が異なる音素の認識誤りをモデルの誤りとして識別することができ、発話環境の認識誤りが少なくなるように音響モデルの統計量を学習することができる。
【0117】
図10(a)に、MPE基準の識別学習に用いる発話環境を付与した学習音素のラベルを示し、図10(b)に、MPE基準の識別学習に用いる仮説ラティスの例を示す。本実施例によれば、MPE基準の識別学習時に、音素誤りに男女の識別誤りも考慮して識別学習することができる。図10(b)のラティスの枝の上部に発話環境を考慮した学習音素を、ラティスの枝の下部に各枝の音素の正解精度を示している。
【0118】
識別学習では、この音素正解精度が1.0である枝は、尤度が高くなるように学習し、正解精度が0.0もしくは−1.0の音素では尤度が低くなるように学習する例である。例えば、音素の正解精度として音素の置換及び削除の誤りを評価するときには、音素正解精度を0.0〜1.0の値をとり、音素の正解精度として更に音素の挿入誤りを評価するときには、音素正解精度を−1.0〜1.0の値をとるように学習する。
【0119】
例えば、図10(b)の例では、“F_m,F_a, F_s, F_u, F_sp”と“M_t,M_a, M_d, M_a”のパスは音素の誤りではないが、男女の性別を誤っているため、音素正解精度は、0.0が与えられ、即ち、観測される特徴量を表す特徴ベクトルに対して尤度が低くなるように学習する。このようにして、男女の音素の識別能力の高い音響モデルを学習することができる。
【0120】
従って、この学習済みの音響モデルを用いて発声変形を特定すれば、例えば、発話環境依存音響モデルを個別に学習せずとも一括して複数種の音響モデルを識別学習することができ、且つ学習結果としての学習後発話環境依存音響モデルのモデル精度を高めることができる。これは、発話環境依存音響モデルの幅の拡張を容易にするという効果を更に生じさせるとともに、複数の話者が混在する音声認識に対しても発話環境の識別誤りに起因する認識誤りを削減して、精度よく話者を識別して音声認識することができるようになる。
【0121】
実施例1と同様に、実施例2の適応化音響モデル生成装置11によれば、MPE基準に基づいて推定したDLTを導入して音響モデルを適応化する場合、男女別の複数種類の音素クラスに対して単語誤認識率(WER)を改善する。
【0122】
また、本発明の一態様として、適応化音響モデル生成装置1,11をコンピュータとして構成することができ、適応化処理部の機能を実現させるためのプログラムは、各コンピュータの内部又は外部に備えられる記憶部3に記憶される。また、各制御に用いる情報及びデータは、この記憶部3に記憶しておくことができる。このような記憶部3は、外付けハードディスクなどの外部記憶装置、或いはROM又はRAMなどの内部記憶装置で実現することができる。プログラムを実行する適応化処理部は、中央演算処理装置(CPU)などで実現することができる。即ち、CPUが、各構成要素の機能を実現するための処理内容が記述されたプログラムを、適宜、記憶部3から読み込んで、コンピュータ上で各装置を実現することができる。ここで、いずれかの手段の機能をハードウェアの一部で実現しても良い。
【0123】
上述した実施例において、適応化音響モデル生成装置1,11の機能を実現するための処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくこともできる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録装置、半導体メモリ等どのようなものでもよい。
【0124】
上述の実施例の適応化音響モデル生成装置1,11は、代表的な例として説明したが、本発明の趣旨及び範囲内で、多くの変更及び置換ができることは当業者に明らかである。従って、本発明は、上述の実施例によって制限するものと解するべきではなく、特許請求の範囲によってのみ制限される。
【産業上の利用可能性】
【0125】
本発明によれば、異なるタスクの音声で精度よく識別学習した音響モデルが得られるので、タスクの異なる音声認識の用途に有用である。
【符号の説明】
【0126】
1 適応化音響モデル生成装置
2 適応化処理部
3 記憶部
4 タスク適応化音声入力部
5 言語モデル入力部
6 音響モデル入力部
7 タスク適応化音声書き起こし入力部
8 ユーザインターフェース部
11 適応化音響モデル生成装置
21 音声認識部
22 発声変形単語抽出部
23 発声変形単語専用音素生成部
24 発声変形単語専用音素入り音響モデル生成部
25 音響モデル識別学習部
26 学習後タスク適応化音響モデル生成部
101 音響モデル生成装置
102 学習処理部
103 記憶部
111 書き起こし入力部
112 学習音声入力部
125 音響モデル学習部
126 学習後音響モデル生成部
200 音声認識装置
202 認識処理部
203 記憶部
210 適応化処理部
211 発話環境並列音声認識部
212 認識誤り修正部
213 識別子付き書き起こし部
214 音声入力部
216 音響モデル入力部
220 音声認識部
221 発声変形単語抽出部
231 発声変形単語専用音素生成部
241 発声変形単語専用音素入り音響モデル生成部
245 音響モデル識別学習部
246 学習後環境依存音響モデル生成部


【特許請求の範囲】
【請求項1】
第1タスクの音声で学習して生成された音響モデルを用いて該第1タスクとは異なる第2タスクの音声に適応化させた音響モデルを生成する適応化音響モデル生成装置であって、
前記第1タスクの音響モデルと、前記第2タスクの音声の音声認識用の言語モデルを用いて、前記第2タスクの音声について音声認識処理を実行し、認識結果としての仮説単語ラティスを生成する音声認識手段と、
前記仮説単語ラティスと前記第2タスクの音声用の書き起こしを用いて、前記第2タスクの音声中の発声変形の部分を特定し、該発声変形の単語専用の音素を生成する発声変形単語専用音素生成手段と、
前記発声変形の単語専用の音素を前記第1タスクの音響モデルに付加して、前記書き起こしと前記第2タスクの音声を用いて学習し、タスク別に識別された音素ごとに音素が発話されるときの音響特徴量の統計量を表すタスク適応化音響モデルを生成するタスク適応化音響モデル生成手段と、
を備えることを特徴とする適応化音響モデル生成装置。
【請求項2】
前記発声変形単語専用音素生成手段は、前記仮説単語ラティス中の単語の事後確率が所定の閾値以下の単語から、前記発声変形の部分を特定することを特徴とする、請求項1の適応化音響モデル生成装置。
【請求項3】
前記発声変形単語専用音素生成手段は、前記仮説単語ラティス中の単語の事後確率が所定の閾値以下の単語のうち、前記第2タスクの音声中の当該単語の出現頻度が所定の閾値以上の単語を前記発声変形の単語として特定することを特徴とする、請求項2の適応化音響モデル生成装置。
【請求項4】
前記発声変形単語専用音素生成手段は、前記仮説単語ラティス中の単語の事後確率が所定の閾値以下の単語のうち、前記第2タスクの音声中の当該単語の出現頻度が最高値から所定の順位までの範囲に含まれる単語を前記発声変形の単語として特定することを特徴とする、請求項2又は3に記載の適応化音響モデル生成装置。
【請求項5】
前記タスク適応化音響モデル生成手段は、前記発声変形の単語専用の音素と該単語専用の音素以外の音素とを識別学習して、前記タスク適応化音響モデルを生成することを特徴とする、請求項1〜4のいずれか一項に記載の適応化音響モデル生成装置。
【請求項6】
前記第1タスクの音響モデルは、複数種類の環境依存音響モデルからなり、
前記環境依存音響モデルの音素には、複数種類の環境依存音響モデルを識別するための識別子が付されており、
前記音声認識手段は、前記複数種類の環境依存音響モデルを用いて複数の発話環境を並列に音声認識し、
前記タスク適応化音響モデル生成手段は、前記複数種類の環境依存音響モデルを同時に学習して、前記複数種類の環境依存音響モデルを適応化した音響モデルをそれぞれ生成することを特徴とする、請求項1〜5のいずれか一項に記載の適応化音響モデル生成装置。
【請求項7】
第1タスクの音声で学習して生成された音響モデルを用いて該第1タスクとは異なる第2タスクの音声に適応化させた音響モデルを生成する適応化音響モデル生成装置として構成するコンピュータに、
前記第1タスクの音響モデルと、前記第2タスクの音声の音声認識用の言語モデルを用いて、前記第2タスクの音声について音声認識処理を実行し、認識結果としての仮説単語ラティスを生成するステップと、
前記仮説単語ラティスと前記第2タスクの音声用の書き起こしを用いて、前記第2タスクの音声中の発声変形の部分を特定し、該発声変形の単語専用の音素を生成するステップと、
前記発声変形の単語専用の音素を前記第1タスクの音響モデルに付加して、前記書き起こしと前記第2タスクの音声を用いて学習し、タスク別に識別された音素ごとに音素が発話されるときの音響特徴量の統計量を表すタスク適応化音響モデルを生成するステップと、
を実行させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate


【公開番号】特開2011−53312(P2011−53312A)
【公開日】平成23年3月17日(2011.3.17)
【国際特許分類】
【出願番号】特願2009−200144(P2009−200144)
【出願日】平成21年8月31日(2009.8.31)
【出願人】(000004352)日本放送協会 (2,206)
【Fターム(参考)】