説明

音声認識装置

【目的】 話者に依存した発声変形を自動的に吸収し、音声認識の性能を向上させた音声認識装置を提供する。
【構成】 話者に依存した発声変形ルールを自動的に求める発声変形ルール自動生成部と、発声変形ルールに基づいてシングルエントリ辞書からマルチエントリ辞書を作成するマルチエントリ化処理部と、マルチエントリ辞書を用いて音声認識を行う認識処理部とを具備する。

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、話者に依存した発声変形を自動的に吸収する音声認識装置に関するものである。
【0002】
【従来の技術】従来のこの種の音声認識技術には、例えば次の■のよう技術が提案されている。
■ 母音の無声化などの音声学的知識を認識系に組み込む技術(渡辺隆夫ほか「半音節を単位とするHMMを用いた不特定話者音声認識」信学論J75-D-II No.8,pp.1281-1289(1992) 、相川清明ほか「Top-down的音韻認識に基づく単語音声認識」信学論J67-D No.6, pp.693-700(1984)、M. Weintraub, et. al., "Linguistic Constraints in Hidden Markov Model Based Speech Recognition", ICASSP-89, pp. 699-702(1989) 参照) 。
■ 音素認識系から得た誤認識の傾向を音声変形ルールとして利用する技術( 田中信一ほか「日本語 Dictation システムにおける文節検出の高速化」信学技報SP90-70(1990) 参照) 。
【0003】
【発明が解決しようとする問題点】上述した従来の技術■では、一般的な発声変形の傾向を利用するので、つぎのような問題点がある。話者に依存した発声変形を吸収することが難しい。認識モデルに依存した認識誤りを、認識辞書の再構築により減少させることが難しい。音声学的知識を人手で登録しなければならず手間である。また従来の技術■は、話者に依存した発声変形に対処できるものの、音素認識系などのボトムアップ的な認識系でしか利用できず、音素HMM(Hidden MarkovModel: 隠れマルコフモデル) を連結したモデルで尤度を求めるなどのトップダウン的な認識系では利用できない。従って、本発明の目的は、上記問題点を伴うことなく話者に依存した発声変形を自動的に吸収し、音声認識の性能を向上させた音声認識装置を提供せんとするものである。
【0004】
【問題点を解決するための手段】この目的を達成するため、本発明音声認識装置は、話者に依存した発声変形ルールを自動的に求める発声変形ルール自動生成部と、発声変形ルールに基づいてシングルエントリ辞書からマルチエントリ辞書を作成するマルチエントリ化処理部と、マルチエントリ辞書を用いて音声認識を行う認識処理部とを具備したことを特徴とするものである。また、本発明の好適な実施態様は前記発声変形ルール自動生成部が、認識対象話者の連続音声中の各音素の尤度および継続時間長を、その標準的発音記号列と音声認識モデルから算出し、音声認識モデル学習時の尤度および継続時間長と比べて評価の低い音素を検出する音素評価部と、この音素から脱落、置換、挿入の発声変形ルールの複数の仮説を生成する仮説生成部と、複数の仮説による尤度上昇と識別能力向上を認識対象話者の連続音声で検証し、複数の仮説の中から合格とみなされた仮説を発声変形ルールとして採用する仮説検証部とを備えたことを特徴とするものである。
【0005】(実施例)以下添付図面を参照し、実施例により本発明を詳細に説明する。本発明による音声認識装置の一構成例を示す図1を参照するに、一実施例は、ルール作成用連続音声{Sk }の入力部1と、その発声内容に対する標準的発音記号列{Pk }の入力部2と、不特定話者音素HMM{Ym }の入力部3と、発声変形ルール自動生成部4と、音素評価を行うブロック5と、仮説生成を行うブロック6と、仮説検証を行うブロック7と、メモリ部8と、発声変形ルール9と、マルチエントリ辞書10と、シングルエントリ辞書の入力部11と、マルチエントリ化処理部12と、認識用音声の入力部13と、認識処理部14と、認識結果の出力部15とを含む。まず、入力部1に認識対象話者が発声した50文程度の連続音声{Sk }を入力し、入力部2に{Sk }に対応する標準的発音記号列{Pk }を入力し、入力部3に例えば最尤推定学習法などのHMM学習法で作成した不特定話者音素HMM{Ym }と、各音素mの平均尤度Lm と継続時間長(平均μm 、標準偏差σm、最小値τm など)を入力する。
【0006】発声変形ルール自動生成部4はこれらの入力データを受け取り、音素評価を行うブロック5において、ルール作成用連続音声{Sk }のSk に対して、その標準的発音記号列{Pk }のPk に基づいて連結したHMMで例えばViterbi アルゴリズムを適用し、全体の尤度L(Sk |Pk )およびPk 中のi番目の音素Xk i の尤度Lk i と継続時間長tk i を求める。この時、Pk のすべての文節間に挿入されているポーズ記号と無音HMMを用いて、音声中の文節間のポーズの有無を自動判別する。仮説生成を行うブロック6において、音素Xk i の継続時間長と尤度をHMM学習時と比較し、評価の低い場合にその音素から次のような音素の3つ組あるいは2つ組間の発声変形の仮説を生成する。
【0007】(i) 脱落ルール(ABC→AC、音素ABCのうち音素Bが脱落するルール)
継続時間長が短いか尤度が低い音素をPk から検出し、脱落ルールを作成する。音素Xk i =Ym の時、次の3つの条件 tk i <μm −2σm 、tk i <τm 、Lk i <Lm (1)
のいずれかが満たされる時、Pk からXk i を脱落させ、新たな発音記号列Pk ′を作る。Pk ′に基づいて音素HMMを連結し、尤度L(Sk |Pk ′)を求める。もし L(Sk |Pk )<L(Sk |Pk ′) (2)
ならば、Xk i-1 k i k i+1 →Xk i-1 k i+1 を脱落ルールの仮説とする。
【0008】(ii)置換1ルール(ABC→ADC、音素ABCのうち音素BをDに置換するルール)
音素Xk i が(1)式のいずれかを満たすならば、これを他の全ての音素で順次置換し、最も尤度が高くなる音素Xnew による新たな発音記号列Pk ′を作る。もし(2)式が満たされるならば、Xk i-1 k i k i+1 →Xk i-1 newk i+1 を置換1ルールの仮説とする。
【0009】(iii) 置換2ルール(ABC→DC、音素ABCのうち音素対ABをDに置換するルール)
音素対Xk i-1 k i に対し、Xk i-1 とXk i の継続時間長の和が、それぞれのHMM学習時の継続時間長の和と比べて(1)式と同様に短い、あるいは尤度が低いかどうかを調べる。もしそうであれば音素対Xk i-1 k i を全ての音素で順次置換し、Sk の尤度が最も高くなる音素Xnew による新たな発音記号列Pk ′を作る。(2)式が満たされるならば、Xk i-1 k i k i+1 →Xnewk i+1 を置換2ルールの仮説とする。(iv)挿入ルール(AB→ACB、音素ABの間に音素Cを挿入するルール)
音素対Xk i-1 k i の継続時間長が(iii) と同様にHMM学習時と比べて長い、あるいは尤度が低い場合、Xk i-1 k i 間に全ての音素を順次挿入し、Sk の尤度が最も高くなる音素Xnew による新たな発音記号列Pk ′を作る。もし(2)式が満たされるならば、Xk i-1 k i →Xk i-1 new k i を挿入ルールの仮説とする。以上(i) 〜(iv)の処理を、すべてのルール作成用連続音声の全ての音素{Xk i }に対して行う。
【0010】次に、仮説検証を行うブロック7において、仮説として生成された各発声変形ルールの左辺の音素列を含む標準的発音記号列Pk を、標準的発音記号列{Pk}から全て選ぶ。これらに発声変形ルールの仮説を適用し、各発声変形ルールに対するルール作成用連続音声{Sk }の平均の対数尤度上昇値を求める。この値が負になる発声変形ルールは仮説から削除し、それ以外はこの値を発声変形ルールの効果を示す値として保存する。更に識別能力を調べるため、ルール作成用連続音声{Sk }をViterbi アルゴリズムによりポーズで分割する。これらフレーズ音声の尤度を、発声変形ルールを適用した全フレーズの発音記号列で求める。正解と最近傍のフレーズによる尤度の差が、ルール適用前に比べて上昇するルールのみを、最終的な発声変形ルール9として採用し、メモリ部8に蓄える。
【0011】認識タスクの1つの“言葉”(単語あるいは文節)に1つ発音記号列を対応づけたシングルエントリ辞書を入力部11に入力し、マルチエントリ化処理部12において、自動生成された発声変形ルール9を適用して、各“言葉”に複数の発音記号列を対応付けたマルチエントリ辞書10を構築し、メモリ部8に蓄える。ただし1つの“言葉”から生成される複数の発音記号列のうち、発声変形ルール生成時の平均の対数尤度上昇値の上位n個までを用いる(nはシングルエントリ辞書の各“言葉”の音素数)。
【0012】最後に音声認識処理部14において、マルチエントリ辞書10と入力部3の不特定話者音素HMMを用いて、入力部13の認識用音声の音声認識を行う。認識結果の文字列は、出力部15に出力される。この時、認識候補の尤度算出に、例えばマルチエントリ辞書の複数の発音記号列による尤度の平均値を用いる。本発明のもう一つの実施例は、マルチエントリ辞書10の構成法として、発声変形ルール9に基づいて入力部11のシングルエントリ辞書から発音記号ネットワークを作成し、これをマルチエントリ辞書10として利用する方法である。この場合、発音の分岐に確率値を導入し、認識候補の尤度を算出する。
【0013】次にほぼ文節単位のフレーズ音声の認識実験により、本発明の有効性の検証を行う。音声認識モデルには離散分布型HMMを用い、市販の日本語データベースの男性話者15名が発声した50文中の、ラベルに基づく音素(最大600データ/音素)を用いて学習を行う。ルール作成用連続音声1には、上記とは異なる市販の日本語データベースの男性話者1名が発声した50文を用いる。認識用音声13には、同話者の異なる内容の25文からほぼ文節単位に切り出した約140フレーズを用いる。音響分析条件は、標本化周波数15kHz、高域強調(1−0.95z-1)、ハミング窓(幅20ms,周期5ms)、18次線形予測分析である。特徴パラメータは、18次LPCケプストラム係数、18次ΔLPCケプストラム係数、Δ対数パワーで、コードブックサイズはそれぞれ256、256、64である。音素HMMは41種類、子音は4状態、母音と無音は2状態のleft-to-right モデルである。シングルエントリ辞書11には認識候補として、評価する全フレーズに対応する標準的発音記号列を記述する。これに、ルール作成用連続音声1から自動生成された発声変形ルール9を適用し、評価する全フレーズに複数の発音記号列を対応づけたマルチエントリ辞書10を構築する。認識実験は、5名の話者(A〜E)に対して行った。得られた発声変形ルールの例を図2に、マルチエントリ辞書の例を図3に、認識率を図4に示す。シングルエントリ辞書の場合に認識率の高い上位2名の話者(D,E)に対しては、マルチエントリ化の効果はあまり見られなかったが、下位3名(A,B,C)に対しては平均で3.5%、最高で3.9%認識率が向上した。この結果は、特にシングルエントリ辞書の場合に認識率の低い話者に対して本発明の効果が高いことを示している。
【0014】以上説明してきた実施例は本発明のほんの一部にすぎず本発明はこれら実施例に限定されることなく、特許請求の範囲に記載した発明の要旨内で各種の変形、変更のあることは当業者に自明であろう。
【図面の簡単な説明】
【図1】本発明一実施例の構成を示す図。
【図2】発声変形ルールの例を示す図。
【図3】マルチエントリ辞書の例を示す図。
【図4】認識実験の結果を示す図。
【符号の説明】
1 ルール作成用連続音声の入力部
2 標準的発音記号列の入力部
3 不特定話者音素HMMの入力部
4 発声変形ルール自動生成部
5 音素評価を行うブロック
6 仮説生成を行うブロック
7 仮説検証を行うブロック
8 メモリ部
9 発声変形ルール
10 マルチエントリ辞書
11 シングルエントリ辞書の入力部
12 マルチエントリ化処理部
13 認識用音声の入力部
14 認識処理部
15 認識結果の出力部

【特許請求の範囲】
【請求項1】 話者に依存した発声変形ルールを自動的に求める発声変形ルール自動生成部と、発声変形ルールに基づいてシングルエントリ辞書からマルチエントリ辞書を作成するマルチエントリ化処理部と、マルチエントリ辞書を用いて音声認識を行う認識処理部とを具備したことを特徴とする音声認識装置。
【請求項2】 請求項1記載の音声認識装置において、前記発声変形ルール自動生成部が、認識対象話者の連続音声中の各音素の尤度および継続時間長を、その標準的発音記号列と音声認識モデルから算出し、音声認識モデル学習時の尤度および継続時間長と比べて評価の低い音素を検出する音素評価部と、この音素から脱落、置換、挿入の発声変形ルールの複数の仮説を生成する仮説生成部と、複数の仮説による尤度上昇と識別能力向上を認識対象話者の連続音声で検証し、複数の仮説の中から合格とみなされた仮説を発声変形ルールとして採用する仮説検証部とを備えたことを特徴とする音声認識装置。
【請求項3】 請求項1または2記載の音声認識装置において、前記マルチエントリ化処理部が、認識タスクの単語あるいは文節に対する標準的発音記号列のみを記述したシングルエントリ辞書に発声変形ルールを適用することにより、認識タスクの単語あるいは文節に複数の発音記号列を割り当てたマルチエントリ辞書を作成し、前記認識処理部が、マルチエントリ辞書の複数の発音記号列から算出された尤度の平均値を、音声認識時の各候補の尤度として利用することを特徴とする音声認識装置。
【請求項4】 請求項1または2記載の音声認識装置において、前記マルチエントリ化処理部が、認識タスクの単語あるいは文節に対する標準的発音記号列のみを記述したシングルエントリ辞書に発声変形ルールを適用することにより、分岐確率を備えた発音記号ネットワークを構成してマルチエントリ辞書を作成し、前記認識処理部が、発音記号ネットワークであるマルチエントリ辞書を用いて各候補の尤度を算出することを特徴とする音声認識装置。

【図1】
image rotate


【図2】
image rotate


【図3】
image rotate


【図4】
image rotate


【公開番号】特開平8−123470
【公開日】平成8年(1996)5月17日
【国際特許分類】
【出願番号】特願平6−260413
【出願日】平成6年(1994)10月25日
【出願人】(000004352)日本放送協会 (2,206)