説明

音声認識装置

【課題】 音声認識性能の低下防止。
【解決手段】 音声入力モニター部8で入力信号の一部が音声認識に不適当か否か検出し、不適当であれば、音声モデル尤度計算部4では当該区間における音響モデルの出力確率を、本来の確率値bから、{b}a (但し0≦a<1)、例えば1(a=0のとき)に切り換えて音声モデル尤度を計算する。

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は音声認識性能の低下を防ぐように改善した音声認識装置に関し、例えば電話回線、移動体通信網及びインターネット等の回線経由での音声認識、また、自動車内やオフイス環境等におけるマイク入力での音声認識に適用して有用である。
【0002】
【従来の技術】図2に従来の音声認識装置の構成を示す。この装置は音声入力部2と、音響分析部3と、格納部5、7と、探索部6と、音響モデルの尤度計算部10を備える。
【0003】格納部5には音響モデルとして、HMM(隠れマルコフモデル)を多数格納してある。格納部7には文法と、辞書として登録した語等を格納してある。
【0004】音声入力部2は通信回線やマイク等の入力ライン1から音声を入力し、その音声信号2aを音響分析部3に与える。
【0005】音響分析部3は音声信号2aに対して例えば10ms毎に25ms程度の窓かけを行った上で、MFCC(メル・フリケンシー・ケプストラム・コエフィシエンシィー)等の音響分析により、音声信号2aを特徴ベクトル列3aに変換し、尤度計算部10に与える。
【0006】ここで、特徴ベクトル列3aを{x1,x2,…,xn,…,xN}と表記する。xn(n=1〜N)は窓毎の個々の特徴ベクトルである。
【0007】尤度計算部10は個々の特徴ベクトルxn(n=1〜N)毎に、特徴ベクトルxnに対する各音響モデル(HMM)のアーク毎の尤度10aを計算し、探索部6に与える。
【0008】アークとは、音響モデルにおいて、或る状態からこれと同じ又は異なる状態への遷移可能な経路を意味する。
【0009】音響モデルのアーク毎の尤度10aは、或る状態が特徴ベクトルxnを出力する出力確率と、その状態から当該アークを通るであろう遷移確率との積で表される。通常は、計算の都合上、確率値の対数をとって対数尤度とし、和として演算することが多い。
【0010】従って、対数尤度で表すと、[或るアークの尤度=特徴ベクトルxnに対する対数出力尤度+遷移確率の対数]となる。
【0011】探索部6は音響モデルのアーク毎に計算された尤度10aを用い、Viterbi(ビタビ)探索等により、格納部7の文法と辞書を用いて、各状態の累積出力尤度を計算する。そして、探索が最終フレームに到達した時点で最も累積尤度が高かった単語系列を、認識結果9として出力する。
【0012】ところで、音声は入力ライン1から音声認識装置へ入力するため、移動体通信におけるハンドオーバーや、インターネット電話によるパケット紛失、等のために音声信号が途切れることがある。このような音声信号の途切れは音声認識にとって不適当であるが、従来は正常な音声信号と同様に音響分析後の処理を行っていた。
【0013】しかし、音声信号が途切れた部分では情報量がゼロであり、それに基づいて音響モデルの尤度を計算し探索を行った場合は、結果として偽の情報が与えられたに等しく、認識誤りが増大する。
【0014】
【発明が解決しようとする課題】本発明の課題は、音声信号の途切れ等に対し、音声認識性能の低下を防止することができる音声認識装置を提供することである。
【0015】
【課題を解決するための手段】上記課題を解決する発明は、入力信号の一部が音声認識に適当か否かを検出する音声入力モニター部と、音声入力モニター部の検出結果に応じて、音響モデルの出力確率を本来の確率値bと、{b}a 但し0≦a<1とに切り換えて音声モデル尤度を計算する音声モデル尤度計算部を備えることを特徴とする音声認識装置であり、好ましくは、a=0とすることができる。
【0016】また、音声入力モニター部は、入力信号の途切れ、オーバーフロー、あるいは、突発的な雑音を音声認識に不適当であると検出することができる。
【0017】
【発明の実施の形態】図1に本発明の実施形態例に係る音声認識装置の構成を示す。この装置は音声入力部2と、音響分析部3と、音響モデルの尤度計算部4と、格納部5、7と、探索部6と、音声入力モニター部8を備える。
【0018】格納部5には音響モデルとして、HMM(隠れマルコフモデル)を多数格納してある。格納部7には文法と、辞書として登録した語等を格納してある。
【0019】音声入力部2は通信回線やマイク等の入力ライン1から音声を入力し、その音声信号2aを音響分析部3に与える。
【0020】音声入力モニター部8は入力ライン1から音声を入力し、その信号の一部が音声認識に適当か否かを検出し、検出結果を付加情報8aとして尤度計算部4に与える。
【0021】音響分析部3は音声信号2aに対して例えば、図3に示すように、10ms毎に25ms程度の窓かけを行った上で、MFCC(メル・フリケンシー・ケプストラム・コエフィシエンシィー)等の音響分析により、音声信号2aを特徴ベクトル列3aに変換し、尤度計算部4に与える。
【0022】ここで、特徴ベクトル列3aを図3に示すように、{x1,x2,…,xn,…,xN}と表記する。xn(n=1〜N)は窓毎の個々の特徴ベクトルである。
【0023】尤度計算部4は個々の特徴ベクトルxn(n=1〜N)毎に、特徴ベクトルxnに対する各音響モデル(HMM)のアーク毎の尤度4aを計算し、探索部6に与える。その際、尤度計算部4は音声入力モニター部8からの付加情報8aに応じて、音響モデルの出力確率を本来の確率値bと、{b}a とに切り換えて音声モデル尤度を計算する。但し、0≦a<1、好ましくはa=0とする。
【0024】a=0の場合は、{b}a =1であり、対数出力尤度でいえばゼロである。
【0025】例えば、図4に示す音素「あ」の音響モデル/あ/の場合、入力信号が正常で音声認識に適当であれば、特徴ベクトルxが入力したとき、/あ/の1状態目から1状態目に遷移する確率はa11・b1(x)と計算し、/あ/の1状態目から2状態目に遷移する確率はa12・b1(x)と計算する。
【0026】これに対して、入力信号にオーバーフローや途切れがあって特徴ベクトルxが音声認識に不適当であれば、情報量がゼロなので、{b1(x)}0 =1と計算する。従って、/あ/の1状態目から1状態目に遷移する確率はa11(=a11・b1(x)=a11・{b1(x)}0 =a11・1)と計算し、/あ/の1状態目から2状態目に遷移する確率はa12(=a12・b1(x)=a12・{b1(x)}0 =a12・1)と計算する。なお、対数尤度で表すと、[或るアークの尤度=遷移確率の対数]となる。つまり、特徴ベクトルxnに対する対数出力尤度は0である。
【0027】このように情報量が0の信号区間に対する音響モデルの出力確率の値bを、全ての音響モデルにおいて等確率1とすることにより、情報量が0の信号は全く使わずに探索を行うので、認識誤りの増大を防止することができる。なお、0<a<1の場合は、aが0に近いほど{b}a が1に近くなり、音響モデルの出力確率を使わないことになる。
【0028】オーバーフローの場合も、情報量が小さいので、同様の処理、例えばb=1、または、{b}a (但し、0≦a<1)とすることにより、認識誤りの増大を防止することができる。
【0029】通常は、計算の都合上、確率値の対数をとって対数尤度とし、和として演算することが多い。従って、対数尤度で表すと、[或るアークの尤度=特徴ベクトルxnに対する対数出力尤度+遷移確率の対数]となる。
【0030】探索部6は音響モデルのアーク毎に計算された尤度4aを用い、Viterbi(ビタビ)探索等により、格納部7の文法と辞書を用いて、各状態の累積出力尤度を計算する。そして、探索が最終フレームに到達した時点で最も累積尤度が高かった単語系列を、認識結果9として出力する。この探索においては、上述したように、入力信号の或る区間にオーバーフローや途切れがあって特徴ベクトルが音声認識に不適当であればその区間の特徴ベクトルを使わずに、パターンマッチング等の探索を行う。これにより、入力音声が途切れたこと等により、その区間の情報を使って誤った探索を行うことを、防ぐことができる。
【0031】音声入力モニター部8は音声認識に不適当な信号区間として、入力音声の途切れ、あるいは、オーバーフロー、或いは、突発的雑音を検出する。
【0032】入力音声の途切れについては、通信網の局から音声信号とは別に得られるハンドオーバー情報を検出し、あるいは、ネットワークから得られるパケットロス情報を検出し、あるいは、ISDN回線や国際回線における連続した0信号を検出し、あるいは、ISDN回線や国際回線における連続した定数情報を検出し、あるいは、特定の雑音信号を挿入する回線ではその特定雑音信号を検出することにより、入力音声の途切れを検出することができる。
【0033】オーバーフローについては、音声入力部2に備えられるADコンバータから得られるオーバーフロー情報を検出し、あるいは、音声入力部2での量子化時に量子化最大値が連続したことを検出することにより、オーバーフローを検出することができる。
【0034】突発的雑音については、音声入力とは別に雑音測定用マイク等を用意しておき、このマイク等からサイレン音や踏切の警報音を検出することにより、突発的雑音を検出することができる。
【0035】このような音声認識によれば、例えば、「アメリカのニューヨークをお願いします」というような発生を認識する電話音声認識装置においては、「アメリカ」という発声の中程に音声の途切れが0.1秒程度存在した場合、従来はエラー率が22.8%になってしまうものが、3.6%のエラー率に低減した。
【0036】
【発明の効果】以上より、本発明によれば、通信路におけるバースト誤り、突発的な雑音、入力系のオーバーフロー等が生じた場合でも、音声認識性能の低下を防止することができる。
【図面の簡単な説明】
【図1】本発明の実施形態例に係る音声認識装置の構成を示す図。
【図2】従来の音声認識装置の構成を示す図。
【図3】特徴ベクトルの説明図。
【図4】音響モデルの例を示す図。
【符号の説明】
1 入力ライン
2 音声入力部
3 音響分析部
4 音響モデル尤度計算部
5 音響モデル格納部
6 探索部
7 文法・辞書格納部
8 音声入力モニター部
9 認識結果

【特許請求の範囲】
【請求項1】 入力信号の一部が音声認識に適当か否かを検出する音声入力モニター部と、音声入力モニター部の検出結果に応じて、音響モデルの出力確率を本来の確率値bと、{b}a 但し0≦a<1とに切り換えて音声モデル尤度を計算する音声モデル尤度計算部を備えることを特徴とする音声認識装置。
【請求項2】 a=0である請求項1記載の音声認識装置。
【請求項3】 音声入力モニター部は入力信号の途切れが音声認識に不適当であると検出することを特徴とする請求項1記載の音声認識装置。
【請求項4】 音声入力モニター部は入力信号のオーバーフローが音声認識に不適当であると検出することを特徴とする請求項1記載の音声認識装置。
【請求項5】 音声入力モニター部は突発的な雑音が音声認識に不適当であると検出することを特徴とする請求項1記載の音声認識装置。

【図1】
image rotate


【図2】
image rotate


【図3】
image rotate


【図4】
image rotate


【公開番号】特開2001−100782(P2001−100782A)
【公開日】平成13年4月13日(2001.4.13)
【国際特許分類】
【出願番号】特願平11−274223
【出願日】平成11年9月28日(1999.9.28)
【出願人】(000208891)株式会社ディーディーアイ (2,700)
【Fターム(参考)】