パタンマッチング装置、パタンマッチングプログラム、およびパタンマッチング方法
【課題】特徴量の識別能力を低下させること無く特徴量を正規化することが可能なパタンマッチング装置、パタンマッチングプログラム、およびパタンマッチング方法を提供する。
【解決手段】全体平均計算部301は、第1の範囲に含まれる特徴量の平均値である全体平均値を取得する。局所平均計算部302は、第1の範囲よりも小さい第2の範囲に含まれる特徴量の平均値である局所平均値を計算する。局所分散計算部303は、局所平均値に基づいて、第2の範囲に含まれる特徴量の分散値である局所分散値を計算する。正規化処理計算部304は、全体平均値と複数の局所分散値とに基づいて特徴量を正規化する。
【解決手段】全体平均計算部301は、第1の範囲に含まれる特徴量の平均値である全体平均値を取得する。局所平均計算部302は、第1の範囲よりも小さい第2の範囲に含まれる特徴量の平均値である局所平均値を計算する。局所分散計算部303は、局所平均値に基づいて、第2の範囲に含まれる特徴量の分散値である局所分散値を計算する。正規化処理計算部304は、全体平均値と複数の局所分散値とに基づいて特徴量を正規化する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、パタンマッチング装置、パタンマッチングプログラム、およびパタンマッチング方法に関する。
【背景技術】
【0002】
音声認識装置は、入力音声信号から抽出された時系列の音響特徴量を、母音や子音などの音素を単位として、音響特徴量空間における確率密度分布が予め学習された音響モデルと照合することにより認識結果を得る。確率モデルである音響モデルは、音響特徴量の入力に対して、その音素らしさのスコア(音響尤度)を出力する。音声認識装置は文法と単語辞書の制約に従って音素らしさのスコア(音響尤度)を発声全体に渡って累積し、累積スコアが最も高い単語の並びを認識結果として出力する。
【0003】
音響特徴量は多次元ベクトルの時系列データであり、各次元において各音素に該当するデータの頻度分布を集計すると正規分布に近い形状、もしくは複数の正規分布の和に近い形状になる。こうした音響特徴量の分布を表現するために、音響モデルの確率密度分布は多次元正規分布もしくは複数の多次元正規分布によって表現される。しかし、実際の照合においては、マイク特性のばらつき、話者による違い、背景雑音などにより、入力音響特徴量の分布と音響モデルの確率密度分布との間にミスマッチが生じ、認識率低下の原因となる。入力音響特徴量と音響モデルの照合において、このミスマッチを解消する手法として、ケプストラム平均値正規化(CMN: Cepstral Mean Normalization)という手法が広く利用されており、CMNをさらに発展させた手法として平均値・分散正規化(MVN: Mean and Variance Normalization)が提案されている。CMNは、発声の各時刻の音響特徴量からその発声全体の平均値を減算し、音響特徴量の平均をゼロにすることで、入力音響特徴量の分布と音響モデルの確率密度分布を揃え、ミスマッチを低減する手法である。CMN前の各次元の音響特徴量をx(t)、CMN後の音響特徴量をxc(t)とすると、CMNの操作は(1)式、(2)式で表される。Tは発声全体のフレーム数を表す。
【0004】
【数1】
【0005】
一方、MVNとは、発声の各時刻の音響特徴量を、その発声全体の平均値と分散で正規化して、基準系の正規分布N(平均0、分散1)に揃えることで、マイク特性などによる入力音響特徴量の分布と音響モデルの確率密度分布とのミスマッチを低減する手法である。MVN前の各次元の音響特徴量をx(t)、MVN後の音響特徴量をxm(t)とすると、MVNの操作は(3)〜(5)式で表される。
【0006】
【数2】
【0007】
また、音声に限らず、静止画および動画についても、CMNおよびMVNにて正規化が可能である。静止画像の場合、各次元の画像特徴量をxi,j、CMN後の画像特徴量をxci,jとすると、CMNの操作は式(6)、(7)で表される。I、Jは静止画の縦軸、横軸のブロック数を表す。
【0008】
【数3】
【0009】
一方、MVNでは、MVN前の各次元の画像特徴量をxi,j、MVN後の画像特徴量をxmi,jとすると、MVNの操作は式(8)〜(10)で表される。
【0010】
【数4】
【0011】
動画の場合、各次元の動画特徴量をxi,j,t、CMN後の動画特徴量をxci,j,tとすると、CMNの操作は式(11)、(12)で表される。I、Jは動画の縦軸、横軸のブロック数、Tはフレーム数を表す。
【0012】
【数5】
【0013】
一方、MVNでは、MVN前の各次元の動画特徴量をxi,j,t、MVN後の動画特徴量をxmi,j,tとすると、MVNの操作は式(13)〜(15)で表される。
【0014】
【数6】
【0015】
ただし、発声全体の平均値や分散を用いるCMNやMVNは、発声が終わるまで正規化後の音響特徴量が得られないために照合処理の開始が遅れ、発声終了から認識結果出力までの待ち時間を長くしてしまうというデメリットがある。この処理遅れを低減する手法として、発声全体の代わりに数十〜数百ミリ秒の局所の区間から平均値や分散を算出して正規化に用いる手法が提案されている。以降、発声全体から計算した平均値を用いて音響特徴量を正規化す手法をバッチCMN、発声の一部区間から計算した平均値を用いて音響特徴量を正規化する手法をセグメンタルCMNとよぶ。同様に、発声全体から計算した平均値と分散値を用いて音響特徴量を正規化する手法をバッチMVN、発声の一部区間から計算した平均値と分散値を用いて音響特徴量を正規化する手法をセグメンタルMVNと呼ぶ。
【0016】
また、特徴量の量子化を仮定しない平均値・分散正規化(MVN)において算出した分散の値がゼロもしくはゼロに近い小さな値の場合には分散正規化を行わない手法も知られている(例えば、特許文献1参照)。
【特許文献1】特開2002−278586号公報
【発明の開示】
【発明が解決しようとする課題】
【0017】
しかし、CMNでは、バッチCMNの方が、セグメンタルCMNよりも長い音声区間から特徴量の平均値を算出するため、精度が高く認識率の改善効果が高いが、入力音響特徴量の分布のばらつきと、参照する音響モデルの確率密度分布のばらつきまで揃えることはできない。
【0018】
また、MVNでは、バッチMVNは発声全体の音響特徴量の分布を平均0、分散1に正規化するが、音声認識の単位となる音素ごとの分布に着目すると、分散は正規化されていない。一方、セグメンタルMVNで平均・分散の計算区間を1音素相当の時間長(数十から数百ミリ秒)に設定すれば、音素ごとの分布の分散を正規化するのに近い効果が得られる。ただし、短時間の平均値も0に正規化されるので、すべての音素の分布の平均値が0に近づくため重なりが大きくなり(図2参照)、音素の識別能力の低下を招く。
【0019】
また、特許文献1では、発声全体の平均値と分散値を用いて正規化するバッチMVNと、局所の平均値と分散値を用いて音響特徴量を正規化するセグメンタルMVNへの適用についてのみ述べられており、前述の音素の識別能力の低下を招くという問題点を解決することができない。
【0020】
すなわち、CMNでは分布のばらつき(分散)を正規化することができず、セグメンタルMVNでは、音素ごとの分散の正規化に近い効果があるが、音素間で分布の平均値が近づいてしまい音素の識別能力が低下してしまうという問題がある。
【0021】
また、上記の課題は、音声に限らず、外部より入力されたデータの特徴量を算出し、算出した特徴量を正規化し、正規化済み特徴量に基づいてパタンマッチングを行うパタンマッチング装置にも当てはまる。
【0022】
本発明は、上記の課題を解決するためになされたものであり、特徴量の識別能力を低下させること無く特徴量を正規化することが可能なパタンマッチング装置、パタンマッチングプログラム、およびパタンマッチング方法を提供することを目的とする。
【課題を解決するための手段】
【0023】
本発明は、外部より入力されたデータの特徴量を算出する分析手段と、前記分析手段で算出された前記特徴量を正規化する正規化手段と、前記正規化手段で正規化された正規化済み特徴量に基づいて、パタンマッチングを行うパタンマッチング手段と、を備えたパタンマッチング装置において、前記正規化手段は、第1の範囲に含まれる前記特徴量の平均値である全体平均値を取得する全体平均取得手段と、前記第1の範囲よりも小さい第2の範囲に含まれる前記特徴量の平均値である局所平均値を計算する局所平均計算手段と、前記局所平均値に基づいて、前記第2の範囲に含まれる前記特徴量の分散値である局所分散値を計算する局所分散計算手段と、前記全体平均値と複数の前記局所分散値とに基づいて前記特徴量を正規化する正規化処理計算手段と、を備えたことを特徴とするパタンマッチング装置である。
【0024】
また、本発明の前記全体平均取得手段は、前記第1の範囲に含まれる前記特徴量から前記全体平均値を計算することを特徴とする。
【0025】
また、本発明の前記全体平均取得手段は、予め記憶した所定値を前記全体平均値とすることを特徴とする。
【0026】
また、本発明は、パタンマッチングの対象とする前記特徴量が含まれる範囲を同定する範囲同定手段を備え、前記全体平均取得手段は、前記範囲同定手段で同定された範囲に基づく前記第1の範囲に含まれる前記特徴量から前記全体平均値を計算することを特徴とする、請求項2に記載のパタンマッチング装置である。
【0027】
また、本発明の前記局所平均計算手段は、過去に計算した前記局所平均値により重み付けした値に基づいて、前記局所平均値を計算し、前記局所分散計算手段は、過去に計算した前記局所分散値により重み付けした値に基づいて、前記局所分散値を計算することを特徴とする。
【0028】
また、本発明は、外部より入力されたデータの特徴量を算出する分析手段と、前記分析手段で算出された前記特徴量を正規化する正規化手段と、前記正規化手段で正規化された正規化済み特徴量に基づいて、パタンマッチングを行うパタンマッチング手段と、としてコンピュータを機能させるためのパタンマッチングプログラムにおいて、前記正規化手段は、第1の範囲に含まれる前記特徴量の平均値である全体平均値を取得する全体平均取得手段と、前記第1の範囲よりも小さい第2の範囲に含まれる前記特徴量の平均値である局所平均値を計算する局所平均計算手段と、前記局所平均値に基づいて、前記第2の範囲に含まれる前記特徴量の分散値である局所分散値を計算する局所分散計算手段と、前記全体平均値と複数の前記局所分散値とに基づいて前記特徴量を正規化する正規化処理計算手段と、としてコンピュータを機能させるためのパタンマッチングプログラムである。
【0029】
また、本発明は、外部より入力されたデータの特徴量を算出する分析ステップと、前記分析ステップで算出された前記特徴量を正規化する正規化ステップと、前記正規化ステップで正規化された正規化済み特徴量に基づいて、パタンマッチングを行うパタンマッチングステップと、を備えたパタンマッチング方法において、前記正規化ステップは、第1の範囲に含まれる前記特徴量の平均値である全体平均値を取得する全体平均取得ステップと、前記第1の範囲よりも小さい第2の範囲に含まれる前記特徴量の平均値である局所平均値を計算する局所平均計算ステップと、前記局所平均値に基づいて、前記第2の範囲に含まれる前記特徴量の分散値である局所分散値を計算する局所分散計算ステップと、前記全体平均値と複数の前記局所分散値とに基づいて前記特徴量を正規化する正規化処理計算ステップと、を備えたことを特徴とするパタンマッチング方法である。
【発明の効果】
【0030】
本発明によれば、特徴量の識別能力を低下させること無く特徴量を正規化することができる。
【発明を実施するための最良の形態】
【0031】
以下、図面を参照し、本発明の実施形態を説明する。図1は本発明の一実施形態による音声認識装置の構成を示している構成図である。音響分析部101は、マイク等より入力された音声データに対して音響分析を行い、音響特徴量を計算する。入力は、プッシュ・ツー・トークで制御することも可能である。また、音響分析部101は、計算した音響特徴量を一時的にバッファに記憶させる。正規化処理部102は、音響分析部101がバッファに記憶させた音響特徴量を、音響特徴量の平均値および分散値を用いて正規化処理を行う。正規化処理については後述する。音響モデル学習部103は、学習用音声データに対して、認識対象の音声データと同一の音響分析を音響分析部101で行い、正規化処理部102で正規化を行って得た、学習用音声データの音響特徴量を音響モデル記憶部104に記憶させる。言語モデル記憶部105は、単語辞書や文法を記憶する。認識処理部106は、認識対象の音声データに対して音響分析部101で音響分析を行い、正規化処理部102で正規化処理を行って得た、認識対象の音声データの音響特徴量と音響モデル記憶部104が記憶している学習用音声データの音響特徴量および言語モデルが記憶している単語辞書や文法を用いてパタンマッチングを行い、認識結果を出力する。
【0032】
[第1の実施形態]
まず、本発明の第1の実施形態を説明する。図3は、本実施形態による正規化処理部102の構成を示している。マイクなどから音声認識装置に入力された1発声全体の音響特徴量は、音響分析部101によって図示せぬバッファに格納されている。全体平均計算部301は、発声全体に対応したフレーム数T内の音響特徴量をバッファから読み出し、その平均値を計算する。発声全体の長さとして、単語の長さ、音声の切れ目までの長さ、句読点から句読点までの長さ、入力された音声全体の長さなどを用いることが可能である。発声全体の音響特徴量の平均値E(x)は計算式(16)で求める。
【0033】
【数7】
【0034】
局所平均計算部302は、予め設定した局所のフレーム数τ内の発声に対応した音響特徴量をバッファから読み出し、その平均値を計算する。局所のフレーム数τは、音素の長さとして、例えば数十から数百ミリ秒に対応した数である。音素の長さなので発声する単語や人によって変動するが、本実施形態では固定値を使用する。局所のフレーム数τの音響特徴量の平均値Eτ(x)は計算式(17)で求める。
【0035】
【数8】
【0036】
局所分散計算部303は、予め設定した局所のフレーム数τ内の発声に対応した音響特徴量をバッファから読み出し、その分散値を、局所平均計算部302で算出した平均値に基づいて計算する。局所のフレーム数τの音響特徴量の分散値Vτ(x)は計算式(18)で求める。
【0037】
【数9】
【0038】
正規化処理計算部304は、正規化前の音声特徴量から全体平均計算部301で算出した発声全体に対しての音響特徴量の平均値を減算し、局所分散計算部303で算出した局所のフレーム数τの音響特徴量の分散値で割ることで、正規化後の音響特徴量xτ(t)を求めることができる(計算式(19)参照)。
【0039】
【数10】
【0040】
上述したとおり、入力音響特徴量に対して、発声全体の平均値による正規化処理を行うことにより、すべての音素の分布の位置を音響モデルの該当音素の分布に揃え、更に局所の分散値による正規化処理によって、全音素の分布の重なりを抑制しつつ正規分布に近づける効果を持つ(図4参照)。その結果、音素間の識別精度を低減することなく、背景雑音や残響などによる音響モデルと入力された音響特徴量のミスマッチ成分を低減することができ、音声認識精度の劣化を低減することができる。
【0041】
なお、全体平均計算部301で、平均を求めるフレーム数を発声時間に対応する数としたが、代わりにフレーム数τ´を予め設定してもよい。
【0042】
[第2の実施形態]
次に、本発明の第2の実施形態を説明する。図5は、本実施形態による正規化処理部102の構成を示している。本実施形態では、対象とする局所のフレーム数での局所平均値および局所分散値を算出する際に、1つ前の局所のフレーム数の音響特徴量から計算した局所平均値(以下、1つ前の局所平均値と記す。)および1つ前の局所のフレーム数の音響特徴量から計算した局所分散値(以下、1つ前の局所分散値と記す。)を用いることを特徴とする。突発的な雑音が音声認識装置に入力された場合、局所平均値および局所分散値が大きく変わり、入力された音声データを正しく認識することが困難となるが、1つ前の局所平均値および1つ前の局所分散値を用いることで、突発的に音声認識装置に雑音が入力された場合でも局所平均値および局所分散値が大きく変わらず、音声認識制度の劣化を低減することができる。
【0043】
全体平均計算部501は、第1の実施形態と同様に音声認識装置に入力された発声全体対応した音響特徴量をバッファから読み出し、その平均値E(x)を計算する。局所平均計算部502は、予め設定した局所のフレーム数τ内の発声に対応した音響特徴量をバッファから読み出し、その平均値を計算する。その際忘却係数αを予め設定し、1つ前の局所平均値を重み付け加算する。1つ前の局所平均値を重み付け加算した、局所のフレーム数τの音響特徴量の局所平均値Ep(t)は計算式(20)で求める。
【0044】
【数11】
【0045】
局所分散計算部503は、予め設定した局所のフレーム数τ内の発声に対応した音響特徴量をバッファから読み出し、その分散値を、局所平均計算部502で算出した平均値に基づいて計算する。その際忘却係数αを予め設定し、1つ前の局所平均値を重み付け加算する。1つ前の局所平均値を重み付け加算した、局所のフレーム数τの音響特徴量の局所分散値Vp(t)は計算式(21)で求める。
【0046】
【数12】
【0047】
正規化処理計算部504は、正規化前の音声特徴量から全体平均計算部501で算出した発声全体の音響特徴量の平均値を減算し、局所分散計算部503で算出した局所のフレーム数τの音響特徴量の分散値で割ることで、正規化後の音響特徴量xp(t)を求めることができる(計算式(22)参照)。
【0048】
【数13】
【0049】
上述したとおり、入力音響特徴量に対して、発声全体の平均値による正規化処理を行うことにより、すべての音素の分布の位置を音響モデルの該当音素の分布に揃え、更に局所の分散値による正規化処理によって、全音素の分布の重なりを抑制しつつ正規分布に近づける効果を持つ(図4参照)。その結果、音素間の識別精度を低減することなく、背景雑音や残響などによる音響モデルと入力された音響特徴量のミスマッチ成分を低減することができ、音声認識精度の劣化を低減することができる。さらに、突発的な雑音が音声認識装置に入力された場合、入力された音声データを認識することが困難となるが、1つ前の局所平均値および1つ前の局所分散値を用いることで、突発的に音声認識装置に雑音が入力された場合でも平均値が大きく変わらず、音声認識精度の劣化を低減することができる。
【0050】
[第3の実施形態]
次に、本発明の第3の実施形態を説明する。図6は、本実施形態による正規化処理部102の構成を示している。本実施形態では、実施形態1での発声全体の音響特徴量の平均値を算出する代わりに、予め計算した固定の平均値を用いることを特徴とする。これにより、発声全体から音響特徴量の平均値を計算する必要がないため、音響特徴量の正規化が完了するまでの待ち時間が、局所分散の計算に必要な時間となり、リアルタイム処理が可能となる。
【0051】
固定平均値記憶部601は、予め設定した音響特徴量の平均値Ef(x)を記憶する。固定値は、前の発声の平均値を用いる、もしくは過去の莫大な音声データから求めることなどが可能である。
【0052】
局所平均計算部602、局所分散計算部603は、第1の実施形態と同様に局所平均値および局所分散値を算出する。正規化処理計算部602は、固定平均値記憶部601に記憶された固定平均値を用い、正規化前の音声特徴量から固定平均値を減算し、局所分散計算部603で算出した局所のフレーム数τの音響特徴量の分散値で割ることで、正規化後の音響特徴量xf(t)を求めることができる(計算式(23)参照)。
【0053】
【数14】
【0054】
上述したとおり、発声全体の音響特徴量の平均値を算出する代わりに、予め計算した固定の平均値を用いることで、発声全体から音響特徴量の平均値をリアルタイムに計算する必要がない。これにより、音響特徴量の正規化が完了するまでの待ち時間が局所分散の計算に必要な時間となり、リアルタイム処理が可能となる。また、入力音響特徴量に対して、発声全体の平均値による正規化処理を行うことにより、すべての音素の分布の位置を音響モデルの該当音素の分布に揃え、更に局所の分散値による正規化処理によって、全音素の分布の重なりを抑制しつつ正規分布に近づける効果を持つ(図4参照)。その結果、音素間の識別精度を低減することなく、背景雑音や残響などによる音響モデルと入力された音響特徴量のミスマッチ成分を低減することができ、音声認識精度の劣化を低減することができる。
【0055】
[第4の実施形態]
次に、本発明の第4の実施形態を説明する。図7は、本実施形態による正規化処理部102の構成を示している。本実施形態では、全体平均計算部702の前段に音声検出部を設ける事により音声区間を同定し、音声区間とその前後の数十ミリ秒を加えた時間に対応するフレーム数τ´での平均値を用いて正規化することを特徴とする。これにより、発声終了後に無音区間が長く続いた場合においても、正規化処理までの待ち時間を短くすることが可能となる。
【0056】
音声検出部701は、入力された音響特徴量に音声特有の特徴が含まれていることを検出し、音声区間を同定する。音声特有の特徴としては、音声のパワー、ケプストラム値、周波数などを用いることが可能である。全体平均計算部702は、音声検出部701で同定した音声区間とその前後の数十ミリ秒を加えた時間に対応するフレーム数τ´での発声に対応した音響特徴量をバッファから読み出し、その平均値を計算する。τ´の音響特徴量の平均値Eτ´(x)は計算式(24)で求める。
【0057】
【数15】
【0058】
局所平均計算部703は、予め設定した局所のフレーム数τ内の発声に対応した音響特徴量をバッファから読み出し、その平均値を計算する。局所のフレーム数は、音素の長さとして、例えば数十から数百ミリ秒に対応した数である。音素の長さなので発声する単語や人によって変動するが、本実施形態では固定値を使用する。局所のフレーム数τの音響特徴量の平均値Eτ(x)は計算式(17)で求める。
【0059】
局所分散計算部704は、予め設定した局所のフレーム数τ内の発声に対応した音響特徴量をバッファから読み出し、その分散値を、局所平均計算部703で算出した平均値に基づいて計算する。局所のフレーム数τの音響特徴量の分散値Vτ(x)は計算式(18)で求める。
【0060】
正規化処理計算部705は、正規化前の音声特徴量から全体平均計算部702で算出した発声全体の音響特徴量の平均値を減算し、局所分散計算部704で算出した局所のフレーム数τの音響特徴量の分散値で割ることで、正規化後の音響特徴量xτ´(t)を求めることができる(計算式(25)参照)。
【0061】
【数16】
【0062】
上述したとおり、全体平均計算部702の前段に音声検出部701を設ける事により音声区間を同定し、音声区間とその前後の数十ミリ秒を加えた時間に対応するフレーム数τ´での平均値を用いて正規化することにより、発声終了後に無音区間が長く続いた場合においても、正規化処理までの待ち時間を短くすることが可能となる。
【0063】
[第5の実施形態]
次に、本発明の第5の実施形態を説明する。図8は本実施形態による画像認識装置の構成を示している構成図である。図4において、マイクから入力された音声データの代わりにカメラから入力された画像とし、単語辞書・文法と音響モデルの代わりにオブジェクトモデルとし、音声認識結果の代わりに画像認識結果と置き換えることで、画像認識への適用も可能となる。
【0064】
画像特徴量分析部801は、カメラから入力された画像データに対して画像特徴量分析を行い、画像特徴量を計算する。正規化処理部802は、画像特徴量分析部801で計算した画像特徴量を画像特徴量の平均値および分散値を用いて正規化処理を行う。正規化処理については後述する。オブジェクトモデル学習部803は、学習用画像データに対して、認識対象の画像データと同一の画像特徴量分析を画像特徴量分析部801で行い、正規化処理部802で正規化を行って得た、学習用画像データの画像特徴量をオブジェクトモデル804に記憶させる。認識処理部805は、認識対象の画像データに対して画像特徴量分析部801で画像特徴量分析を行い、正規化処理部802で正規化処理を行って得た、認識対象の画像データの画像特徴量とオブジェクトモデル804が記憶している学習用画像データの画像特徴量を用いて認識処理を行い、認識結果を出力する。
【0065】
図9を参照し本実施形態における画像の正規化処理について説明する。図9は、本実施形態による正規化処理部102の構成を示している。全体平均計算部901は、カメラ等から画像認識装置に入力された画像データ全体の画像特徴量をバッファから読み出し、その平均値を計算する。画像データ全体の画像特徴量の平均値E(xi,j)は計算式(26)で求める。I、Jは静止画の縦軸、横軸のブロック数を表す。
【0066】
【数17】
【0067】
局所平均計算部902は、予め設定した画像データの局所範囲における画像特徴量の平均値を計算する。局所範囲としては、正規化対象画像範囲を含む周囲数ブロックなどを用いることが可能である。局所範囲(k,l)の画像特徴量の平均値E(xk,l)は計算式(27)で求める。I、Jは静止画の局所範囲での縦軸、横軸のブロック数を表す。
【0068】
【数18】
【0069】
局所分散計算部903は、予め設定した画像データの局所範囲における画像特徴量の分散値を、局所平均計算部902で算出した平均値に基づいて計算する。局所範囲(k,l)の画像特徴量の分散値V(xk,l)は計算式(28)で求める。
【0070】
【数19】
【0071】
正規化処理計算部904は、正規化前の画像特徴量から全体平均計算部901で算出した画像全体の画像特徴量の平均値を減算し、局所分散計算部903で算出した予め設定した画像データの範囲における画像特徴量の分散値で割ることで、正規化後の画像特徴量xk,lを求めることができる(計算式(29)参照)。
【0072】
【数20】
【0073】
上述したとおり、画像認識においても、画像特徴量に対して画像全体の平均値による正規化処理を行うことにより、すべての画像特徴量の分布の位置をオブジェクトモデルの該当画像特徴量の分布に揃え、更に局所の分散値による正規化処理によって、全画像特徴量の分布の重なりを抑制しつつ正規分布に近づける効果を持つ。その結果、画像特徴量の識別精度を低減することなく、影や輝度などによるオブジェクトモデルと入力された画像特徴量のミスマッチ成分を低減することができ、画像認識精度の劣化を低減することができる。
【0074】
なお、画像認識については、平面画像だけではなく、3D画像でも可能である。3D画像を作成する際にカメラの位置によって、対象物の陰が変わるが、本発明の正規化を用いることで、画像特徴量のミスマッチ成分を低減することができ、画像認識精度の劣化を低減することができる。
【0075】
[第6の実施形態]
また、画像認識に時間要素を取り入れることで、動画についても動画特徴量のミスマッチ成分を低減することができ、動画認識精度の劣化を低減することができる。
【0076】
本発明の第6の実施形態を説明する。図10は本実施形態による動画認識装置の構成を示している構成図である。図4において、マイクから入力された音声データの代わりにカメラから入力された動画とし、単語辞書・文法記憶部と音響モデル記憶部の代わりにオブジェクトモデル記憶部とし、音声認識結果の代わりに動画認識結果と置き換えることで、動画認識への適用も可能となる。
【0077】
動画特徴量分析部1001は、カメラから入力された動画データに対して動画特徴量分析を行い、動画特徴量を計算する。正規化処理部1002は、動画特徴量分析部1001で計算した動画特徴量を動画特徴量の平均値および分散値を用いて正規化処理を行う。正規化処理については後述する。オブジェクトモデル学習部1003は、学習用動画データに対して、認識対象の動画データと同一の動画特徴量分析を動画特徴量分析部1001で行い、正規化処理部1002で正規化を行って得た、学習用動画データの動画特徴量をオブジェクトモデル1004に記憶させる。認識処理部1005は、認識対象の動画データに対して動画特徴量分析部1001で動画特徴量分析を行い、正規化処理部1002で正規化処理を行って得た、認識対象の動画データの動画特徴量とオブジェクトモデル1004が記憶している学習用動画データの動画特徴量を用いて認識処理を行い、認識結果を出力する。
【0078】
図11を参照し本実施形態における動画の正規化処理について説明する。図11は、本実施形態による正規化処理部102の構成を示している。全体平均計算部1101は、カメラ等から動画認識装置に入力された動画データ全体の動画特徴量をバッファから読み出し、その平均値を計算する。動画データ全体の動画特徴量の平均値E(xi,j,T)は計算式(30)で求める。I、Jは動画の縦軸、横軸のブロック数、Tはフレーム数を表す。
【0079】
【数21】
【0080】
局所平均計算部1102は、予め設定した動画データの局所範囲における画像特徴量の平均値を計算する。局所範囲としては、正規化対象動画範囲を含む周囲数ブロックおよび局所のフレーム数を用いることが可能である。局所範囲(k,l)および局所のフレーム数τの動画特徴量の平均値E(xk,l,τ)は計算式(31)で求める。I、Jは動画の局所範囲での縦軸、横軸の区間のブロック数、τは局所のフレーム数を表す。
【0081】
【数22】
【0082】
局所分散計算部1103は、予め設定した動画データの局所範囲における動画特徴量の分散値を、局所平均計算部1102で算出した平均値に基づいて計算する。局所範囲(k,l)および局所のフレーム数τの動画特徴量の分散値V(xk,l,τ)は計算式(32)で求める。
【0083】
【数23】
【0084】
正規化処理計算部1104は、正規化前の動画特徴量から全体平均計算部1101で算出した動画全体の動画特徴量の平均値を減算し、局所分散計算部1103で算出した予め設定した動画データの範囲および局所のフレーム数における動画特徴量の分散値で割ることで、正規化後の動画特徴量xk,l,τを求めることができる(計算式(33)参照)。
【0085】
【数24】
【0086】
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【0087】
例えば、音声、画像、および動画について詳述してきたが、音声、画像、および動画に限らず、入力されたデータの特徴量に基づいてパタンマッチングを行う認識装置にも本発明が適用可能である。
【0088】
また、第2〜第4の実施形態については音声認識について説明したが、画像認識および動画認識についても適用可能である。
【0089】
また、図1などに示す正規化処理部102の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、正規化処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものであってもよい。
【0090】
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、フラッシュメモリ等の書き込み可能な不揮発性メモリ、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
【0091】
さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(例えばDRAM(Dynamic Random Access Memory))のように、一定時間プログラムを保持しているものも含むものとする。
【0092】
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
【図面の簡単な説明】
【0093】
【図1】本発明の一実施形態による音声認識装置の構成を示した構成図である。
【図2】セグメンタルMVN手法の正規化処理による分布の変化の様子を示した図である。
【図3】本発明の第1の実施形態による正規化処理部の構成を示した図である。
【図4】本発明の正規化処理による分布の変化の様子を示した図である。
【図5】本発明の第2の実施形態による正規化処理部の構成を示した図である。
【図6】本発明の第3の実施形態による正規化処理部の構成を示した図である。
【図7】本発明の第4の実施形態による正規化処理部の構成を示した図である。
【図8】本発明の第5の実施形態による画像認識装置の構成を示した構成図である。
【図9】本発明の第5の実施形態による正規化処理部の構成を示した図である。
【図10】本発明の第6の実施形態による画像認識装置の構成を示した構成図である。
【図11】本発明の第6の実施形態による正規化処理部の構成を示した図である。
【符号の説明】
【0094】
101・・・音声分析部、102,802,1002・・・正規化処理部、103・・・音響モデル学習部、104・・・音響モデル、105・・・言語モデル、106,805・・・認識処理部、301,501,702,901,1101・・・全体平均計算部、302,502,602,703,902,1102・・・局所平均計算部、303,503,603,704,903,1103・・・局所分散計算部、304,504,604,705,904,1104・・・正規化処理計算部、601・・・固定平均値記憶部、701・・・音声検出部、801・・・画像特徴量分析部、803,1003・・・オブジェクトモデル学習部、804,1004・・・オブジェクトモデル、1001・・・動画特徴量分析部
【技術分野】
【0001】
本発明は、パタンマッチング装置、パタンマッチングプログラム、およびパタンマッチング方法に関する。
【背景技術】
【0002】
音声認識装置は、入力音声信号から抽出された時系列の音響特徴量を、母音や子音などの音素を単位として、音響特徴量空間における確率密度分布が予め学習された音響モデルと照合することにより認識結果を得る。確率モデルである音響モデルは、音響特徴量の入力に対して、その音素らしさのスコア(音響尤度)を出力する。音声認識装置は文法と単語辞書の制約に従って音素らしさのスコア(音響尤度)を発声全体に渡って累積し、累積スコアが最も高い単語の並びを認識結果として出力する。
【0003】
音響特徴量は多次元ベクトルの時系列データであり、各次元において各音素に該当するデータの頻度分布を集計すると正規分布に近い形状、もしくは複数の正規分布の和に近い形状になる。こうした音響特徴量の分布を表現するために、音響モデルの確率密度分布は多次元正規分布もしくは複数の多次元正規分布によって表現される。しかし、実際の照合においては、マイク特性のばらつき、話者による違い、背景雑音などにより、入力音響特徴量の分布と音響モデルの確率密度分布との間にミスマッチが生じ、認識率低下の原因となる。入力音響特徴量と音響モデルの照合において、このミスマッチを解消する手法として、ケプストラム平均値正規化(CMN: Cepstral Mean Normalization)という手法が広く利用されており、CMNをさらに発展させた手法として平均値・分散正規化(MVN: Mean and Variance Normalization)が提案されている。CMNは、発声の各時刻の音響特徴量からその発声全体の平均値を減算し、音響特徴量の平均をゼロにすることで、入力音響特徴量の分布と音響モデルの確率密度分布を揃え、ミスマッチを低減する手法である。CMN前の各次元の音響特徴量をx(t)、CMN後の音響特徴量をxc(t)とすると、CMNの操作は(1)式、(2)式で表される。Tは発声全体のフレーム数を表す。
【0004】
【数1】
【0005】
一方、MVNとは、発声の各時刻の音響特徴量を、その発声全体の平均値と分散で正規化して、基準系の正規分布N(平均0、分散1)に揃えることで、マイク特性などによる入力音響特徴量の分布と音響モデルの確率密度分布とのミスマッチを低減する手法である。MVN前の各次元の音響特徴量をx(t)、MVN後の音響特徴量をxm(t)とすると、MVNの操作は(3)〜(5)式で表される。
【0006】
【数2】
【0007】
また、音声に限らず、静止画および動画についても、CMNおよびMVNにて正規化が可能である。静止画像の場合、各次元の画像特徴量をxi,j、CMN後の画像特徴量をxci,jとすると、CMNの操作は式(6)、(7)で表される。I、Jは静止画の縦軸、横軸のブロック数を表す。
【0008】
【数3】
【0009】
一方、MVNでは、MVN前の各次元の画像特徴量をxi,j、MVN後の画像特徴量をxmi,jとすると、MVNの操作は式(8)〜(10)で表される。
【0010】
【数4】
【0011】
動画の場合、各次元の動画特徴量をxi,j,t、CMN後の動画特徴量をxci,j,tとすると、CMNの操作は式(11)、(12)で表される。I、Jは動画の縦軸、横軸のブロック数、Tはフレーム数を表す。
【0012】
【数5】
【0013】
一方、MVNでは、MVN前の各次元の動画特徴量をxi,j,t、MVN後の動画特徴量をxmi,j,tとすると、MVNの操作は式(13)〜(15)で表される。
【0014】
【数6】
【0015】
ただし、発声全体の平均値や分散を用いるCMNやMVNは、発声が終わるまで正規化後の音響特徴量が得られないために照合処理の開始が遅れ、発声終了から認識結果出力までの待ち時間を長くしてしまうというデメリットがある。この処理遅れを低減する手法として、発声全体の代わりに数十〜数百ミリ秒の局所の区間から平均値や分散を算出して正規化に用いる手法が提案されている。以降、発声全体から計算した平均値を用いて音響特徴量を正規化す手法をバッチCMN、発声の一部区間から計算した平均値を用いて音響特徴量を正規化する手法をセグメンタルCMNとよぶ。同様に、発声全体から計算した平均値と分散値を用いて音響特徴量を正規化する手法をバッチMVN、発声の一部区間から計算した平均値と分散値を用いて音響特徴量を正規化する手法をセグメンタルMVNと呼ぶ。
【0016】
また、特徴量の量子化を仮定しない平均値・分散正規化(MVN)において算出した分散の値がゼロもしくはゼロに近い小さな値の場合には分散正規化を行わない手法も知られている(例えば、特許文献1参照)。
【特許文献1】特開2002−278586号公報
【発明の開示】
【発明が解決しようとする課題】
【0017】
しかし、CMNでは、バッチCMNの方が、セグメンタルCMNよりも長い音声区間から特徴量の平均値を算出するため、精度が高く認識率の改善効果が高いが、入力音響特徴量の分布のばらつきと、参照する音響モデルの確率密度分布のばらつきまで揃えることはできない。
【0018】
また、MVNでは、バッチMVNは発声全体の音響特徴量の分布を平均0、分散1に正規化するが、音声認識の単位となる音素ごとの分布に着目すると、分散は正規化されていない。一方、セグメンタルMVNで平均・分散の計算区間を1音素相当の時間長(数十から数百ミリ秒)に設定すれば、音素ごとの分布の分散を正規化するのに近い効果が得られる。ただし、短時間の平均値も0に正規化されるので、すべての音素の分布の平均値が0に近づくため重なりが大きくなり(図2参照)、音素の識別能力の低下を招く。
【0019】
また、特許文献1では、発声全体の平均値と分散値を用いて正規化するバッチMVNと、局所の平均値と分散値を用いて音響特徴量を正規化するセグメンタルMVNへの適用についてのみ述べられており、前述の音素の識別能力の低下を招くという問題点を解決することができない。
【0020】
すなわち、CMNでは分布のばらつき(分散)を正規化することができず、セグメンタルMVNでは、音素ごとの分散の正規化に近い効果があるが、音素間で分布の平均値が近づいてしまい音素の識別能力が低下してしまうという問題がある。
【0021】
また、上記の課題は、音声に限らず、外部より入力されたデータの特徴量を算出し、算出した特徴量を正規化し、正規化済み特徴量に基づいてパタンマッチングを行うパタンマッチング装置にも当てはまる。
【0022】
本発明は、上記の課題を解決するためになされたものであり、特徴量の識別能力を低下させること無く特徴量を正規化することが可能なパタンマッチング装置、パタンマッチングプログラム、およびパタンマッチング方法を提供することを目的とする。
【課題を解決するための手段】
【0023】
本発明は、外部より入力されたデータの特徴量を算出する分析手段と、前記分析手段で算出された前記特徴量を正規化する正規化手段と、前記正規化手段で正規化された正規化済み特徴量に基づいて、パタンマッチングを行うパタンマッチング手段と、を備えたパタンマッチング装置において、前記正規化手段は、第1の範囲に含まれる前記特徴量の平均値である全体平均値を取得する全体平均取得手段と、前記第1の範囲よりも小さい第2の範囲に含まれる前記特徴量の平均値である局所平均値を計算する局所平均計算手段と、前記局所平均値に基づいて、前記第2の範囲に含まれる前記特徴量の分散値である局所分散値を計算する局所分散計算手段と、前記全体平均値と複数の前記局所分散値とに基づいて前記特徴量を正規化する正規化処理計算手段と、を備えたことを特徴とするパタンマッチング装置である。
【0024】
また、本発明の前記全体平均取得手段は、前記第1の範囲に含まれる前記特徴量から前記全体平均値を計算することを特徴とする。
【0025】
また、本発明の前記全体平均取得手段は、予め記憶した所定値を前記全体平均値とすることを特徴とする。
【0026】
また、本発明は、パタンマッチングの対象とする前記特徴量が含まれる範囲を同定する範囲同定手段を備え、前記全体平均取得手段は、前記範囲同定手段で同定された範囲に基づく前記第1の範囲に含まれる前記特徴量から前記全体平均値を計算することを特徴とする、請求項2に記載のパタンマッチング装置である。
【0027】
また、本発明の前記局所平均計算手段は、過去に計算した前記局所平均値により重み付けした値に基づいて、前記局所平均値を計算し、前記局所分散計算手段は、過去に計算した前記局所分散値により重み付けした値に基づいて、前記局所分散値を計算することを特徴とする。
【0028】
また、本発明は、外部より入力されたデータの特徴量を算出する分析手段と、前記分析手段で算出された前記特徴量を正規化する正規化手段と、前記正規化手段で正規化された正規化済み特徴量に基づいて、パタンマッチングを行うパタンマッチング手段と、としてコンピュータを機能させるためのパタンマッチングプログラムにおいて、前記正規化手段は、第1の範囲に含まれる前記特徴量の平均値である全体平均値を取得する全体平均取得手段と、前記第1の範囲よりも小さい第2の範囲に含まれる前記特徴量の平均値である局所平均値を計算する局所平均計算手段と、前記局所平均値に基づいて、前記第2の範囲に含まれる前記特徴量の分散値である局所分散値を計算する局所分散計算手段と、前記全体平均値と複数の前記局所分散値とに基づいて前記特徴量を正規化する正規化処理計算手段と、としてコンピュータを機能させるためのパタンマッチングプログラムである。
【0029】
また、本発明は、外部より入力されたデータの特徴量を算出する分析ステップと、前記分析ステップで算出された前記特徴量を正規化する正規化ステップと、前記正規化ステップで正規化された正規化済み特徴量に基づいて、パタンマッチングを行うパタンマッチングステップと、を備えたパタンマッチング方法において、前記正規化ステップは、第1の範囲に含まれる前記特徴量の平均値である全体平均値を取得する全体平均取得ステップと、前記第1の範囲よりも小さい第2の範囲に含まれる前記特徴量の平均値である局所平均値を計算する局所平均計算ステップと、前記局所平均値に基づいて、前記第2の範囲に含まれる前記特徴量の分散値である局所分散値を計算する局所分散計算ステップと、前記全体平均値と複数の前記局所分散値とに基づいて前記特徴量を正規化する正規化処理計算ステップと、を備えたことを特徴とするパタンマッチング方法である。
【発明の効果】
【0030】
本発明によれば、特徴量の識別能力を低下させること無く特徴量を正規化することができる。
【発明を実施するための最良の形態】
【0031】
以下、図面を参照し、本発明の実施形態を説明する。図1は本発明の一実施形態による音声認識装置の構成を示している構成図である。音響分析部101は、マイク等より入力された音声データに対して音響分析を行い、音響特徴量を計算する。入力は、プッシュ・ツー・トークで制御することも可能である。また、音響分析部101は、計算した音響特徴量を一時的にバッファに記憶させる。正規化処理部102は、音響分析部101がバッファに記憶させた音響特徴量を、音響特徴量の平均値および分散値を用いて正規化処理を行う。正規化処理については後述する。音響モデル学習部103は、学習用音声データに対して、認識対象の音声データと同一の音響分析を音響分析部101で行い、正規化処理部102で正規化を行って得た、学習用音声データの音響特徴量を音響モデル記憶部104に記憶させる。言語モデル記憶部105は、単語辞書や文法を記憶する。認識処理部106は、認識対象の音声データに対して音響分析部101で音響分析を行い、正規化処理部102で正規化処理を行って得た、認識対象の音声データの音響特徴量と音響モデル記憶部104が記憶している学習用音声データの音響特徴量および言語モデルが記憶している単語辞書や文法を用いてパタンマッチングを行い、認識結果を出力する。
【0032】
[第1の実施形態]
まず、本発明の第1の実施形態を説明する。図3は、本実施形態による正規化処理部102の構成を示している。マイクなどから音声認識装置に入力された1発声全体の音響特徴量は、音響分析部101によって図示せぬバッファに格納されている。全体平均計算部301は、発声全体に対応したフレーム数T内の音響特徴量をバッファから読み出し、その平均値を計算する。発声全体の長さとして、単語の長さ、音声の切れ目までの長さ、句読点から句読点までの長さ、入力された音声全体の長さなどを用いることが可能である。発声全体の音響特徴量の平均値E(x)は計算式(16)で求める。
【0033】
【数7】
【0034】
局所平均計算部302は、予め設定した局所のフレーム数τ内の発声に対応した音響特徴量をバッファから読み出し、その平均値を計算する。局所のフレーム数τは、音素の長さとして、例えば数十から数百ミリ秒に対応した数である。音素の長さなので発声する単語や人によって変動するが、本実施形態では固定値を使用する。局所のフレーム数τの音響特徴量の平均値Eτ(x)は計算式(17)で求める。
【0035】
【数8】
【0036】
局所分散計算部303は、予め設定した局所のフレーム数τ内の発声に対応した音響特徴量をバッファから読み出し、その分散値を、局所平均計算部302で算出した平均値に基づいて計算する。局所のフレーム数τの音響特徴量の分散値Vτ(x)は計算式(18)で求める。
【0037】
【数9】
【0038】
正規化処理計算部304は、正規化前の音声特徴量から全体平均計算部301で算出した発声全体に対しての音響特徴量の平均値を減算し、局所分散計算部303で算出した局所のフレーム数τの音響特徴量の分散値で割ることで、正規化後の音響特徴量xτ(t)を求めることができる(計算式(19)参照)。
【0039】
【数10】
【0040】
上述したとおり、入力音響特徴量に対して、発声全体の平均値による正規化処理を行うことにより、すべての音素の分布の位置を音響モデルの該当音素の分布に揃え、更に局所の分散値による正規化処理によって、全音素の分布の重なりを抑制しつつ正規分布に近づける効果を持つ(図4参照)。その結果、音素間の識別精度を低減することなく、背景雑音や残響などによる音響モデルと入力された音響特徴量のミスマッチ成分を低減することができ、音声認識精度の劣化を低減することができる。
【0041】
なお、全体平均計算部301で、平均を求めるフレーム数を発声時間に対応する数としたが、代わりにフレーム数τ´を予め設定してもよい。
【0042】
[第2の実施形態]
次に、本発明の第2の実施形態を説明する。図5は、本実施形態による正規化処理部102の構成を示している。本実施形態では、対象とする局所のフレーム数での局所平均値および局所分散値を算出する際に、1つ前の局所のフレーム数の音響特徴量から計算した局所平均値(以下、1つ前の局所平均値と記す。)および1つ前の局所のフレーム数の音響特徴量から計算した局所分散値(以下、1つ前の局所分散値と記す。)を用いることを特徴とする。突発的な雑音が音声認識装置に入力された場合、局所平均値および局所分散値が大きく変わり、入力された音声データを正しく認識することが困難となるが、1つ前の局所平均値および1つ前の局所分散値を用いることで、突発的に音声認識装置に雑音が入力された場合でも局所平均値および局所分散値が大きく変わらず、音声認識制度の劣化を低減することができる。
【0043】
全体平均計算部501は、第1の実施形態と同様に音声認識装置に入力された発声全体対応した音響特徴量をバッファから読み出し、その平均値E(x)を計算する。局所平均計算部502は、予め設定した局所のフレーム数τ内の発声に対応した音響特徴量をバッファから読み出し、その平均値を計算する。その際忘却係数αを予め設定し、1つ前の局所平均値を重み付け加算する。1つ前の局所平均値を重み付け加算した、局所のフレーム数τの音響特徴量の局所平均値Ep(t)は計算式(20)で求める。
【0044】
【数11】
【0045】
局所分散計算部503は、予め設定した局所のフレーム数τ内の発声に対応した音響特徴量をバッファから読み出し、その分散値を、局所平均計算部502で算出した平均値に基づいて計算する。その際忘却係数αを予め設定し、1つ前の局所平均値を重み付け加算する。1つ前の局所平均値を重み付け加算した、局所のフレーム数τの音響特徴量の局所分散値Vp(t)は計算式(21)で求める。
【0046】
【数12】
【0047】
正規化処理計算部504は、正規化前の音声特徴量から全体平均計算部501で算出した発声全体の音響特徴量の平均値を減算し、局所分散計算部503で算出した局所のフレーム数τの音響特徴量の分散値で割ることで、正規化後の音響特徴量xp(t)を求めることができる(計算式(22)参照)。
【0048】
【数13】
【0049】
上述したとおり、入力音響特徴量に対して、発声全体の平均値による正規化処理を行うことにより、すべての音素の分布の位置を音響モデルの該当音素の分布に揃え、更に局所の分散値による正規化処理によって、全音素の分布の重なりを抑制しつつ正規分布に近づける効果を持つ(図4参照)。その結果、音素間の識別精度を低減することなく、背景雑音や残響などによる音響モデルと入力された音響特徴量のミスマッチ成分を低減することができ、音声認識精度の劣化を低減することができる。さらに、突発的な雑音が音声認識装置に入力された場合、入力された音声データを認識することが困難となるが、1つ前の局所平均値および1つ前の局所分散値を用いることで、突発的に音声認識装置に雑音が入力された場合でも平均値が大きく変わらず、音声認識精度の劣化を低減することができる。
【0050】
[第3の実施形態]
次に、本発明の第3の実施形態を説明する。図6は、本実施形態による正規化処理部102の構成を示している。本実施形態では、実施形態1での発声全体の音響特徴量の平均値を算出する代わりに、予め計算した固定の平均値を用いることを特徴とする。これにより、発声全体から音響特徴量の平均値を計算する必要がないため、音響特徴量の正規化が完了するまでの待ち時間が、局所分散の計算に必要な時間となり、リアルタイム処理が可能となる。
【0051】
固定平均値記憶部601は、予め設定した音響特徴量の平均値Ef(x)を記憶する。固定値は、前の発声の平均値を用いる、もしくは過去の莫大な音声データから求めることなどが可能である。
【0052】
局所平均計算部602、局所分散計算部603は、第1の実施形態と同様に局所平均値および局所分散値を算出する。正規化処理計算部602は、固定平均値記憶部601に記憶された固定平均値を用い、正規化前の音声特徴量から固定平均値を減算し、局所分散計算部603で算出した局所のフレーム数τの音響特徴量の分散値で割ることで、正規化後の音響特徴量xf(t)を求めることができる(計算式(23)参照)。
【0053】
【数14】
【0054】
上述したとおり、発声全体の音響特徴量の平均値を算出する代わりに、予め計算した固定の平均値を用いることで、発声全体から音響特徴量の平均値をリアルタイムに計算する必要がない。これにより、音響特徴量の正規化が完了するまでの待ち時間が局所分散の計算に必要な時間となり、リアルタイム処理が可能となる。また、入力音響特徴量に対して、発声全体の平均値による正規化処理を行うことにより、すべての音素の分布の位置を音響モデルの該当音素の分布に揃え、更に局所の分散値による正規化処理によって、全音素の分布の重なりを抑制しつつ正規分布に近づける効果を持つ(図4参照)。その結果、音素間の識別精度を低減することなく、背景雑音や残響などによる音響モデルと入力された音響特徴量のミスマッチ成分を低減することができ、音声認識精度の劣化を低減することができる。
【0055】
[第4の実施形態]
次に、本発明の第4の実施形態を説明する。図7は、本実施形態による正規化処理部102の構成を示している。本実施形態では、全体平均計算部702の前段に音声検出部を設ける事により音声区間を同定し、音声区間とその前後の数十ミリ秒を加えた時間に対応するフレーム数τ´での平均値を用いて正規化することを特徴とする。これにより、発声終了後に無音区間が長く続いた場合においても、正規化処理までの待ち時間を短くすることが可能となる。
【0056】
音声検出部701は、入力された音響特徴量に音声特有の特徴が含まれていることを検出し、音声区間を同定する。音声特有の特徴としては、音声のパワー、ケプストラム値、周波数などを用いることが可能である。全体平均計算部702は、音声検出部701で同定した音声区間とその前後の数十ミリ秒を加えた時間に対応するフレーム数τ´での発声に対応した音響特徴量をバッファから読み出し、その平均値を計算する。τ´の音響特徴量の平均値Eτ´(x)は計算式(24)で求める。
【0057】
【数15】
【0058】
局所平均計算部703は、予め設定した局所のフレーム数τ内の発声に対応した音響特徴量をバッファから読み出し、その平均値を計算する。局所のフレーム数は、音素の長さとして、例えば数十から数百ミリ秒に対応した数である。音素の長さなので発声する単語や人によって変動するが、本実施形態では固定値を使用する。局所のフレーム数τの音響特徴量の平均値Eτ(x)は計算式(17)で求める。
【0059】
局所分散計算部704は、予め設定した局所のフレーム数τ内の発声に対応した音響特徴量をバッファから読み出し、その分散値を、局所平均計算部703で算出した平均値に基づいて計算する。局所のフレーム数τの音響特徴量の分散値Vτ(x)は計算式(18)で求める。
【0060】
正規化処理計算部705は、正規化前の音声特徴量から全体平均計算部702で算出した発声全体の音響特徴量の平均値を減算し、局所分散計算部704で算出した局所のフレーム数τの音響特徴量の分散値で割ることで、正規化後の音響特徴量xτ´(t)を求めることができる(計算式(25)参照)。
【0061】
【数16】
【0062】
上述したとおり、全体平均計算部702の前段に音声検出部701を設ける事により音声区間を同定し、音声区間とその前後の数十ミリ秒を加えた時間に対応するフレーム数τ´での平均値を用いて正規化することにより、発声終了後に無音区間が長く続いた場合においても、正規化処理までの待ち時間を短くすることが可能となる。
【0063】
[第5の実施形態]
次に、本発明の第5の実施形態を説明する。図8は本実施形態による画像認識装置の構成を示している構成図である。図4において、マイクから入力された音声データの代わりにカメラから入力された画像とし、単語辞書・文法と音響モデルの代わりにオブジェクトモデルとし、音声認識結果の代わりに画像認識結果と置き換えることで、画像認識への適用も可能となる。
【0064】
画像特徴量分析部801は、カメラから入力された画像データに対して画像特徴量分析を行い、画像特徴量を計算する。正規化処理部802は、画像特徴量分析部801で計算した画像特徴量を画像特徴量の平均値および分散値を用いて正規化処理を行う。正規化処理については後述する。オブジェクトモデル学習部803は、学習用画像データに対して、認識対象の画像データと同一の画像特徴量分析を画像特徴量分析部801で行い、正規化処理部802で正規化を行って得た、学習用画像データの画像特徴量をオブジェクトモデル804に記憶させる。認識処理部805は、認識対象の画像データに対して画像特徴量分析部801で画像特徴量分析を行い、正規化処理部802で正規化処理を行って得た、認識対象の画像データの画像特徴量とオブジェクトモデル804が記憶している学習用画像データの画像特徴量を用いて認識処理を行い、認識結果を出力する。
【0065】
図9を参照し本実施形態における画像の正規化処理について説明する。図9は、本実施形態による正規化処理部102の構成を示している。全体平均計算部901は、カメラ等から画像認識装置に入力された画像データ全体の画像特徴量をバッファから読み出し、その平均値を計算する。画像データ全体の画像特徴量の平均値E(xi,j)は計算式(26)で求める。I、Jは静止画の縦軸、横軸のブロック数を表す。
【0066】
【数17】
【0067】
局所平均計算部902は、予め設定した画像データの局所範囲における画像特徴量の平均値を計算する。局所範囲としては、正規化対象画像範囲を含む周囲数ブロックなどを用いることが可能である。局所範囲(k,l)の画像特徴量の平均値E(xk,l)は計算式(27)で求める。I、Jは静止画の局所範囲での縦軸、横軸のブロック数を表す。
【0068】
【数18】
【0069】
局所分散計算部903は、予め設定した画像データの局所範囲における画像特徴量の分散値を、局所平均計算部902で算出した平均値に基づいて計算する。局所範囲(k,l)の画像特徴量の分散値V(xk,l)は計算式(28)で求める。
【0070】
【数19】
【0071】
正規化処理計算部904は、正規化前の画像特徴量から全体平均計算部901で算出した画像全体の画像特徴量の平均値を減算し、局所分散計算部903で算出した予め設定した画像データの範囲における画像特徴量の分散値で割ることで、正規化後の画像特徴量xk,lを求めることができる(計算式(29)参照)。
【0072】
【数20】
【0073】
上述したとおり、画像認識においても、画像特徴量に対して画像全体の平均値による正規化処理を行うことにより、すべての画像特徴量の分布の位置をオブジェクトモデルの該当画像特徴量の分布に揃え、更に局所の分散値による正規化処理によって、全画像特徴量の分布の重なりを抑制しつつ正規分布に近づける効果を持つ。その結果、画像特徴量の識別精度を低減することなく、影や輝度などによるオブジェクトモデルと入力された画像特徴量のミスマッチ成分を低減することができ、画像認識精度の劣化を低減することができる。
【0074】
なお、画像認識については、平面画像だけではなく、3D画像でも可能である。3D画像を作成する際にカメラの位置によって、対象物の陰が変わるが、本発明の正規化を用いることで、画像特徴量のミスマッチ成分を低減することができ、画像認識精度の劣化を低減することができる。
【0075】
[第6の実施形態]
また、画像認識に時間要素を取り入れることで、動画についても動画特徴量のミスマッチ成分を低減することができ、動画認識精度の劣化を低減することができる。
【0076】
本発明の第6の実施形態を説明する。図10は本実施形態による動画認識装置の構成を示している構成図である。図4において、マイクから入力された音声データの代わりにカメラから入力された動画とし、単語辞書・文法記憶部と音響モデル記憶部の代わりにオブジェクトモデル記憶部とし、音声認識結果の代わりに動画認識結果と置き換えることで、動画認識への適用も可能となる。
【0077】
動画特徴量分析部1001は、カメラから入力された動画データに対して動画特徴量分析を行い、動画特徴量を計算する。正規化処理部1002は、動画特徴量分析部1001で計算した動画特徴量を動画特徴量の平均値および分散値を用いて正規化処理を行う。正規化処理については後述する。オブジェクトモデル学習部1003は、学習用動画データに対して、認識対象の動画データと同一の動画特徴量分析を動画特徴量分析部1001で行い、正規化処理部1002で正規化を行って得た、学習用動画データの動画特徴量をオブジェクトモデル1004に記憶させる。認識処理部1005は、認識対象の動画データに対して動画特徴量分析部1001で動画特徴量分析を行い、正規化処理部1002で正規化処理を行って得た、認識対象の動画データの動画特徴量とオブジェクトモデル1004が記憶している学習用動画データの動画特徴量を用いて認識処理を行い、認識結果を出力する。
【0078】
図11を参照し本実施形態における動画の正規化処理について説明する。図11は、本実施形態による正規化処理部102の構成を示している。全体平均計算部1101は、カメラ等から動画認識装置に入力された動画データ全体の動画特徴量をバッファから読み出し、その平均値を計算する。動画データ全体の動画特徴量の平均値E(xi,j,T)は計算式(30)で求める。I、Jは動画の縦軸、横軸のブロック数、Tはフレーム数を表す。
【0079】
【数21】
【0080】
局所平均計算部1102は、予め設定した動画データの局所範囲における画像特徴量の平均値を計算する。局所範囲としては、正規化対象動画範囲を含む周囲数ブロックおよび局所のフレーム数を用いることが可能である。局所範囲(k,l)および局所のフレーム数τの動画特徴量の平均値E(xk,l,τ)は計算式(31)で求める。I、Jは動画の局所範囲での縦軸、横軸の区間のブロック数、τは局所のフレーム数を表す。
【0081】
【数22】
【0082】
局所分散計算部1103は、予め設定した動画データの局所範囲における動画特徴量の分散値を、局所平均計算部1102で算出した平均値に基づいて計算する。局所範囲(k,l)および局所のフレーム数τの動画特徴量の分散値V(xk,l,τ)は計算式(32)で求める。
【0083】
【数23】
【0084】
正規化処理計算部1104は、正規化前の動画特徴量から全体平均計算部1101で算出した動画全体の動画特徴量の平均値を減算し、局所分散計算部1103で算出した予め設定した動画データの範囲および局所のフレーム数における動画特徴量の分散値で割ることで、正規化後の動画特徴量xk,l,τを求めることができる(計算式(33)参照)。
【0085】
【数24】
【0086】
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【0087】
例えば、音声、画像、および動画について詳述してきたが、音声、画像、および動画に限らず、入力されたデータの特徴量に基づいてパタンマッチングを行う認識装置にも本発明が適用可能である。
【0088】
また、第2〜第4の実施形態については音声認識について説明したが、画像認識および動画認識についても適用可能である。
【0089】
また、図1などに示す正規化処理部102の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、正規化処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものであってもよい。
【0090】
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、フラッシュメモリ等の書き込み可能な不揮発性メモリ、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
【0091】
さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(例えばDRAM(Dynamic Random Access Memory))のように、一定時間プログラムを保持しているものも含むものとする。
【0092】
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
【図面の簡単な説明】
【0093】
【図1】本発明の一実施形態による音声認識装置の構成を示した構成図である。
【図2】セグメンタルMVN手法の正規化処理による分布の変化の様子を示した図である。
【図3】本発明の第1の実施形態による正規化処理部の構成を示した図である。
【図4】本発明の正規化処理による分布の変化の様子を示した図である。
【図5】本発明の第2の実施形態による正規化処理部の構成を示した図である。
【図6】本発明の第3の実施形態による正規化処理部の構成を示した図である。
【図7】本発明の第4の実施形態による正規化処理部の構成を示した図である。
【図8】本発明の第5の実施形態による画像認識装置の構成を示した構成図である。
【図9】本発明の第5の実施形態による正規化処理部の構成を示した図である。
【図10】本発明の第6の実施形態による画像認識装置の構成を示した構成図である。
【図11】本発明の第6の実施形態による正規化処理部の構成を示した図である。
【符号の説明】
【0094】
101・・・音声分析部、102,802,1002・・・正規化処理部、103・・・音響モデル学習部、104・・・音響モデル、105・・・言語モデル、106,805・・・認識処理部、301,501,702,901,1101・・・全体平均計算部、302,502,602,703,902,1102・・・局所平均計算部、303,503,603,704,903,1103・・・局所分散計算部、304,504,604,705,904,1104・・・正規化処理計算部、601・・・固定平均値記憶部、701・・・音声検出部、801・・・画像特徴量分析部、803,1003・・・オブジェクトモデル学習部、804,1004・・・オブジェクトモデル、1001・・・動画特徴量分析部
【特許請求の範囲】
【請求項1】
外部より入力されたデータの特徴量を算出する分析手段と、
前記分析手段で算出された前記特徴量を正規化する正規化手段と、
前記正規化手段で正規化された正規化済み特徴量に基づいて、パタンマッチングを行うパタンマッチング手段と、
を備えたパタンマッチング装置において、
前記正規化手段は、
第1の範囲に含まれる前記特徴量の平均値である全体平均値を取得する全体平均取得手段と、
前記第1の範囲よりも小さい第2の範囲に含まれる前記特徴量の平均値である局所平均値を計算する局所平均計算手段と、
前記局所平均値に基づいて、前記第2の範囲に含まれる前記特徴量の分散値である局所分散値を計算する局所分散計算手段と、
前記全体平均値と複数の前記局所分散値とに基づいて前記特徴量を正規化する正規化処理計算手段と、
を備えたことを特徴とするパタンマッチング装置。
【請求項2】
前記全体平均取得手段は、前記第1の範囲に含まれる前記特徴量から前記全体平均値を計算する
ことを特徴とする、請求項1に記載のパタンマッチング装置。
【請求項3】
前記全体平均取得手段は、予め記憶した所定値を前記全体平均値とする
ことを特徴とする、請求項1に記載のパタンマッチング装置。
【請求項4】
パタンマッチングの対象とする前記特徴量が含まれる範囲を同定する範囲同定手段
を備え、
前記全体平均取得手段は、前記範囲同定手段で同定された範囲に基づく前記第1の範囲に含まれる前記特徴量から前記全体平均値を計算することを特徴とする、請求項2に記載のパタンマッチング装置。
【請求項5】
前記局所平均計算手段は、過去に計算した前記局所平均値を重み付けした値に基づいて、前記局所平均値を計算し、
前記局所分散計算手段は、過去に計算した前記局所分散値を重み付けした値に基づいて、前記局所分散値を計算する
ことを特徴とする請求項1〜4に記載のパタンマッチング装置。
【請求項6】
外部より入力されたデータの特徴量を算出する分析手段と、
前記分析手段で算出された前記特徴量を正規化する正規化手段と、
前記正規化手段で正規化された正規化済み特徴量に基づいて、パタンマッチングを行うパタンマッチング手段と、
としてコンピュータを機能させるためのパタンマッチングプログラムにおいて、
前記正規化手段は、
第1の範囲に含まれる前記特徴量の平均値である全体平均値を取得する全体平均取得手段と、
前記第1の範囲よりも小さい第2の範囲に含まれる前記特徴量の平均値である局所平均値を計算する局所平均計算手段と、
前記局所平均値に基づいて、前記第2の範囲に含まれる前記特徴量の分散値である局所分散値を計算する局所分散計算手段と、
前記全体平均値と複数の前記局所分散値とに基づいて前記特徴量を正規化する正規化処理計算手段と、
としてコンピュータを機能させるためのパタンマッチングプログラム。
【請求項7】
外部より入力されたデータの特徴量を算出する分析ステップと、
前記分析ステップで算出された前記特徴量を正規化する正規化ステップと、
前記正規化ステップで正規化された正規化済み特徴量に基づいて、パタンマッチングを行うパタンマッチングステップと、
を備えたパタンマッチング方法において、
前記正規化ステップは、
第1の範囲に含まれる前記特徴量の平均値である全体平均値を取得する全体平均取得ステップと、
前記第1の範囲よりも小さい第2の範囲に含まれる前記特徴量の平均値である局所平均値を計算する局所平均計算ステップと、
前記局所平均値に基づいて、前記第2の範囲に含まれる前記特徴量の分散値である局所分散値を計算する局所分散計算ステップと、
前記全体平均値と複数の前記局所分散値とに基づいて前記特徴量を正規化する正規化処理計算ステップと、
を備えたことを特徴とするパタンマッチング方法。
【請求項1】
外部より入力されたデータの特徴量を算出する分析手段と、
前記分析手段で算出された前記特徴量を正規化する正規化手段と、
前記正規化手段で正規化された正規化済み特徴量に基づいて、パタンマッチングを行うパタンマッチング手段と、
を備えたパタンマッチング装置において、
前記正規化手段は、
第1の範囲に含まれる前記特徴量の平均値である全体平均値を取得する全体平均取得手段と、
前記第1の範囲よりも小さい第2の範囲に含まれる前記特徴量の平均値である局所平均値を計算する局所平均計算手段と、
前記局所平均値に基づいて、前記第2の範囲に含まれる前記特徴量の分散値である局所分散値を計算する局所分散計算手段と、
前記全体平均値と複数の前記局所分散値とに基づいて前記特徴量を正規化する正規化処理計算手段と、
を備えたことを特徴とするパタンマッチング装置。
【請求項2】
前記全体平均取得手段は、前記第1の範囲に含まれる前記特徴量から前記全体平均値を計算する
ことを特徴とする、請求項1に記載のパタンマッチング装置。
【請求項3】
前記全体平均取得手段は、予め記憶した所定値を前記全体平均値とする
ことを特徴とする、請求項1に記載のパタンマッチング装置。
【請求項4】
パタンマッチングの対象とする前記特徴量が含まれる範囲を同定する範囲同定手段
を備え、
前記全体平均取得手段は、前記範囲同定手段で同定された範囲に基づく前記第1の範囲に含まれる前記特徴量から前記全体平均値を計算することを特徴とする、請求項2に記載のパタンマッチング装置。
【請求項5】
前記局所平均計算手段は、過去に計算した前記局所平均値を重み付けした値に基づいて、前記局所平均値を計算し、
前記局所分散計算手段は、過去に計算した前記局所分散値を重み付けした値に基づいて、前記局所分散値を計算する
ことを特徴とする請求項1〜4に記載のパタンマッチング装置。
【請求項6】
外部より入力されたデータの特徴量を算出する分析手段と、
前記分析手段で算出された前記特徴量を正規化する正規化手段と、
前記正規化手段で正規化された正規化済み特徴量に基づいて、パタンマッチングを行うパタンマッチング手段と、
としてコンピュータを機能させるためのパタンマッチングプログラムにおいて、
前記正規化手段は、
第1の範囲に含まれる前記特徴量の平均値である全体平均値を取得する全体平均取得手段と、
前記第1の範囲よりも小さい第2の範囲に含まれる前記特徴量の平均値である局所平均値を計算する局所平均計算手段と、
前記局所平均値に基づいて、前記第2の範囲に含まれる前記特徴量の分散値である局所分散値を計算する局所分散計算手段と、
前記全体平均値と複数の前記局所分散値とに基づいて前記特徴量を正規化する正規化処理計算手段と、
としてコンピュータを機能させるためのパタンマッチングプログラム。
【請求項7】
外部より入力されたデータの特徴量を算出する分析ステップと、
前記分析ステップで算出された前記特徴量を正規化する正規化ステップと、
前記正規化ステップで正規化された正規化済み特徴量に基づいて、パタンマッチングを行うパタンマッチングステップと、
を備えたパタンマッチング方法において、
前記正規化ステップは、
第1の範囲に含まれる前記特徴量の平均値である全体平均値を取得する全体平均取得ステップと、
前記第1の範囲よりも小さい第2の範囲に含まれる前記特徴量の平均値である局所平均値を計算する局所平均計算ステップと、
前記局所平均値に基づいて、前記第2の範囲に含まれる前記特徴量の分散値である局所分散値を計算する局所分散計算ステップと、
前記全体平均値と複数の前記局所分散値とに基づいて前記特徴量を正規化する正規化処理計算ステップと、
を備えたことを特徴とするパタンマッチング方法。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【公開番号】特開2008−233782(P2008−233782A)
【公開日】平成20年10月2日(2008.10.2)
【国際特許分類】
【出願番号】特願2007−76928(P2007−76928)
【出願日】平成19年3月23日(2007.3.23)
【出願人】(000208891)KDDI株式会社 (2,700)
【Fターム(参考)】
【公開日】平成20年10月2日(2008.10.2)
【国際特許分類】
【出願日】平成19年3月23日(2007.3.23)
【出願人】(000208891)KDDI株式会社 (2,700)
【Fターム(参考)】
[ Back to top ]