確率モデルの複数個の確率密度関数カーネルを圧縮する方法およびそのためのコンピュータプログラム

【課題】性能を維持しつつ、確率モデルを効果的に圧縮可能にする。
【解決手段】ＨＭＭモデルを圧縮する方法は、ＨＭＭモデルの確率密度関数（ｐｄｆ）カーネル２０、２２、２４、２６、２８及び３０の平均を第１のセントロイドカーネル４０及び４２にクラスタリングするステップと、ｐｄｆカーネル２０、２２、２４、２６、２８及び３０の分散を第２のセントロイドカーネル５０及び５２にクラスタリングするステップと、ｐｄｆカーネル２０、２２、２４、２６、２８及び３０の各々を、第１のセントロイドカーネル４０及び４２のうちｐｄｆカーネルの元の平均に最も近いものの平均と、第２のセントロイドカーネル５０及び５２のうち元のｐｄｆカーネルに最も近いものの分散とによって再定義するステップとを含む。

【発明の詳細な説明】
【技術分野】
【０００１】
この発明は確率の効率的なモデル化に関し、特に、記憶容量を少なくし計算量も少なくするための、ＨＭＭ（隠れマルコフモデル）等の確率モデルの圧縮に関する。
【背景技術】
【０００２】
効率的な自動音声認識のためには、容量が少なく計算量も少なく、なおかつ好ましい認識性能を維持できる、より小型のモデルが常に望まれる。トレーニングの間に、いわゆる半連続ＨＭＭについてステート共有[非特許文献１を参照]または分布共有[非特許文献２を参照]を適用することによって、小型のモデルを構築できる。構築されたＨＭＭの基本ｐｄｆ（ｐｒｏｂａｂｉｌｉｔｙｄｅｎｓｉｔｙｆｕｎｃｔｉｏｎまたはｐｒｏｂａｂｉｌｉｔｙｄｉｓｔｒｉｂｕｔｉｏｎｆｕｎｃｔｉｏｎ：確率密度関数）カーネルもまた、トレーニング手順の後に素性空間でクラスタリングできる。ｐｄｆカーネル平均を各素性次元[非特許文献３を参照]またはサブ空間[非特許文献４を参照]でクラスタリングすることが可能であるという提案がされている。
【非特許文献１】Ｓ．Ｊ．ヤング及びＰ．Ｃ．ウッドランド、「連続音声認識におけるステート共有の使用」、ユーロスピーチ−１９９３、ｐｐ．２２０３−６、１９９３年（S.J. Young and P.C. Woodland, "The Use of State Tying in Continuous Speech Recognition", Eurospeech-1993, pp. 2203-6, 1993.）
【非特許文献２】Ｘ．Ｄ．ハン、「半連続隠れマルコフモデルを用いた音韻分類」、ＩＥＥＥＡＳＳＰトランザクション、Ｖｏｌ．４０、Ｎｏ．５、ｐｐ．１０６２−７、１９９２年（X.D. Huang, "Phoneme Classification Using Semicontinuous Hidden Markov Models", IEEE Trans. ASSP, Vol. 40, No. 5, pp. 1062-7, 1992.）
【非特許文献３】Ｓ．タカハシ及びＳ．サガヤマ、「音響モデリングの効率的表現のための４−レベル共有構造」、ＩＣＡＳＳＰ−１９９５、ｐｐ．５２０−３、１９９５年（S. Takahashi and S. Sagayama, "Four-Level Tied-Structure for Efficient Representation of Acoustic Modeling", ICASSP-1995, pp. 520-3, 1995.）
【非特許文献４】Ｅ．ボッチエリ及びＫ．Ｗ．マック、「サブ空間モデルクラスタリングによる隠れマルコフモデル」、ＩＥＥＥ音響音声処理トランザクション、Ｖｏｌ．９、Ｎｏ．３、ｐｐ．２６４−７５、２００１年３月（E. Bocchieri and K.W. Mak, "Subspace Distribution Clustering Hidden Markov Model", IEEE Trans. Speech Audio Proc. Vol. 9, No. 3, pp. 264-75, Mar. 2001.）
【非特許文献５】Ｔ．Ａ．ミルフォール及びＦ．Ｋ．スーン、「ダイバージェンスを用いた多変数正規分布の最適クラスタリング及びＨＭＭへの適用とその応用」、ＩＣＡＳＳＰ−２００３、ｐｐ．５５２−５、２００３年（T.A. Myrvoll and F.K. Soong, "Optimal Clustering of Multivariate Normal Distributions Using Divergence and Its Application to HMM Adaptation", ICASSP-2003, pp. 552-5, 2003.）
【非特許文献６】Ｊ．キム、Ｒ．ハイミ−コーエン及びＦ．Ｋ．スーン、「ダイバージェンスベースのベクトル量子化変数を備えた隠れマルコフモデル」、ＩＣＡＳＳＰ−１９９９、ｐｐ．１２５−８、１９９９年（J. Kim, R. Haimi-Cohen, and F.K. Soong, "Hidden Markov Models with Divergence based Vector Quantization Variances", ICASSP-1999, pp. 125-8, 1999.）
【発明の開示】
【発明が解決しようとする課題】
【０００３】
非特許文献３では、各素性次元で平均のみをクラスタリングすることにより、高いモデル解像度が維持される。しかし、大きなメモリ空間と大きな計算量が依然として必要である。
【０００４】
非特許文献４では、平均と分散とを合わせてクラスタリングする。しかし、結果として生じる量子化誤差のため、合わせてクラスタリングされたセントロイドによって良好なモデル表現を保証することはできない。この点を説明するため、図９に一例を示す。ここでは、６個のガウス分布カーネルが２個のクラスタにクラスタリングされている。カーネル２０、２２、２４がセントロイドカーネル４００で示される１個のクラスタにクラスタリングされ、カーネル２６、２８、３０がセントロイドカーネル４０２で示される別のクラスタにクラスタリングされる。
【０００５】
その結果得られるセントロイドは、特に分散に関して、クラスタ内の個々の要素を良好に表してはいない。
【０００６】
従って、この発明の目的の一つは、元のモデルの性能を維持しつつ、確率モデルを効果的に圧縮する方法を提供することである。
【課題を解決するための手段】
【０００７】
この発明の一局面は、確率モデルの複数個のｐｄｆカーネルを圧縮する方法に関するものである。ｐｄｆカーネルは各々第１のパラメータと第２のパラメータとで定義されている。この方法は、複数個のｐｄｆカーネルの第１のパラメータを１以上の第１のセントロイドカーネルにクラスタリングするステップと、複数個のｐｄｆカーネルの第２のパラメータを１以上の第２のセントロイドカーネルにクラスタリングするステップと第１のセントロイドカーネルのうち、前記複数個のｐｄｆカーネルの各々の第１のパラメータに最も近い第１のパラメータを有するものの第１のパラメータと、第２のセントロイドカーネルのうち、前記複数個のｐｄｆカーネルの各々に最も近い第２のパラメータを有するものの第２のパラメータとによって、複数個のｐｄｆカーネルの各々を再定義するステップとを含む。
【０００８】
複数個のｐｄｆカーネルは第１のセントロイドカーネルと第２のセントロイドカーネルとにクラスタリングされる。ｐｄｆの各々はその後、第１のセントロイドカーネルのうち最も近いものの第１のパラメータと、第２のセントロイドカーネルのうち最も近いものの第２のパラメータとによって再定義される。ｐｄｆカーネルがより少ないセントロイドカーネルのパラメータによって再定義されるため、モデルが必要とする記憶容量の総計が削減される。
【０００９】
好ましくは、複数個のｐｄｆカーネルの各々はガウスｐｄｆカーネルを含む。第１及び第２のパラメータはガウスｐｄｆカーネルの平均と分散とを含む。
【００１０】
ガウスｐｄｆカーネルの平均と分散とが別個にクラスタリングされる。このため、記憶容量は少なくなり、計算量も少なくなる。
【００１１】
より好ましくは、第１のパラメータをクラスタリングするステップは、再定義されたガウスｐｄｆカーネルとそれぞれの対応する元のｐｄｆカーネルとの合計の誤差（カルバック−ライブラー・ダイバージェンス（Ｋｕｌｌｂａｃｋ‐ＬｅｉｂｌｅｒＤｉｖｅｒｇｅｎｃｅ：ＫＬＤ））が最小になるようにガウスｐｄｆカーネルの平均をクラスタリングするステップを含む。
【００１２】
さらに好ましくは、第２のパラメータをクラスタリングするステップは、再定義されたガウスｐｄｆカーネルと、ゼロ平均を持つそれぞれの対応する元のｐｄｆカーネルとの誤差の合計が最小になるようにガウスｐｄｆカーネルの分散をクラスタリングするステップを含む。
【００１３】
所与の二つの確率密度関数の誤差は、所与の二つの確率密度関数間の対称カルバック−ライブラー・ダイバージェンスとして計算されてもよい。
【００１４】
ガウスｐｄｆをクラスタリングし、クラスタリングされたセントロイドカーネルを用いてガウスｐｄｆを再定義することによって、モデルはより小型となり、計算量が少なくなる。
【００１５】
この発明の別の局面は、コンピュータ上で実行されると、上述の方法のいずれかの全てのステップを当該コンピュータに実行させるコンピュータプログラムに関する。
【発明を実施するための最良の形態】
【００１６】
［はじめに］
モデル解像度とリソース割当との間の良好なトレードオフを見出すために、この実施の形態では、最適なクラスタセントロイド計算[非特許文献５を参照]に従って、対称カルバック−ライブラー・ダイバージェンスを誤差尺度として用い、各スカラー次元で平均と分散とを別個にクラスタリングすることを提案する。最適セントロイドの近似はすでに非特許文献６で提案されている。
【００１７】
具体的には、図１に示すように、カーネル２０、２２、２４、２６、２８及び３０の平均を２個の平均セントロイドカーネル（以下「平均クラスタカーネル」と称する）４０及び４２にクラスタリングする。すなわちカーネル２０、２２及び２４は平均クラスタカーネル４０に、カーネル２６、２８及び３０は平均クラスタカーネル４２に、クラスタリングされる。さらに、カーネル２０、２２、２４、２６、２８及び３０の分散を分散カーネル（以下「分散クラスタカーネル」と称する）５０及び５２にクラスタリングする。すなわち、カーネル２０及び２８は分散クラスタカーネル５０に、カーネル２２、２４、２６及び３０は分散クラスタカーネル５２に、クラスタリングされる。平均と分散とを別個にクラスタリングすることによって、より高いモデル解像度が得られる。
【００１８】
［ＫＬＤに基づく最適セントロイド］
ここで所与の二つのｐｄｆ、ｆおよびｇ間の誤差（距離）を測定するために用いられる対称カルバック−ライブラー・ダイバージェンスは、以下の式で定義される。
【００１９】
【数１】

以下の式に従ってクラスタセントロイドとクラスタ内の全てのカーネルとの合計ＫＬＤを最小化することにより、最適クラスタセントロイドｆ_ｃが得られる。
【００２０】
【数２】

多変数ガウス分布では、式（１）の対称ＫＬＤの閉じた式があり、これは以下で表される。
【００２１】
【数３】

ここでμ及びＲは対応する分布の平均と分散とである。最適セントロイドは一組のリカッティ行列式[非特許文献５を参照]を解くことで得られる。対角共分散の特殊な事例では、最適セントロイドのｉ次元の平均と分散、すなわちμ_ｃｉ及びσ_ｃｉ^２は以下の通りである。
【００２２】
【数４】

【００２３】
［なぜ平均と分散のクラスタリングを別個に行なうか］
図９に示すように、ガウス分布カーネルの平均と分散とは、合わせてクラスタリングすることができる。しかし、結果として得られるセントロイドは、特に分散に関して、クラスタ内の個々の要素を良好に表してはいない。
【００２４】
平均と分散とを別個にクラスタリングすることによって、このモデル解像度の問題を克服することができる。分散は、対応する平均をゼロに設定することによってクラスタリング可能である。図１の下部に示されるように、カーネル２０及び２８の分散は分散クラスタカーネル５０によって示される左の分散にクラスタリングされ、カーネル２２、２４、２６、３０の分散は分散クラスタカーネル５２によって示される右の分散にクラスタリングされる。
【００２５】
元のカーネル２０、２２、２４、２６、２８及び３０の平均の各々は、平均クラスタカーネル４０又は４２のうち最も近く隣接するものの平均で近似される。同様に、カーネル２０、２２、２４、２６、２８及び３０の分散の各々は分散カーネル５０又は５２のうち最も近く隣接するものの分散で近似される。分散を平均のクラスタリングとは別個にクラスタリングすることにより、明らかに、高いモデル解像度を維持できる。
【００２６】
［構造］
図２はこの発明の一実施の形態に従った自動音声認識装置（ＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ：ＡＳＲ）システム６０の構造を示す。図２を参照して、ＡＳＲシステム６０は、セグメント化され音声表記が付された音声データを含むトレーニングコーパス７０と、トレーニングコーパス７０内の音声データをトレーニングデータとして利用して、ＨＭＭ音響モデルをトレーニングするトレーニングモジュール７２と、上述のように、ＨＭＭ音響モデル７４内の状態の各々のカーネルの平均と分散とを別個にクラスタリングすることによって、ＨＭＭ音響モデル７４を圧縮するための圧縮モジュール７６とを含む。結果として得られる圧縮されたＨＭＭ音響モデル７８がＡＳＲに用いられる。
【００２７】
ＡＳＲシステム６０はさらに、言語モデル８０と、入力発話８２の音声データを受け、ＨＭＭ音響モデル７８及び言語モデル８０を利用して入力音声を認識し、結果として得られるテキスト８６を出力するＡＳＲモジュール８４とを含む。
【００２８】
圧縮モジュール７６はソフトウェアで実現することができる。ソフトウェアの全体制御構造を図３に示す。
【００２９】
図３を参照して、このプログラムは、起動されると、ステップ１００において繰返し制御変数ｉをゼロに初期化する。ステップ１０２で、変数ｉを１だけ増分する。ステップ１０４で、変数ｉがＨＭＭパラメータの次元数Ｎ_dimより大きいか否かが判断される。もし変数ｉがＮ_dimより大きければ、このプログラムの実行は終了する。そうでなければ、制御はステップ１０６に進む。
【００３０】
ステップ１０６で、ｉ番目の次元のカーネルの平均がクラスタリングされる。このステップの詳細は後に図４を参照して説明する。平均のクラスタリングが終了すると、ステップ１０８でｉ番目の次元内のカーネルの分散がクラスタリングされる。ここでカーネルの分散は、カーネルの平均をゼロに固定した状態でクラスタリングされる。ステップ１０８の詳細は図５を参照して後述する。
【００３１】
ステップ１０８の後、制御はステップ１１６に進み、ここでステップ１０６及び１０８で得られたカーネルがＨＭＭモデルのｉ次元目のカーネルのためのコードブックページに書込まれる。ステップ１１８で、ＨＭＭのｉ次元目のカーネルに平均と分散とが割当られる。
【００３２】
ｉ番目の次元のガウスカーネルの各々には、クラスタリングされた平均のうちで最も近い隣接したものの平均と、クラスタリングされた分散のうちで最も近い隣接したものの分散とが割当てられる。言換えれば、もとのガウスカーネルはそれぞれ、最も近い隣接する平均クラスタカーネルの平均と、最も近い隣接する分散クラスタカーネルの分散とによって再定義される。
【００３３】
ステップ１１８の後、制御はステップ１０２に戻り、（ｉ＋１）次元目のカーネルの圧縮が行なわれる。
【００３４】
図４はステップ１０６の詳細を示す。図４を参照して、ｉ次元目のカーネルの平均は以下のステップによってクラスタリングされる。ステップ１３０で、繰返し制御変数ｊがゼロに初期化され、別の変数Ｑ＿ｏｌｄがコンピュータが取扱うことのできる最大値に初期化される。
【００３５】
ステップ１３２で、クラスタリング用のカーネルに１個のカーネルが追加される。すなわち、クラスタリングは、ｉ次元目のガウスカーネルの平均を１個のクラスタリングカーネルにクラスタリングすることによって始まる。ステップ１３４で、変数ｊが１だけ増分される。
【００３６】
ステップ１３６で、上述のＫＬＤ−ベースの最適化を利用して、最適の１個の（又は複数の）平均クラスタカーネルが計算される。結果として得られるＫＬＤの値を、Ｑ＿ｎｅｗとして保存する。
【００３７】
ステップ１３８で、Ｑ＿ｏｌｄとＱ＿ｎｅｗとの差としてΔＱが計算される。すなわち、ΔＱ＝Ｑ＿ｏｌｄ−Ｑ＿ｎｅｗである。
【００３８】
ステップ１４０で、ΔＱが予め定められたしきい値であるδより小さいか否かが判断される。もしΔＱがδより小さければ、制御はステップ１４４に進む。そうでなければ、制御はステップ１４２に進む。
【００３９】
ステップ１４２で、変数Ｑ＿ｎｅｗがＱ＿ｏｌｄとして保存され、制御はステップ１３２に戻る。
【００４０】
ステップ１４４で、ｊ番目の繰返しで得られたカーネルを、最適平均クラスタカーネルとして選択する。ステップ１４４の後、制御はこのルーチンを抜けて図３のステップ１０８に戻る。
【００４１】
図５は図３のステップ１０８の詳細を示す。なお、この処理の間は、カーネルの平均がゼロに固定されている。図５を参照して、ｉ次元目のカーネルの分散は以下のステップでクラスタリングされる。ステップ１６０で、繰返し制御変数ｊがゼロに初期化され、別の変数Ｑ＿ｏｌｄがコンピュータが取扱うことのできる最大値に初期化される。
【００４２】
ステップ１６２で、クラスタリング用のカーネルに１個のカーネルが追加される。すなわち、クラスタリングは、ｉ次元目のガウスカーネルの分散を１個のクラスタリングカーネルにクラスタリングすることによって始まる。ステップ１６４で、変数ｊが１だけ増分される。
【００４３】
ステップ１６６で、上述のＫＬＤ−ベースの最適化を利用して、最適の１個の（又は複数の）分散クラスタカーネルが計算される。結果として得られるＫＬＤの値を、Ｑ＿ｎｅｗとして保存する。
【００４４】
ステップ１６８で、Ｑ＿ｏｌｄとＱ＿ｎｅｗとの差としてΔＱが計算される。
【００４５】
ステップ１７０で、ΔＱがδより小さいか否かが判断される。もしΔＱがδより小さければ、制御はステップ１７４に進む。そうでなければ、制御はステップ１７２に進む。
【００４６】
ステップ１７２で、変数Ｑ＿ｎｅｗがＱ＿ｏｌｄとして保存され、制御はステップ１６２に戻る。
【００４７】
ステップ１７４で、ｊ番目の繰返しで得られたカーネルを、最適分散クラスタカーネルとして選択する。ステップ１７４の後、制御はこのルーチンを抜けて図３のステップ１１６に戻る。
【００４８】
［コンピュータによる実現］
上述の実施の形態は、コンピュータシステムとそのシステムで実行されるコンピュータプログラムとで実現できる。ソフトウェアの制御構造は図３から図５を参照して説明した。図６はこの実施の形態のコンピュータシステム３３０の外観図であり、図７はシステム３３０をブロック図で示す。
【００４９】
図６を参照して、コンピュータシステム３３０は、ＦＤ（ＦｌｅｘｉｂｌｅＤｉｓｋ）ドライブ３５２及びＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）ドライブ３５０を有するコンピュータ３４０と、キーボード３４６と、マウス３４８と、モニタ３４２とを含む。
【００５０】
図７を参照して、コンピュータ３４０はさらに、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）３５６と、ＣＰＵ３５６、ＣＤ−ＲＯＭドライブ３５０及びＦＤドライブ３５２に接続されたバス３６６と、ブートアッププログラム等を記憶するＲＯＭ（Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）３５８と、ＣＰＵ３５６に接続されアプリケーションプログラム命令、システムプログラム及びデータを記憶するためのＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）３６０と、プリンタ３４４とを含む。
【００５１】
ここでは図示しないが、コンピュータ３４０はさらに、ローカルエリアネットワーク（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ：ＬＡＮ）への接続を提供するネットワークアダプタボードを含んでもよい。
【００５２】
ＨＭＭモデルを圧縮する方法をコンピュータシステム３３０に実行させるプログラムは、ＣＤ−ＲＯＭ３６２又はＦＤ３６４等に記憶され、これらがＣＤ−ＲＯＭドライブ３５０又はＦＤドライブ３５２に挿入されると、さらにハードディスク３５４に転送される。これに代えて、プログラムは図示しないネットワークを介してコンピュータ３４０に送信され、ハードディスク３５４に記憶されてもよい。プログラムは実行の際にＲＡＭ３６０にロードされる。プログラムはＣＤ−ＲＯＭ３６２、ＦＤ３６４又はネットワークから直接ＲＡＭ３６０にロードされてもよい。
【００５３】
図３から図５を参照して説明したプログラムは、コンピュータ３４０にこの実施の形態の方法を行なわせるための複数の命令を含む。この方法を行なうために必要とされる基本的な機能の幾つかはコンピュータ３４０上で動作しているオペレーティングシステム（ＯＳ）またはサードパーティプログラム、またはコンピュータ３４０にインストールされたＨＭＭツールキット等のモジュールによって提供されるので、プログラムは必ずしもこの発明の実施の形態を実現するのに必要なすべての基本的機能を含まなくてもよい。プログラムは、所望の結果が得られるように制御された様態で適切な機能または「ツール」を呼び出すことにより圧縮処理を行なう命令の部分のみを含んでいればよい。コンピュータ３３０がどのように動作するかは周知であるので、説明は省略する。
【００５４】
［動作］
この実施の形態のＡＳＲシステム６０は以下のように動作する。図２を参照して、トレーニングコーパス７０が準備される。トレーニングコーパス７０はセグメント化されたスピーチデータと、関連の音声表記とを含む。
【００５５】
トレーニングモジュール７２は、ＨＭＭ音響モデル７４を、ＨＭＭ音響モデル７４をトレーニングデータとして用いてトレーニングする。ＨＭＭモデルをトレーニングするツールは容易に入手可能であり、従って、トレーニングの詳細はここでは説明しない。
【００５６】
次に、圧縮モジュール７６がＨＭＭ音響モデル７４を以下のように圧縮する。まず、圧縮モジュール７６がＨＭＭ音響モデル７４の各状態の第１のパラメータ次元のガウスカーネルの平均を、ＫＬＤが最小となるようにクラスタリングして、最適数の平均クラスタカーネルとする（図３、ステップ１０６）。次に、圧縮モジュール７６はＨＭＭ音響モデル７４の各状態の第１のパラメータ次元のガウスカーネルの分散を、ＫＬＤが最小になるようにクラスタリングして最適数の分散クラスタカーネルとする（図３、ステップ１０８）。このとき、カーネルの平均はゼロに固定される。
【００５７】
ステップ１１６で、このようにして得られたクラスタカーネルが１次元目のコードブックページに書込まれる。次に、１次元目のガウスカーネルが、それぞれ元のガウスカーネルの平均に最も近い平均を有する平均クラスタカーネルと、それぞれ元のガウスカーネルの分散に最も近い分散を有する分散クラスタカーネルとによって再定義される。
【００５８】
その後、上述のステップがＨＭＭ音響モデル７４の各状態の他のパラメータ次元について繰返され、ＨＭＭ音響モデルが圧縮される。ＨＭＭ音響モデルの全てのパラメータ次元が圧縮されると、圧縮されたモデルが圧縮モジュール７６からＨＭＭ音響モデル７８として出力される。
【００５９】
ＨＭＭ音響モデル７８と言語モデル８０が利用可能となると、ＡＳＲモジュール８４は入力発話８２を受けるための準備ができたことになり、ＨＭＭ音響モデル７８と言語モデル８０とを利用して音声データを認識し、認識されたテキスト８６を出力する。
【００６０】
［実験結果］
この実施の形態のクラスタリング方法を、ＤＡＲＰＡ（ＴｈｅＤｅｆｅｎｓｅＡｄｖａｎｃｅｄＲｅｓｅａｒｃｈＰｒｏｊｅｃｔｓＡｇｅｎｃｙ）９９１単語リソースマネジメントデータベースで試験した。この実現に際しては、標準的なＳＩ−１０９トレーニングデータセット（３，９９０発話）が用いられた。ＣＭＵ（ＣａｒｎｅｇｉｅＭｅｌｌｏｎＵｎｉｖｅｒｓｉｔｙ：カーネギーメロン大学）４８フォンセットを用いて、各々が３状態で状態ごとに１２ガウス混合要素を有する、文脈独立な（ＣｏｎｔｅｘｔＩｎｄｅｐｅｎｄｅｎｔ：ＣＩ）音素モデルが生成された。素性は従来の３９次元メル周波数ケプストラム計数（ｍｅｌ−ｆｒｅｑｕｅｎｃｙｃｅｐｓｔｒｕｍｃｏｅｆｆｉｃｉｅｎｔｓ：ＭＦＣＣ）（１２個の静的ＭＦＣＣ及び対数エネルギ、並びにそれらの第１次、第２次の導関数）であった。
【００６１】
Ｆｅｂ８９のテストセットを用いて、パープレキシティ６０の標準単語対文法を評価した。元の、量子化していないＨＭＭのベースライン認識性能は、単語精度で９２．８２％であった。
【００６２】
（１）平均と分散とが別個にクラスタリングされる別個のクラスタリング（本実施の形態）を、（２）平均と分散とを合わせたクラスタリング（非特許文献４）、及び（３）元の分散を用いた平均クラスタリングのみ（非特許文献３）、と比較した。結果を図８に示す。
【００６３】
図８に見られるように、平均と分散とを別個にクラスタリングすると、平均と分散とを合わせたクラスタリングの性能を上回った。また、分散を別個にクラスタリングした場合、認識性能は、次元ごとに１６またはそれ以上のクラスタで、クラスタリングなしの分散の場合と同等（またはわずかに良好）であった。
【００６４】
［記憶容量と計算量の要件］
【表１】

表１はこの実施の形態に従った最適にクラスタリングされたモデル（平均と分散との別個のクラスタリング）の記憶容量及び計算量の、元のクラスタリングされていないＨＭＭに対するパーセンテージを示す。容量は、クラスタの数により１２％〜２４％までに減少した。演算量に関しては、ｊ番目の状態の対数尤度は以下のように計算される。
【００６５】
【数５】

平均と分散とをクラスタリングしているので、第３項(o_ti-μ_jmi)²/2σ_jmi²は予め計算して異なる出力ｐｄｆで共有する。表１に示すように、乗算／除算は２％〜１９％まで減少し、加算／減算は５２％〜５４％までに減少し、性能の劣化はわずかであった。
【００６６】
［結論］
多変量、対角共分数ベースのＨＭＭガウス分布カーネルを、各スカラー次元において、対応する対称カルバック−ライブラー・ダイバージェンスを最小化することによって最適にクラスタリングした。平均と分散とを別個にクラスタリングすることにより、元のＨＭＭの高いモデル解像度を維持した。リソースマネジメントデータベースでの評価では、さほど性能を劣化させることなく、記憶量と計算量とをかなり減じることができた。
【００６７】
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。
【図面の簡単な説明】
【００６８】
【図１】この発明の一実施の形態に従った平均と分散とのクラスタリングを概略的に示す図である。
【図２】この発明の一実施の形態に従ったＡＳＲシステム６０の構造を示すブロック図である。
【図３】実施の形態に従ったクラスタリングプログラムのフローチャートである。
【図４】実施の形態に従った平均クラスタリングのフローチャートである。
【図５】実施の形態に従った分散クラスタリングのフローチャートである。
【図６】クラスタリングプログラムを実行するコンピュータシステム３３０を示す図である。
【図７】コンピュータシステム３３０の構造を示すブロック図である。
【図８】この発明の実施の形態に従ったＡＳＲ性能を示す図である。
【図９】先行技術によるクラスタリングを概略的に示す図である。
【符号の説明】
【００６９】
２０、２２、２４、２６、２８、３０ガウスカーネル
４０、４２平均クラスタカーネル
５０、５２分散クラスタカーネル
６０ＡＳＲシステム
７０トレーニングコーパス
７２トレーニングモジュール
７４ＨＭＭ音響モデル
７６圧縮モジュール
７８圧縮ＨＭＭ音響モデル
８０言語モデル
８４ＡＳＲモジュール

【特許請求の範囲】
【請求項１】
確率モデルの複数個の確率密度関数カーネルを圧縮する方法であって、複数個の確率密度関数カーネルは各々第１のパラメータと第２のパラメータとで定義されており、
前記複数個の確率密度関数カーネルの第１のパラメータを１以上の第１のセントロイドカーネルにクラスタリングするステップと、
前記複数個の確率密度関数カーネルの第２のパラメータを１以上の第２のセントロイドカーネルにクラスタリングするステップと
前記第１のセントロイドカーネルのうち、前記複数個の確率密度関数カーネルの各々の第１のパラメータに最も近い第１のパラメータを有するものの第１のパラメータと、前記第２のセントロイドカーネルのうち、前記複数個の確率密度関数カーネルの各々に最も近い第２のパラメータを有するものの第２のパラメータとによって、前記複数個の確率密度関数カーネルの各々を再定義するステップとを含む、方法。
【請求項２】
前記複数個の確率密度関数カーネルの各々はガウス確率密度関数カーネルを含み、前記第１及び第２のパラメータはガウス確率密度関数カーネルの平均と分散とを含む、請求項１に記載の方法。
【請求項３】
前記第１のパラメータをクラスタリングするステップは、前記再定義されたガウス確率密度関数カーネルとそれぞれの対応する元の確率密度関数カーネルとの誤差が最小になるように前記ガウス確率密度関数カーネルの平均をクラスタリングするステップを含む、請求項２に記載の方法。
【請求項４】
前記第２のパラメータをクラスタリングするステップは、再定義されたガウス確率密度関数カーネルと、ゼロ平均を持つそれぞれの対応する元の確率密度関数カーネルとの誤差の合計が最小になるように前記ガウス確率密度関数カーネルの分散をクラスタリングするステップを含む、請求項２又は３に記載の方法。
【請求項５】
所与の二つの確率密度関数の誤差が、前記所与の二つの確率密度関数間の対称カルバック−ライブラー・ダイバージェンスとして計算される、請求項３又は請求項４に記載の方法。
【請求項６】
コンピュータ上で実行されると、請求項１〜請求項５のいずれかに記載の全てのステップをコンピュータに実行させる、コンピュータプログラム。

【図１】

【図２】

【図３】

【図４】

【図５】

【図６】

【図７】

【図８】

【図９】

【公開番号】特開２００６−１２６３９８（Ｐ２００６−１２６３９８Ａ）
【公開日】平成１８年５月１８日（２００６．５．１８）
【国際特許分類】

物理学 (1,541,580)
- 楽器；音響 (32,226)
  - 音声の分析または合成；音声認識；音響分析または処理 (17,022)
    - 音声認識 (6,879)
      - 音声の識別または探索 (1,500)
        
        統計的モデルを用いるもの，例．隠れマルコフモデル［ＨＭＭ］ (175)
      - 標準パタンの作成；音声認識システムの学習，例．話者適応 (725)

【外国語出願】
【出願番号】特願２００４−３１３４７０（Ｐ２００４−３１３４７０）
【出願日】平成１６年１０月２８日（２００４．１０．２８）
【新規性喪失の例外の表示】特許法第３０条第１項適用申請有り　平成１６年９月２１日　社団法人日本音響学会発行の「日本音響学会２００４年秋季研究発表会講演論文集−１−」に発表
【国等の委託研究の成果に係る記載事項】（出願人による申告）平成１６年度独立行政法人情報通信研究機構、研究テーマ「大規模コーパスベース音声対話翻訳技術の研究開発」に関する委託研究、産業活力再生特別措置法第３０条の適用を受ける特許出願
【出願人】（３９３０３１５８６）株式会社国際電気通信基礎技術研究所 (905)
【Ｆターム（参考）】

音声認識 (5,191)
- 標準パターンの学習 (485)
- パターン照合による認識 (426)

[ Back to top ]

確率モデルの複数個の確率密度関数カーネルを圧縮する方法およびそのためのコンピュータプログラム

メニュー

スポンサーリンク

次の公報 »

« 前の公報

確率モデルの複数個の確率密度関数カーネルを圧縮する方法およびそのためのコンピュータプログラム

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク