説明

確率モデルの複数個の確率密度関数カーネルを圧縮する方法およびそのためのコンピュータプログラム

【課題】性能を維持しつつ、確率モデルを効果的に圧縮可能にする。
【解決手段】HMMモデルを圧縮する方法は、HMMモデルの確率密度関数(pdf)カーネル20、22、24、26、28及び30の平均を第1のセントロイドカーネル40及び42にクラスタリングするステップと、pdfカーネル20、22、24、26、28及び30の分散を第2のセントロイドカーネル50及び52にクラスタリングするステップと、pdfカーネル20、22、24、26、28及び30の各々を、第1のセントロイドカーネル40及び42のうちpdfカーネルの元の平均に最も近いものの平均と、第2のセントロイドカーネル50及び52のうち元のpdfカーネルに最も近いものの分散とによって再定義するステップとを含む。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は確率の効率的なモデル化に関し、特に、記憶容量を少なくし計算量も少なくするための、HMM(隠れマルコフモデル)等の確率モデルの圧縮に関する。
【背景技術】
【0002】
効率的な自動音声認識のためには、容量が少なく計算量も少なく、なおかつ好ましい認識性能を維持できる、より小型のモデルが常に望まれる。トレーニングの間に、いわゆる半連続HMMについてステート共有[非特許文献1を参照]または分布共有[非特許文献2を参照]を適用することによって、小型のモデルを構築できる。構築されたHMMの基本pdf(probability density functionまたはprobability distribution function:確率密度関数)カーネルもまた、トレーニング手順の後に素性空間でクラスタリングできる。pdfカーネル平均を各素性次元[非特許文献3を参照]またはサブ空間[非特許文献4を参照]でクラスタリングすることが可能であるという提案がされている。
【非特許文献1】S.J.ヤング及びP.C.ウッドランド、「連続音声認識におけるステート共有の使用」、ユーロスピーチ−1993、pp.2203−6、1993年(S.J. Young and P.C. Woodland, "The Use of State Tying in Continuous Speech Recognition", Eurospeech-1993, pp. 2203-6, 1993.)
【非特許文献2】X.D.ハン、「半連続隠れマルコフモデルを用いた音韻分類」、IEEE ASSP トランザクション、Vol.40、No.5、pp.1062−7、1992年(X.D. Huang, "Phoneme Classification Using Semicontinuous Hidden Markov Models", IEEE Trans. ASSP, Vol. 40, No. 5, pp. 1062-7, 1992.)
【非特許文献3】S.タカハシ及びS.サガヤマ、「音響モデリングの効率的表現のための4−レベル共有構造」、ICASSP−1995、pp.520−3、1995年(S. Takahashi and S. Sagayama, "Four-Level Tied-Structure for Efficient Representation of Acoustic Modeling", ICASSP-1995, pp. 520-3, 1995.)
【非特許文献4】E.ボッチエリ及びK.W.マック、「サブ空間モデルクラスタリングによる隠れマルコフモデル」、IEEE 音響音声処理トランザクション、Vol.9、No.3、pp.264−75、2001年3月(E. Bocchieri and K.W. Mak, "Subspace Distribution Clustering Hidden Markov Model", IEEE Trans. Speech Audio Proc. Vol. 9, No. 3, pp. 264-75, Mar. 2001.)
【非特許文献5】T.A.ミルフォール及びF.K.スーン、「ダイバージェンスを用いた多変数正規分布の最適クラスタリング及びHMMへの適用とその応用」、ICASSP−2003、pp.552−5、2003年(T.A. Myrvoll and F.K. Soong, "Optimal Clustering of Multivariate Normal Distributions Using Divergence and Its Application to HMM Adaptation", ICASSP-2003, pp. 552-5, 2003.)
【非特許文献6】J.キム、R.ハイミ−コーエン及びF.K.スーン、「ダイバージェンスベースのベクトル量子化変数を備えた隠れマルコフモデル」、ICASSP−1999、pp.125−8、1999年(J. Kim, R. Haimi-Cohen, and F.K. Soong, "Hidden Markov Models with Divergence based Vector Quantization Variances", ICASSP-1999, pp. 125-8, 1999.)
【発明の開示】
【発明が解決しようとする課題】
【0003】
非特許文献3では、各素性次元で平均のみをクラスタリングすることにより、高いモデル解像度が維持される。しかし、大きなメモリ空間と大きな計算量が依然として必要である。
【0004】
非特許文献4では、平均と分散とを合わせてクラスタリングする。しかし、結果として生じる量子化誤差のため、合わせてクラスタリングされたセントロイドによって良好なモデル表現を保証することはできない。この点を説明するため、図9に一例を示す。ここでは、6個のガウス分布カーネルが2個のクラスタにクラスタリングされている。カーネル20、22、24がセントロイドカーネル400で示される1個のクラスタにクラスタリングされ、カーネル26、28、30がセントロイドカーネル402で示される別のクラスタにクラスタリングされる。
【0005】
その結果得られるセントロイドは、特に分散に関して、クラスタ内の個々の要素を良好に表してはいない。
【0006】
従って、この発明の目的の一つは、元のモデルの性能を維持しつつ、確率モデルを効果的に圧縮する方法を提供することである。
【課題を解決するための手段】
【0007】
この発明の一局面は、確率モデルの複数個のpdfカーネルを圧縮する方法に関するものである。pdfカーネルは各々第1のパラメータと第2のパラメータとで定義されている。この方法は、複数個のpdfカーネルの第1のパラメータを1以上の第1のセントロイドカーネルにクラスタリングするステップと、複数個のpdfカーネルの第2のパラメータを1以上の第2のセントロイドカーネルにクラスタリングするステップと第1のセントロイドカーネルのうち、前記複数個のpdfカーネルの各々の第1のパラメータに最も近い第1のパラメータを有するものの第1のパラメータと、第2のセントロイドカーネルのうち、前記複数個のpdfカーネルの各々に最も近い第2のパラメータを有するものの第2のパラメータとによって、複数個のpdfカーネルの各々を再定義するステップとを含む。
【0008】
複数個のpdfカーネルは第1のセントロイドカーネルと第2のセントロイドカーネルとにクラスタリングされる。pdfの各々はその後、第1のセントロイドカーネルのうち最も近いものの第1のパラメータと、第2のセントロイドカーネルのうち最も近いものの第2のパラメータとによって再定義される。pdfカーネルがより少ないセントロイドカーネルのパラメータによって再定義されるため、モデルが必要とする記憶容量の総計が削減される。
【0009】
好ましくは、複数個のpdfカーネルの各々はガウスpdfカーネルを含む。第1及び第2のパラメータはガウスpdfカーネルの平均と分散とを含む。
【0010】
ガウスpdfカーネルの平均と分散とが別個にクラスタリングされる。このため、記憶容量は少なくなり、計算量も少なくなる。
【0011】
より好ましくは、第1のパラメータをクラスタリングするステップは、再定義されたガウスpdfカーネルとそれぞれの対応する元のpdfカーネルとの合計の誤差(カルバック−ライブラー・ダイバージェンス(Kullback‐Leibler Divergence:KLD))が最小になるようにガウスpdfカーネルの平均をクラスタリングするステップを含む。
【0012】
さらに好ましくは、第2のパラメータをクラスタリングするステップは、再定義されたガウスpdfカーネルと、ゼロ平均を持つそれぞれの対応する元のpdfカーネルとの誤差の合計が最小になるようにガウスpdfカーネルの分散をクラスタリングするステップを含む。
【0013】
所与の二つの確率密度関数の誤差は、所与の二つの確率密度関数間の対称カルバック−ライブラー・ダイバージェンスとして計算されてもよい。
【0014】
ガウスpdfをクラスタリングし、クラスタリングされたセントロイドカーネルを用いてガウスpdfを再定義することによって、モデルはより小型となり、計算量が少なくなる。
【0015】
この発明の別の局面は、コンピュータ上で実行されると、上述の方法のいずれかの全てのステップを当該コンピュータに実行させるコンピュータプログラムに関する。
【発明を実施するための最良の形態】
【0016】
[はじめに]
モデル解像度とリソース割当との間の良好なトレードオフを見出すために、この実施の形態では、最適なクラスタセントロイド計算[非特許文献5を参照]に従って、対称カルバック−ライブラー・ダイバージェンスを誤差尺度として用い、各スカラー次元で平均と分散とを別個にクラスタリングすることを提案する。最適セントロイドの近似はすでに非特許文献6で提案されている。
【0017】
具体的には、図1に示すように、カーネル20、22、24、26、28及び30の平均を2個の平均セントロイドカーネル(以下「平均クラスタカーネル」と称する)40及び42にクラスタリングする。すなわちカーネル20、22及び24は平均クラスタカーネル40に、カーネル26、28及び30は平均クラスタカーネル42に、クラスタリングされる。さらに、カーネル20、22、24、26、28及び30の分散を分散カーネル(以下「分散クラスタカーネル」と称する)50及び52にクラスタリングする。すなわち、カーネル20及び28は分散クラスタカーネル50に、カーネル22、24、26及び30は分散クラスタカーネル52に、クラスタリングされる。平均と分散とを別個にクラスタリングすることによって、より高いモデル解像度が得られる。
【0018】
[KLDに基づく最適セントロイド]
ここで所与の二つのpdf、fおよびg間の誤差(距離)を測定するために用いられる対称カルバック−ライブラー・ダイバージェンスは、以下の式で定義される。
【0019】
【数1】

以下の式に従ってクラスタセントロイドとクラスタ内の全てのカーネルとの合計KLDを最小化することにより、最適クラスタセントロイドfが得られる。
【0020】
【数2】

多変数ガウス分布では、式(1)の対称KLDの閉じた式があり、これは以下で表される。
【0021】
【数3】

ここでμ及びRは対応する分布の平均と分散とである。最適セントロイドは一組のリカッティ行列式[非特許文献5を参照]を解くことで得られる。対角共分散の特殊な事例では、最適セントロイドのi次元の平均と分散、すなわちμci及びσciは以下の通りである。
【0022】
【数4】

【0023】
[なぜ平均と分散のクラスタリングを別個に行なうか]
図9に示すように、ガウス分布カーネルの平均と分散とは、合わせてクラスタリングすることができる。しかし、結果として得られるセントロイドは、特に分散に関して、クラスタ内の個々の要素を良好に表してはいない。
【0024】
平均と分散とを別個にクラスタリングすることによって、このモデル解像度の問題を克服することができる。分散は、対応する平均をゼロに設定することによってクラスタリング可能である。図1の下部に示されるように、カーネル20及び28の分散は分散クラスタカーネル50によって示される左の分散にクラスタリングされ、カーネル22、24、26、30の分散は分散クラスタカーネル52によって示される右の分散にクラスタリングされる。
【0025】
元のカーネル20、22、24、26、28及び30の平均の各々は、平均クラスタカーネル40又は42のうち最も近く隣接するものの平均で近似される。同様に、カーネル20、22、24、26、28及び30の分散の各々は分散カーネル50又は52のうち最も近く隣接するものの分散で近似される。分散を平均のクラスタリングとは別個にクラスタリングすることにより、明らかに、高いモデル解像度を維持できる。
【0026】
[構造]
図2はこの発明の一実施の形態に従った自動音声認識装置(Automatic Speech Recognition:ASR)システム60の構造を示す。図2を参照して、ASRシステム60は、セグメント化され音声表記が付された音声データを含むトレーニングコーパス70と、トレーニングコーパス70内の音声データをトレーニングデータとして利用して、HMM音響モデルをトレーニングするトレーニングモジュール72と、上述のように、HMM音響モデル74内の状態の各々のカーネルの平均と分散とを別個にクラスタリングすることによって、HMM音響モデル74を圧縮するための圧縮モジュール76とを含む。結果として得られる圧縮されたHMM音響モデル78がASRに用いられる。
【0027】
ASRシステム60はさらに、言語モデル80と、入力発話82の音声データを受け、HMM音響モデル78及び言語モデル80を利用して入力音声を認識し、結果として得られるテキスト86を出力するASRモジュール84とを含む。
【0028】
圧縮モジュール76はソフトウェアで実現することができる。ソフトウェアの全体制御構造を図3に示す。
【0029】
図3を参照して、このプログラムは、起動されると、ステップ100において繰返し制御変数iをゼロに初期化する。ステップ102で、変数iを1だけ増分する。ステップ104で、変数iがHMMパラメータの次元数Ndimより大きいか否かが判断される。もし変数iがNdimより大きければ、このプログラムの実行は終了する。そうでなければ、制御はステップ106に進む。
【0030】
ステップ106で、i番目の次元のカーネルの平均がクラスタリングされる。このステップの詳細は後に図4を参照して説明する。平均のクラスタリングが終了すると、ステップ108でi番目の次元内のカーネルの分散がクラスタリングされる。ここでカーネルの分散は、カーネルの平均をゼロに固定した状態でクラスタリングされる。ステップ108の詳細は図5を参照して後述する。
【0031】
ステップ108の後、制御はステップ116に進み、ここでステップ106及び108で得られたカーネルがHMMモデルのi次元目のカーネルのためのコードブックページに書込まれる。ステップ118で、HMMのi次元目のカーネルに平均と分散とが割当られる。
【0032】
i番目の次元のガウスカーネルの各々には、クラスタリングされた平均のうちで最も近い隣接したものの平均と、クラスタリングされた分散のうちで最も近い隣接したものの分散とが割当てられる。言換えれば、もとのガウスカーネルはそれぞれ、最も近い隣接する平均クラスタカーネルの平均と、最も近い隣接する分散クラスタカーネルの分散とによって再定義される。
【0033】
ステップ118の後、制御はステップ102に戻り、(i+1)次元目のカーネルの圧縮が行なわれる。
【0034】
図4はステップ106の詳細を示す。図4を参照して、i次元目のカーネルの平均は以下のステップによってクラスタリングされる。ステップ130で、繰返し制御変数jがゼロに初期化され、別の変数Q_oldがコンピュータが取扱うことのできる最大値に初期化される。
【0035】
ステップ132で、クラスタリング用のカーネルに1個のカーネルが追加される。すなわち、クラスタリングは、i次元目のガウスカーネルの平均を1個のクラスタリングカーネルにクラスタリングすることによって始まる。ステップ134で、変数jが1だけ増分される。
【0036】
ステップ136で、上述のKLD−ベースの最適化を利用して、最適の1個の(又は複数の)平均クラスタカーネルが計算される。結果として得られるKLDの値を、Q_newとして保存する。
【0037】
ステップ138で、Q_oldとQ_newとの差としてΔQが計算される。すなわち、ΔQ=Q_old−Q_newである。
【0038】
ステップ140で、ΔQが予め定められたしきい値であるδより小さいか否かが判断される。もしΔQがδより小さければ、制御はステップ144に進む。そうでなければ、制御はステップ142に進む。
【0039】
ステップ142で、変数Q_newがQ_oldとして保存され、制御はステップ132に戻る。
【0040】
ステップ144で、j番目の繰返しで得られたカーネルを、最適平均クラスタカーネルとして選択する。ステップ144の後、制御はこのルーチンを抜けて図3のステップ108に戻る。
【0041】
図5は図3のステップ108の詳細を示す。なお、この処理の間は、カーネルの平均がゼロに固定されている。図5を参照して、i次元目のカーネルの分散は以下のステップでクラスタリングされる。ステップ160で、繰返し制御変数jがゼロに初期化され、別の変数Q_oldがコンピュータが取扱うことのできる最大値に初期化される。
【0042】
ステップ162で、クラスタリング用のカーネルに1個のカーネルが追加される。すなわち、クラスタリングは、i次元目のガウスカーネルの分散を1個のクラスタリングカーネルにクラスタリングすることによって始まる。ステップ164で、変数jが1だけ増分される。
【0043】
ステップ166で、上述のKLD−ベースの最適化を利用して、最適の1個の(又は複数の)分散クラスタカーネルが計算される。結果として得られるKLDの値を、Q_newとして保存する。
【0044】
ステップ168で、Q_oldとQ_newとの差としてΔQが計算される。
【0045】
ステップ170で、ΔQがδより小さいか否かが判断される。もしΔQがδより小さければ、制御はステップ174に進む。そうでなければ、制御はステップ172に進む。
【0046】
ステップ172で、変数Q_newがQ_oldとして保存され、制御はステップ162に戻る。
【0047】
ステップ174で、j番目の繰返しで得られたカーネルを、最適分散クラスタカーネルとして選択する。ステップ174の後、制御はこのルーチンを抜けて図3のステップ116に戻る。
【0048】
[コンピュータによる実現]
上述の実施の形態は、コンピュータシステムとそのシステムで実行されるコンピュータプログラムとで実現できる。ソフトウェアの制御構造は図3から図5を参照して説明した。図6はこの実施の形態のコンピュータシステム330の外観図であり、図7はシステム330をブロック図で示す。
【0049】
図6を参照して、コンピュータシステム330は、FD(Flexible Disk)ドライブ352及びCD−ROM(Compact Disc Read−Only Memory)ドライブ350を有するコンピュータ340と、キーボード346と、マウス348と、モニタ342とを含む。
【0050】
図7を参照して、コンピュータ340はさらに、CPU(Central Processing Unit)356と、CPU356、CD−ROMドライブ350及びFDドライブ352に接続されたバス366と、ブートアッププログラム等を記憶するROM(Read−Only Memory)358と、CPU356に接続されアプリケーションプログラム命令、システムプログラム及びデータを記憶するためのRAM(Random Access Memory)360と、プリンタ344とを含む。
【0051】
ここでは図示しないが、コンピュータ340はさらに、ローカルエリアネットワーク(Local Area Network:LAN)への接続を提供するネットワークアダプタボードを含んでもよい。
【0052】
HMMモデルを圧縮する方法をコンピュータシステム330に実行させるプログラムは、CD−ROM362又はFD364等に記憶され、これらがCD−ROMドライブ350又はFDドライブ352に挿入されると、さらにハードディスク354に転送される。これに代えて、プログラムは図示しないネットワークを介してコンピュータ340に送信され、ハードディスク354に記憶されてもよい。プログラムは実行の際にRAM360にロードされる。プログラムはCD−ROM362、FD364又はネットワークから直接RAM360にロードされてもよい。
【0053】
図3から図5を参照して説明したプログラムは、コンピュータ340にこの実施の形態の方法を行なわせるための複数の命令を含む。この方法を行なうために必要とされる基本的な機能の幾つかはコンピュータ340上で動作しているオペレーティングシステム(OS)またはサードパーティプログラム、またはコンピュータ340にインストールされたHMMツールキット等のモジュールによって提供されるので、プログラムは必ずしもこの発明の実施の形態を実現するのに必要なすべての基本的機能を含まなくてもよい。プログラムは、所望の結果が得られるように制御された様態で適切な機能または「ツール」を呼び出すことにより圧縮処理を行なう命令の部分のみを含んでいればよい。コンピュータ330がどのように動作するかは周知であるので、説明は省略する。
【0054】
[動作]
この実施の形態のASRシステム60は以下のように動作する。図2を参照して、トレーニングコーパス70が準備される。トレーニングコーパス70はセグメント化されたスピーチデータと、関連の音声表記とを含む。
【0055】
トレーニングモジュール72は、HMM音響モデル74を、HMM音響モデル74をトレーニングデータとして用いてトレーニングする。HMMモデルをトレーニングするツールは容易に入手可能であり、従って、トレーニングの詳細はここでは説明しない。
【0056】
次に、圧縮モジュール76がHMM音響モデル74を以下のように圧縮する。まず、圧縮モジュール76がHMM音響モデル74の各状態の第1のパラメータ次元のガウスカーネルの平均を、KLDが最小となるようにクラスタリングして、最適数の平均クラスタカーネルとする(図3、ステップ106)。次に、圧縮モジュール76はHMM音響モデル74の各状態の第1のパラメータ次元のガウスカーネルの分散を、KLDが最小になるようにクラスタリングして最適数の分散クラスタカーネルとする(図3、ステップ108)。このとき、カーネルの平均はゼロに固定される。
【0057】
ステップ116で、このようにして得られたクラスタカーネルが1次元目のコードブックページに書込まれる。次に、1次元目のガウスカーネルが、それぞれ元のガウスカーネルの平均に最も近い平均を有する平均クラスタカーネルと、それぞれ元のガウスカーネルの分散に最も近い分散を有する分散クラスタカーネルとによって再定義される。
【0058】
その後、上述のステップがHMM音響モデル74の各状態の他のパラメータ次元について繰返され、HMM音響モデルが圧縮される。HMM音響モデルの全てのパラメータ次元が圧縮されると、圧縮されたモデルが圧縮モジュール76からHMM音響モデル78として出力される。
【0059】
HMM音響モデル78と言語モデル80が利用可能となると、ASRモジュール84は入力発話82を受けるための準備ができたことになり、HMM音響モデル78と言語モデル80とを利用して音声データを認識し、認識されたテキスト86を出力する。
【0060】
[実験結果]
この実施の形態のクラスタリング方法を、DARPA(The Defense Advanced Research Projects Agency)991単語リソースマネジメントデータベースで試験した。この実現に際しては、標準的なSI−109トレーニングデータセット(3,990発話)が用いられた。CMU(Carnegie Mellon University:カーネギーメロン大学)48フォンセットを用いて、各々が3状態で状態ごとに12ガウス混合要素を有する、文脈独立な(Context Independent:CI)音素モデルが生成された。素性は従来の39次元メル周波数ケプストラム計数(mel−frequency cepstrum coefficients:MFCC)(12個の静的MFCC及び対数エネルギ、並びにそれらの第1次、第2次の導関数)であった。
【0061】
Feb89のテストセットを用いて、パープレキシティ60の標準単語対文法を評価した。元の、量子化していないHMMのベースライン認識性能は、単語精度で92.82%であった。
【0062】
(1)平均と分散とが別個にクラスタリングされる別個のクラスタリング(本実施の形態)を、(2)平均と分散とを合わせたクラスタリング(非特許文献4)、及び(3)元の分散を用いた平均クラスタリングのみ(非特許文献3)、と比較した。結果を図8に示す。
【0063】
図8に見られるように、平均と分散とを別個にクラスタリングすると、平均と分散とを合わせたクラスタリングの性能を上回った。また、分散を別個にクラスタリングした場合、認識性能は、次元ごとに16またはそれ以上のクラスタで、クラスタリングなしの分散の場合と同等(またはわずかに良好)であった。
【0064】
[記憶容量と計算量の要件]
【表1】

表1はこの実施の形態に従った最適にクラスタリングされたモデル(平均と分散との別個のクラスタリング)の記憶容量及び計算量の、元のクラスタリングされていないHMMに対するパーセンテージを示す。容量は、クラスタの数により12%〜24%までに減少した。演算量に関しては、j番目の状態の対数尤度は以下のように計算される。
【0065】
【数5】

平均と分散とをクラスタリングしているので、第3項(otijmi)2/2σjmi2は予め計算して異なる出力pdfで共有する。表1に示すように、乗算/除算は2%〜19%まで減少し、加算/減算は52%〜54%までに減少し、性能の劣化はわずかであった。
【0066】
[結論]
多変量、対角共分数ベースのHMMガウス分布カーネルを、各スカラー次元において、対応する対称カルバック−ライブラー・ダイバージェンスを最小化することによって最適にクラスタリングした。平均と分散とを別個にクラスタリングすることにより、元のHMMの高いモデル解像度を維持した。リソースマネジメントデータベースでの評価では、さほど性能を劣化させることなく、記憶量と計算量とをかなり減じることができた。
【0067】
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。
【図面の簡単な説明】
【0068】
【図1】この発明の一実施の形態に従った平均と分散とのクラスタリングを概略的に示す図である。
【図2】この発明の一実施の形態に従ったASRシステム60の構造を示すブロック図である。
【図3】実施の形態に従ったクラスタリングプログラムのフローチャートである。
【図4】実施の形態に従った平均クラスタリングのフローチャートである。
【図5】実施の形態に従った分散クラスタリングのフローチャートである。
【図6】クラスタリングプログラムを実行するコンピュータシステム330を示す図である。
【図7】コンピュータシステム330の構造を示すブロック図である。
【図8】この発明の実施の形態に従ったASR性能を示す図である。
【図9】先行技術によるクラスタリングを概略的に示す図である。
【符号の説明】
【0069】
20、22、24、26、28、30 ガウスカーネル
40、42 平均クラスタカーネル
50、52 分散クラスタカーネル
60 ASRシステム
70 トレーニングコーパス
72 トレーニングモジュール
74 HMM音響モデル
76 圧縮モジュール
78 圧縮HMM音響モデル
80 言語モデル
84 ASRモジュール

【特許請求の範囲】
【請求項1】
確率モデルの複数個の確率密度関数カーネルを圧縮する方法であって、複数個の確率密度関数カーネルは各々第1のパラメータと第2のパラメータとで定義されており、
前記複数個の確率密度関数カーネルの第1のパラメータを1以上の第1のセントロイドカーネルにクラスタリングするステップと、
前記複数個の確率密度関数カーネルの第2のパラメータを1以上の第2のセントロイドカーネルにクラスタリングするステップと
前記第1のセントロイドカーネルのうち、前記複数個の確率密度関数カーネルの各々の第1のパラメータに最も近い第1のパラメータを有するものの第1のパラメータと、前記第2のセントロイドカーネルのうち、前記複数個の確率密度関数カーネルの各々に最も近い第2のパラメータを有するものの第2のパラメータとによって、前記複数個の確率密度関数カーネルの各々を再定義するステップとを含む、方法。
【請求項2】
前記複数個の確率密度関数カーネルの各々はガウス確率密度関数カーネルを含み、前記第1及び第2のパラメータはガウス確率密度関数カーネルの平均と分散とを含む、請求項1に記載の方法。
【請求項3】
前記第1のパラメータをクラスタリングするステップは、前記再定義されたガウス確率密度関数カーネルとそれぞれの対応する元の確率密度関数カーネルとの誤差が最小になるように前記ガウス確率密度関数カーネルの平均をクラスタリングするステップを含む、請求項2に記載の方法。
【請求項4】
前記第2のパラメータをクラスタリングするステップは、再定義されたガウス確率密度関数カーネルと、ゼロ平均を持つそれぞれの対応する元の確率密度関数カーネルとの誤差の合計が最小になるように前記ガウス確率密度関数カーネルの分散をクラスタリングするステップを含む、請求項2又は3に記載の方法。
【請求項5】
所与の二つの確率密度関数の誤差が、前記所与の二つの確率密度関数間の対称カルバック−ライブラー・ダイバージェンスとして計算される、請求項3又は請求項4に記載の方法。
【請求項6】
コンピュータ上で実行されると、請求項1〜請求項5のいずれかに記載の全てのステップをコンピュータに実行させる、コンピュータプログラム。


【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2006−126398(P2006−126398A)
【公開日】平成18年5月18日(2006.5.18)
【国際特許分類】
【外国語出願】
【出願番号】特願2004−313470(P2004−313470)
【出願日】平成16年10月28日(2004.10.28)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り 平成16年9月21日 社団法人日本音響学会発行の「日本音響学会2004年秋季研究発表会講演論文集−1−」に発表
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成16年度独立行政法人情報通信研究機構、研究テーマ「大規模コーパスベース音声対話翻訳技術の研究開発」に関する委託研究、産業活力再生特別措置法第30条の適用を受ける特許出願
【出願人】(393031586)株式会社国際電気通信基礎技術研究所 (905)
【Fターム(参考)】