知識源を組込むための確率計算装置及びコンピュータプログラム
【課題】利用可能なトレーニングデータを用いて,音声信号の音素の確率を頑健に計算することが可能な確率計算装置を提供する.
【解決手段】確率計算装置516は、統計的音響モデル及び知識源を利用して音声信号における各音素の確率を計算する。統計的音響モデル及び知識源はベイズネットワーク(BN)により示される因果関係を有し、BNは、クラスタノード及びセパレータノードを含むジャンクションツリーに対応する。本装置516は、局部的音響モデルR3,C1,L3の記憶装置520と、フレームの各々に対して観測データを計算するモジュールと、局部的音響モデルR3,C1,L3を利用して、観測データを発生する各音素の局部的確率を計算する右、中央、及び左コンテキスト計算装置570、572及び574と、局部的確率の関数として各音素の確率を計算するPDF計算装置576とを含む。
【解決手段】確率計算装置516は、統計的音響モデル及び知識源を利用して音声信号における各音素の確率を計算する。統計的音響モデル及び知識源はベイズネットワーク(BN)により示される因果関係を有し、BNは、クラスタノード及びセパレータノードを含むジャンクションツリーに対応する。本装置516は、局部的音響モデルR3,C1,L3の記憶装置520と、フレームの各々に対して観測データを計算するモジュールと、局部的音響モデルR3,C1,L3を利用して、観測データを発生する各音素の局部的確率を計算する右、中央、及び左コンテキスト計算装置570、572及び574と、局部的確率の関数として各音素の確率を計算するPDF計算装置576とを含む。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は音声認識における確率計算に関し,特に,1以上の知識源を組込んだ音声認識における確率計算に関する.
【背景技術】
【0002】
情報技術は成長を続けており,日常生活の多くの局面においてますます大きな影響力を持つようになってきている.人間と,対話型システムのような情報処理装置との間の音声を介したコミュニケーションの様態もまた,ますます重要になっている.音声指向型インターフェースを実現するための基本的技術の1つとして,自動音声認識(Automatic Speech Recognition:ASR)がある.過去40年近く,多くの研究者がASRの領域の研究を行なってきた.その目標は,人間が発話した自然の話し言葉を,自動的に認識することが可能な知的な情報処理装置の開発である.しかし,複雑な音響信号から,その背後に存在する言語的なメッセージを抽出するのは,信号に含まれる変動について多くの源が存在するため,容易な処理ではない.
【0003】
いくつかのアプローチがこの問題に対処するために開発されている.これらのASRへのアプローチは,一般的に“知識ベース”と“コーパスベース”との2つのタイプに分類される.
【0004】
前者は主に,音声信号のスペクトログラム又はその他の視覚的表現を解釈する人間の能力に基づいており,知識ベースの規則を用いる.しかし,これらの規則が互いに依存する全ての場合を予見するのは難しいため,ある規則が,同じ現象を説明する上で他の規則と全く矛盾するなどして,他の規則と必然的に競合してしまう.
【0005】
これとは対照的に,後者のアプローチは通常,データから知識を自動的に抽出可能な,明確に定義された統計的アルゴリズムを用いた,音声信号のモデル化を基本にしている.このモデル化のアプローチは有望な結果を与えており,前者の知識ベースによるアプローチよりも良い性能を示している.これが,現在のASRシステムの多くが,隠れマルコフモデル(Hidden Markov Models:HMM)に基づく統計的データ駆動型の方法を用いる理由である.最先端のASRシステムは,制御された条件においては非常に高い性能に到達している.
【0006】
この領域の著しい進歩にもかかわらず,ASRシステムが毎日の生活で幅広く利用され,潜在能力を完全に発揮するまでには,克服すべき多くの課題が未だ存在する.例えば,予期できない音響の変化が存在すると,ASRシステムは人間の聴者よりもはるかに劣る性能しか示さない.単に,統計的モデルに頼るだけで,利用可能な付加的知識をほとんど無視するのでは,限定されたレベルの成功にしか到達できない.多くの研究者はこの問題に気付いており,知識ベース及び統計的なアプローチをさらに明確に統合するための様々な試みを行なってきた.
【0007】
今までのところ,非特許文献1は,再スコアリングを目的として,ニューラルネットワークを用いて,音響音素知識源の組込みを可能にする研究を提案している.非特許文献2及び3に開示の大語彙連続音声認識(Large−Vocabulary Speech Recognition:LVCSR)システムもまた,クインフォン/ペンタフォンといった長い期間の同時調音効果の組込みにより,音響モデルの改善をもたらすことに成功した.何人かの研究者は,最近になり,ベイズネットワーク(Bayesian Networks:BN)のようなグラフ的なツールの利用を試みている.BNはHMMを普遍化したものと考えることもでき,音声のスペクトル情報に加えて,調音素性,サブバンドの相関関係,又は話し方のスタイル等の付加的知識を簡単に組込むことができる(非特許文献4).
【特許文献1】特開2007−052166公報
【非特許文献1】J.リ,Y.ツァオ,及びC.−H.リー,「自動音声認識における候補の再スコアリングのための知識源統合」,ICASSP予稿集,フィラデルフィア,米国,2005,837−840ページ(J.Li,Y.Tsao,and C.−H.Lee,“A study on knowledge source integration for candidate rescoring in automatic speech recognition,”in Proc.ICASSP,Philadelphia,USA,2005,pp.837−840.)
【非特許文献2】C.ネッティ,G.ポタミアノス,J.ルッティン,I.マシューズ,H.グロティン,D.ヴェルギリ,J.シソン,A.マシャリ及びJ.シュー,「聴覚−視覚的音声認識」,技術報告,CSLP ジョンホプキンス大学,ボルチモア,米国,2000年(C.Neti,G.Potamianos,J.Luettin,I.Mattews,H.Glotin,D.Vergyri,J.Sison,A.Mashari,and J.Zhou,“Audio−visual speech recognition,”Tech.Rep.,CSLP John Hopkins University,Baltimore,USA,2000.)
【非特許文献3】A.ローリエ,D.ヒンドル,M.ライリー及びR.スプロート,「AT&T LVCSR−2000システム」,音声トランスクリプションワークショップ,メリーランド大学,米国,2000年(A.Ljolje,D.Hindle,M.Riley,and R.Sproat,“The AT&T LVCSR−2000 system,”in Speech Transcription Workshop,University of Maryland,USA,2000.)
【非特許文献4】K.ダウディ,D.フォア及びC.アントアーヌ,「確率論的グラフモデルに基づくマルチバンド音声認識の新たな試み」,ICSLP予稿集,北京,中国,329−332ページ,2000年(K.Daoudi,D.Fohr,and C.Antoine,“A new approach for multi−band speech recognition based on probabilistic graphical models,”in Proc.ICSLP, Beijing, China,pp.329−332,2000.)
【非特許文献5】K.マルコフ及びS.ナカムラ,「ハイブリッドHMM/BN音響モデルの前方向−後方向トレーニング」,ICLSP予稿集,621−624ページ,2006年(K.Markov and S.Nakamura,“Forward−backwards training of hybrid HMM/BN acoustic models,”in Proc.ICSLP,pp.621−624,2006.)
【非特許文献6】J.J.オデル,「大語彙音声認識でのコンテキストの使用」,博士論文,ケンブリッジ大学,ケンブリッジ,英国,1995(J.J.Odell,The Use of Context in Large Vocabulary Speech Recognition,Ph.D.thesis,Cambridge University,Cambridge,UK,1995.)
【非特許文献7】Ji.ミン,P.O.ボイル,M.オーウェンス,及びF.J.スミス,「連続音声認識のためのトライフォンモデル構築のためのベイズアプローチ」,IEEE音声及び音響処理トランザクション,第7巻,第6号,678−684ページ,1999年11月(Ji.Ming,P.O.Boyle,M.Owens,and F.J.Smith,“A Bayesian approach for building triphone models for continuous speech recognition,"IEEE Trans.Speech and Audio Processing,vol.7,no 6,pp.678−684,November 1999.)
【非特許文献8】S.サクティ,S.ナカムラ,及びK.マルコフ,「ベイズフレームワークに基づく広域音素コンテキストの組込みによる音響モデル精度の向上」,IEICE情報&システムトランザクション,E89−D巻,第3号,946−953ページ,2006年(S.Sakti,S.Nakamura,and K.Markov,“Improving acoustic model precision by incorporating a wide phonetic context based on a Bayesian framework”IEICE Trans.Inf.& Stst.,vol.E89−D,no.3,pp.946−953,2006)
【非特許文献9】T.ジツヒロ,T.マツイ,及びS.ナカムラ,「MDL基準に基づく非均一HMMトポロジの自動生成」,IEICE情報&システムトランザクション,E87−D巻,第8号,2121−2129ページ,2004年(T.Jitsuhiro,T.Matsui,and S.Nakamura,“Automatic generation of non−uniform HMM topologies based on the MDL criterion,”IEICE Trans.Inf.& Syst.,vol E87−D,no.8,pp.2121−2129,2004)
【発明の開示】
【発明が解決しようとする課題】
【0008】
しかし,そのような複雑なモデル等を開発して最善の性能を達成することが可能ではない場合がしばしばであった.モデルのパラメータを適切にトレーニングするには資源が不十分なとき,すなわちトレーニングデータの量,及び利用可能なメモリ領域のような資源が不十分な時に,特にそうしたことが起こる.その結果,頑健でない推定と,未知のパターンの数の増加とにより,入力空間の分解能が失われる.さらに,大きなモデルを用いたデコードもまた煩雑となり,時には不可能にさえなる.ここでできる最良の方法は,利用可能なトレーニングデータを用いて信頼性高く推定できる,簡単な形式のモデルを選択することである.
【0009】
それゆえに,本発明の目的の1つは,利用可能なトレーニングデータを用いて,音声信号の音素の確率を頑健に計算することが可能な確率計算装置を提供することである.
【0010】
本発明の別の目的は,データが疎になる可能性があるトレーニングデータを用いて音声信号の音素の確率を,頑健でかつ高い信頼性で計算することが可能な確率計算装置を提供することである.
【課題を解決するための手段】
【0011】
本発明の第1の局面は,音声信号の所与のセグメント中に存在する,予め定義された組の音素の各々について,音声信号のための統計的音響モデル及び1以上の知識源を用いて,確率を計算するための確率計算装置に関する.セグメントは,音声信号の複数のフレームを含む.音響モデル及び1以上の知識源はベイズネットワークにより示される因果関係を有する.ベイズネットワークは,複数のクラスタノード及び1以上のセパレータノードを含むジャンクションツリーに対応する.この装置は,クラスタノード及び1以上のセパレータノードに対応する,複数の局部的音響モデルを記憶するための手段と,フレームの各々に対して予め定義された観測データを計算するための手段と,複数の局部的音響モデルを利用して,音素の各々の,観測データを発生する局部的確率を計算するための局部的確率計算手段と,音素の各々の,観測データを発生する確率を,局部的確率計算手段により計算された局部的確率の所定の関数として計算するための確率計算手段とを含む.
【0012】
局部的な音素の各々の,観測データを発生する確率は,局部的確率の予め定義された関数により計算される.各音素に対する局部的確率は複数の局部的音響モデルを利用して計算される.局部的モデルは1以上の知識源を組込んだモデルよりも小さいため,計算量はより少なくなり,モデルのトレーニングに必要なトレーニングデータの量もより少なくなり,そして,確率計算はより頑健で信頼性が高くなる.
【0013】
好ましくは,所定の関数は
【0014】
【数1】
で定義され,Dは観測データであり,Mは音響モデルであり,Nは正の整数であり,Kiは1以上の知識源であり,ただし,P(D|Ki,M)(i=1〜N)及びP(D|M)は局部的確率計算手段により計算された局部的確率である.
【0015】
さらに好ましくは,モデルMはモノフォン音響モデルであり,1以上の知識源は先行するトライフォンコンテキストユニット及び後続するトライフォンコンテキストユニットを含む.
【0016】
さらに好ましくは,モデルMは追加の知識源を用いてトレーニングされたモノフォン音響モデルであり,1以上の知識源は先行するトライフォンコンテキストユニット及び後続するトライフォンコンテキストユニットを含む.
【0017】
追加の知識源はアクセント知識,又は性別に関する知識,又はアクセント知識及び性別に関する知識の両方を含む.
【0018】
本発明の第2の局面は,コンピュータ上で実行されると,当該コンピュータに,音声信号の所与のセグメント中に存在する,予め定義された組の音素の各々について,音声信号のための統計的音響モデル及び1以上の知識源を用いて,確率を計算するための確率計算装置として機能させるコンピュータプログラムに関する.セグメントは,音声信号の複数のフレームを含む.音響モデル及び1以上の知識源はベイズネットワークにより示される因果関係を有する.ベイズネットワークは,複数のクラスタノード及び1以上のセパレータノードを含むジャンクションツリーに対応する.このコンピュータプログラムは,コンピュータを,クラスタノード及び1以上のセパレータノードに対応する,複数の局部的音響モデルを記憶するための手段と,フレームの各々に対して予め定義された観測データを計算するための手段と,複数の局部的音響モデルを利用して,音素の各々の,観測データを発生する局部的確率を計算するための局部的確率計算手段と,音素の各々の,観測データを発生する確率を,局部的確率計算手段により計算された局部的確率の所定の関数として計算するための確率計算手段として機能させる.
【発明を実施するための最良の形態】
【0019】
1.序論
ここでは,本願が提案するフレームワークを,データのスパースネス及びメモリの制約という困難をしばしば伴う,広域音素知識情報に組込むという問題に適用することについて論ずる.はじめに,どのように付加的知識源がHMM状態の分布に組込まれるかを示す.次に,どのように付加的知識源がHMM音素モデリングに組込まれるかを示す.何れのアプローチも2種類のアクセントを含む英語音声データを用いた大語彙連続音声認識実験により実験的に実証されている.
【0020】
はじめに,付加的知識源の組込みに対する一般的フレームワークについて次のセクションに記述する.次に,従来のHMM音響モデルについての概略をセクション3に記述する.セクション4及び5では,HMM状態及び音素モデルレベルで付加的知識源を組込むにあたり,どのように本フレームワークが用いられるかを示す.ここには広域音素コンテキスト情報の組込みの問題への適用法も含まれる.実験の詳細を,結果及び議論を含めてセクション6に示す.最後に,結論がセクション7に記述される.
【0021】
2.知識源を組込むための一般的フレームワーク
統計的コーパスベースのアプローチにおいては,ある観測データDが与えられることにより,モデルMをトレーニングする.興味の対象となる重要な問題の1つは,そのモデルについて特定の知識が与えられることにより期待することができるデータを予測する,尤度P(D|M)を計算することである.
【0022】
確率密度関数P(D|M)は,単純な場合は条件付確率テーブル(Conditional Probability Tables:CPT)(Dが離散的な場合),又はガウス分布のような連続的関数(Dが連続の場合)によりモデル化することができる.この場合,所与のデータd及びモデルパラメータmに対する出力確率は,以下のように簡略に計算される.
【0023】
【数2】
その後,付加的知識源をこのモデルに組込む必要があると仮定する.ここでは,どのようにして付加的知識源が組込まれるかを考慮することが必要である.この考慮の手順はいくつかのステップを含み,その概略を図1に示す.
【0024】
図1を参照して,この手順は,情報源,モデル及びデータの間の因果関係を,BNを用いて定義するステップ(ステップ50)と,直接にBN推論をすることが可能か否かを判定するステップ(ステップ52)と,直接にBN推論が可能と判定されたときに,直接にBN推論を実行するステップ(ステップ54)と,直接にBN推論することが不可能と判定されたときに,後述するジャンクションツリーアルゴリズムを用いて,関係に関するネットワークをリンクされたクラスタの組に分解するステップ(ステップ56)と,ステップ56において得られたジャンクションツリー上で推論を行なうステップ58とを含む.
【0025】
以下に,その手順のさらなる詳細を記述する.
【0026】
A.情報源間の因果関係の定義
DとMの間の因果関係がBNを用いて説明されるような,単純な場合からはじめる.BNの1つの例は,図2(A)にその概略を示す,ノード72及びノード74を含むBN70である.ここで,ノードM72は正方形のノードで示される離散変数であり,ノードD74は楕円のノードにより示される連続変数である.
【0027】
BNの同時確率関数は以下のように因数分解される.
【0028】
【数3】
ただし,Pa(Zk)はBN変数Zkの親を示す.このことから,図2(A)より以下の式を得る.
【0029】
【数4】
このため,データに関する知識に基づき,D,M及びKの間の条件に関する依存性を単純に定義し,付加的な知識KをP(D,M)に組込み,同時確率モデルを同様の方法により表す.例えば,D,M及びKの間の条件に関する依存性を,図2(B)に概略を示すBNにより表すことができる.図2(B)では,BN80はノード72及び74と,付加的ノードK76とを含む.ここでBN同時確率関数は以下のようになる.
【0030】
【数5】
さらに詳細な例を考える.ここまで,K1,K2,…,KN知識源があると仮定していた.ここでは,これらすべてが条件に関する依存性が無いと仮定している.図3に,D,M及びK1,K2,…,KNの間の条件に関する依存性の構造の2つの例の概要を示す.
【0031】
図3(A)を参照して,ネットワーク90はノード72及び74と,さらにノード92,94,…,96(ノードK1〜KN)とを含む.ノードK1〜KNは親ノード72及び子ノード74を持つ.図3(B)に示すネットワーク100は,ノード72及び74と,ノード92,…,及び96(ノードK1〜KN)とを含む.ノードK1〜KNのうちノード92及び96は子ノード74のみを持つが,他のノードは親ノード72及び子ノード74を持つ.
【0032】
このため,図3(A)に示されるBNに対する同時確率密度関数は,式(2)により以下の様になる.
【0033】
【数6】
もし,図3(B)(K1及びKNを参照)に示すように,Mからの因果関係の影響を何ら受けないあるKiがある場合,同時確率密度関数は以下の式で示されるようになる.
【0034】
【数7】
ここで分かるように,条件に関する独立性の仮定が異なると,確率関数の分解の仕方も異なってくる(式(5)及び(6)を参照).
【0035】
B.ベイズネットワークにおける直接推論
推論における最重要関心事は,大域での条件付確率P(D|K1,…,KN,M)を計算することである.この確率密度関数がとる形式が,直接的なBN推論を許容する場合,以下の2つのケースが考えられる.
【0036】
1)全ての変数が観測可能である.
【0037】
このケースでは,確率密度関数は単純に式(1)で計算される.
【0038】
【数8】
2)付加的な知識源K1,…,KNのような,いくつかの変数が観測できないか,または隠されている.
【0039】
このケースでは,確率密度関数は式(5)と,すべてのKiに対しすべての可能なKi:ki1,ki2,…,kiMに関するマージナライゼーションにより計算される.
【0040】
【数9】
ただし単純化のために,<D=d>,<M=m>,及び<Ki=kij>の変わりに,d,m,及びkijを用いている.
【0041】
しかし,全体的な条件付確率P(D|K1,…,KN,M)の計算は,変数が多すぎること,及び/または,計算上の複雑さにより,簡単ではないことがある.このような場合,有向グラフを変数のクラスタに分解し,これらに対し適切な計算を実行できるようにすることが必要である.この処理は,次のサブセクションで述べるジャンクションツリーアルゴリズムにより行なえる.
【0042】
C.ジャンクションツリー分解
K1及びK2の2つの付加的知識源の組込みのみの単純なケースを考えてみる.D,M,K1及びK2の間の因果関係を,図4(A)に示すBN110により示す.BN110はM,D,K1及びK2によりそれぞれ示す,ノード112,114,116及び118を含む.ここで,ノードM,K1及びK2は正方形のノードで示される離散変数であり,ノードDは楕円のノードで示される連続変数である.
【0043】
そして,ジャンクションツリーを得るために,以下のようなグラフ変換が実行される.
【0044】
1)親を結合させ(共通の子を持つ全ての変数のペアの間にリンクを追加し),リンクの向きをなくすことにより,BN110から無向グラフを組立てる.図4(A)の場合,ノード116及び118の間にリンクが付与される.その結果得られるグラフは「モラルグラフ」と呼ばれる.
【0045】
2)三角形からなるグラフ(トライアンギュレートグラフ)を形成するため,選択的にモラルグラフにアーク(弧)を付加する.もし“コードレスサイクル”が存在しなければ,グラフはトライアンギュレートである,という.コード(弦)とは,長さが3より大きいサイクル内の,2つの連続しない頂点を接続するエッジである.
【0046】
3)トライアンギュレートグラフにおいて,Pa(A)≠0であるすべての変数Aに対して,Pa(A)∪Aを含むサブセットを形成する.これはクラスタまたはクリークとよばれる.
【0047】
4)クラスタ/クリークをノードとしてジャンクションツリーを構築する.この場合,二つのクリークの間のリンクの各々は,これらクリークの間の空ではない共通集合のセパレータを用いてラベル付けされる.
【0048】
図4(B)は,図4(A)に示すBN110に相当する,モラル及びトライアンギュレートグラフ130の概要を示す.グラフ130はノード116及び118の間に追加のリンク120を含む.しかし,このトライアンギュレートグラフからはD,M,K1及びK2の変数の全体の集合からなる1つのクラスタ/クリークしか得ることができず,これ以上分解できない.幸運にも,K1及びK2は独立であると仮定されるため,いくつかの矢を逆向きにすることにより,BN110と等価の図4(C)に示すBN140を得ることができる.これが可能なのは,P(X,Y)がP(X|Y)P(Y)とP(Y|X)P(X)とに分解できること,及びこの2つが互いに等価であるためである.
【0049】
図4(D)はBN140に対応するモラル及びトライアンギュレートグラフ150の概要を示す.これによりクラスタ/クリークを同定することができ,さらに図4(E)にその概要を示すジャンクションツリーを得ることができる.ここではクラスタの組は楕円のノード164及び166により表され,セパレータの組は正方形のノード162により表されている.
【0050】
以上から,BN同時確率分布は,全てのクラスタのポテンシャル(確率)の積を,セパレータのポテンシャルの積で除算することにより以下のように定義される.
【0051】
【数10】
ただし,Uはグラフにおける全ての変数を示す「世界」を,φCiはクラスタポテンシャル(クラスタCiにおける確率)を,φSiはセパレータポテンシャル(セパレータSiにおける確率)を示す.このため,同時確率関数,P(D,K1,K2,M)は図4(E)によれば以下のようになる.
【0052】
【数11】
ただし,P(D,K1,M)とP(D,K2,M)とはクラスタポテンシャルであり,P(D,M)はセパレータポテンシャルである.
【0053】
同様の仮定及び考慮に基づいて,図3(A)に示すBN90と同様のBNトポロジは図5(A)のように書くことができる.図5(B)にこれに対応するジャンクションツリーを示す.図5(B)では,変数{(D,K1,M),(D,K2,M),…(D,KN,M)}のN個のクラスタ164,166,…170と,N−1個のセパレータ{D,M}(ノード162,168等)が存在する.このため式(5)により求められる同時確率関数は以下の式により分解することができる.
【0054】
【数12】
これは,同時確率関数P(D,K1,…,KN,M)を,ある付加的な知識K1,K2,…,KNが与えられた場合の観測データDの確率に対応するいくつかの局部的な同時確率関数P(D,K1,M),…,P(D,KN,M)を合成したものとして表す新しい表記方法を示す.
【0055】
D.ジャンクションツリー推論
チェーンルールを用いることにより,全てのP(D,Ki,M)に対し以下の式を得る.
【0056】
【数13】
このため,式(11)は以下のようになる.
【0057】
【数14】
この式(11)を式(5)と比較すると,
【0058】
【数15】
であることが分かり,これは,P(D|K1,…,KN,M)が,特定の付加的な知識K1,K2,…,KNが与えられた場合の観測データDの確率に対応する別々の項に分解可能であることを示す.
【0059】
いくつかの単純なP(D|Ki,M)を定義したり,推定したり,観測したりすることは,1つではあるが複雑なP(D|K1,…,KN,M)と比べて非常に簡単となる.
【0060】
このため,データd,モデルパラメータm,及び付加的な知識源k1j,…,kNjが与えられた場合に対する推論における出力確率は,以下のように計算される.
【0061】
【数16】
3.従来のHMM音響モデル
従来のHMMに関連して,いくつかの表記を定義する.トライフォンコンテキスト/a−,a,a+/のHMM音声モデルをλ,HMM状態変数をQと表記する.Xは観測変数であり,Xs=Xt,…,Xt+mは長さmの観測データセグメントである.図6に,標準的なHMM190の構造の概要を示す.ここでは,
1)短時間スペクトル特性はガウス分布210,212,及び214の混合によりモデル化される.
【0062】
2)時間的な音声特徴は状態200,202及び204の間でのHMM状態遷移216,218,220,222及び224により支配される.
【0063】
HMM状態出力確率p(xt|qi)は,通常,状態確率密度関数(Probability Density Function:PDF)P(X|Q)から以下の式により計算される.
【0064】
【数17】
ただし,bmは状態qiのm番目の混合分布の混合重みであり,N(・)は平均ベクトルμmと共分散行列Σmとを持つガウス関数である.HMMセグメントの尤度P(Xs|λ)は,観測結果と状態シーケンスとの同時確率を,全ての状態シーケンスに対してとることにより(合計尤度),又は最も確からしい状態シーケンスのみに対してとることにより(Viterbi Path),計算される.
【0065】
4.HMM状態レベルでの知識源の組込み
A.一般的検討
モデルMは所定のトライフォンHMM状態Qであり,Dはセクション2に述べた理論的フレームワークに従う観測変数Xである.
【0066】
1)因果関係の定義
このトポロジの構造は図2(A)に示すものと同様であり,トライフォンHMM状態PDFは,ここでは式(3)と同様のBN同時確率関数により示される.
【0067】
【数18】
単純に式(5)に従えば,以下のようになる.
【0068】
【数19】
これにより,追加の知識源K1,K2,…,KNをHMM状態分類P(X,Q)に組込む(すべてのK1,K2,…,KNが独立した所定のQであると仮定されている.).
【0069】
2)推論
主たる関心事はHMM状態出力確率P(X|K1,…,KN,Q)の計算であるが,これはガウス関数により簡単にモデル化することが可能である.このために,状態出力を直接得ることができる.全ての追加の知識源K1,…,KNがセクション2−Bに示されたように隠されていると仮定すると,状態出力確率は,すべての1≦i≦Nに対して,すべての可能なKi:ki1,ki2,…,kiMをマージナライゼーションすることにより,式(8)と同様に得られる.
【0070】
【数20】
ここで,p(ki1|qt)…p(kNj|qt)の項を,ガウス成分p(xt|ki1,…,kNj,qt)の混合重み係数として扱えば,式(19)もまた,式(16)の従来のHMMの状態出力確率と等価であることが分かる.式(19)はガウス混合分布を表すので,HMMを基にした既存のデコーダを,何らかの修正をする必要なく用いて認識を行なうことができる.さらに,BNは状態出力の尤度を推論するために使用されるのみであるので,HMMを基にしたトライフォン音響モデルのトポロジをそのまま維持し,HMM状態遷移が依然として時間的な音声特性により支配されるようにできる.このアプローチはまた,ハイブリッドHMM/BNモデル化フレームワークとして知られ,非特許文献5に記載されている.以後,状態レベルで付加的知識を組込んで得られるモデルを,HMM/BNモデルと呼ぶ.
【0071】
このモデルのパラメータ学習は,非特許文献5に記載のHMM/BNモデルの通常のトレーニングから採用できる.これはバックワード・フォワードアルゴリズムを基にしている.このアルゴリズムでは,各トレーニングの繰返しは,BNのトレーニングと,HMM遷移確率の更新とからなる.BNのトレーニングは標準的な統計的方法を用いてなされる.トレーニングの間に全ての変数が観測可能であれば最大尤度(ML)パラメータ推定が適用され,いくつかの変数が隠れている場合,パラメータは標準的なエクスペクテーション・マキシマイゼーション(EM)アルゴリズムにより推定される.
【0072】
B.広域音素コンテキスト情報の組込み
ASRシステムにおいて最も広く用いられる音響ユニットは,現在のところ,依然として,直近の先行する音素コンテキスト及び後続する音素コンテキストを含むトライフォンである.トライフォンは効果的な選択であることが確認されてきたが,より長い期間にわたる同時調音効果を捉えるためには,広域音素コンテキストの方がより適切と考えられている.しかし,広域音素コンテキストには,データのスパースネス及びメモリの制約という問題がある.
【0073】
ここで,前のセクションに記載したフレームワークを,広域音素知識情報を組込むという問題にどのように適用するかを説明する.
【0074】
従来の,トライフォンコンテキスト/a−,a,a+/であるHMM,λを,/a−−,a−,a,a+,a++/のようなペンタフォンコンテキストに拡張する必要があるものとする.このため,このアプローチに基づき,BNに2つの変数を挿入することにより,二つ前及び後のコンテキスト,CL(/a−−)及びCR(/a++/)をトライフォン状態PDFに組込む.
【0075】
トライフォンHMM状態Qと,観測データX,及び2つの付加的変数CL及びCR間の条件に関する依存性は,図7に概要を示すBNトポロジにより説明される.これをBN−Cトポロジと呼ぶ.
【0076】
図7を参照して,ベイズネットワーク240は,ノード250,252,254及び256を含み,これらはQ,X,CL,及びCRにより,それぞれ示される.ノードCLは2つ前のコンテキスト(/a−−)を,ノードCRは2つ後のコンテキスト(/a++/)を表す.
【0077】
HMM状態PDFは,現在のところ,BN同時確率により示される.これは式(18)によると,以下のように分解される.
【0078】
【数21】
ただし,Xは2つ前のコンテキストCL及び2つ後のコンテキストCRの両方に依存する.Xは連続の変数であり,CL,CR及びQは離散的変数であるので,P(X|CL,CR,Q)はガウス関数でモデル化され,各々のP(CL|Q)又はP(CR|Q)はCPTにより表される.
【0079】
状態出力確率はP(X|CL,CR,Q)により得ることができる.付加的なコンテキスト変数CL及びCRが,式(19)のように認識時には得ることができない(隠されている)と仮定すると,
【0080】
【数22】
となり,p(cl|qi)p(cr|qi)の項を,ガウス成分の混合重み係数p(xt|cl,cr,qi)として扱えば,式(19)は式(16)の従来のHMMの状態出力確率と等価である.したがって,ここで,ガウスPDFはcl,cr及びqiの全ての組合せに対しトレーニングされる.
【0081】
さらにこのペンタフォンBNを,このフレームワークを使い,性別に関する情報又はアクセント情報等の他の追加の変数で拡張することもできる.図8はトライフォンHMM状態Qと,観測データXと,2つの付加的変数CL及びCRと,性別に関する変数G及び/又はアクセント変数Aとの間の条件に関する依存性の構造の例をいくつか示す.
【0082】
BNトポロジは,ノード272により示される,性別に関する付加的変数Gを用いて,BN−Cを拡張することで,図8(A)の参照番号270により示されるものになる.これをBN−CGと呼ぶ.ノード292により示される追加のアクセント変数Aを用いてBN−Cを拡張する場合は,BNトポロジは図8(B)の参照番号290が示すものになり,これをBN−CAと呼ぶ.図8(C)のBNトポロジ310は,ノード292及び272によりそれぞれ示される,アクセント及び性別に関する変数の両方を用いて拡張されたものであり,BN−CGAと呼ぶ.
【0083】
BN−CGAの例(図8(C)参照)に対するHMM状態PDFは以下のように表される.
【0084】
【数23】
ただし,Xは,アクセントA,性別G,2つ前のコンテキストCL,及び2つ後のコンテキストCRに依存する.この状態出力確率はまた,式(21)と同様の方法によりP(X|CL,CR,Q,A,G)から得ることができる.
【0085】
【数24】
ここで,p(a)p(g)p(cl|qi)p(cr|qi)の項を,ガウス成分の混合重み係数p(x|cl,cr,qi,a,g)として扱えば,各ガウスPDFはcl,cr,qi,a,及びgの各組合せに対しトレーニングされる.
【0086】
両方の表記(式(21)及び(23))は,標準トライフォンHMM音響モデルにおいて用いられるガウス分布の混合を示す.このため,既存のHMMを基にしたデコーダを,何らかの修正を行なうことなく用いて認識を行なうことができる.提供モデルのパラメータ学習は前のセクションにおいて述べたようにして実行される.トライフォン状態Q,アクセントA,性別G,2つ前のコンテキスト(CL),2つ後のコンテキスト(CR),及び変数Xを含む全ての変数が,トレーニングで観測可能であるから,MLパラメータ推定が利用される.
【0087】
全てのモデルパラメータを信頼性高く推定するにはトレーニングデータの量が不十分な場合,クラスタリング技術,例えば,知識ベースの,又は,データ駆動型のクラスタリングにより,パラメータの数を削減できる.例えば,2つ前/後の音素コンテキストCL/CRの各値cl/crに対し,式(21)及び(23)により,対応するガウス成分が存在する.
【0088】
図9はCRのみが追加されたBN330に対する,観測空間344の概要を示す.図9のCRはノード342により示され,2つ後のコンテキストの種々の値/b/,/p/,…,/z/を有する.この変数の種々の値は種々のガウス分布350,352,…,354にそれぞれ対応する.44音素の組(無音を含む)を英語ASRに用いるとすれば,2つ前/後の音素コンテキストCは,44個の値(C=c1,c2,…,c44)を有する可能性があるということになる.このため,BN−Cトポロジ(図7参照)の各状態に対するガウス分布の総数は,442=1936となり得る.BN−CG,BN−CA及びBN−CGAのトポロジはさらにもっと多くなる.このように増加したモデルパラメータを信頼性高く推定するにはトレーニングデータの量が不十分な場合,全体の性能は顕著に低下するであろう.このため,ガウス分布の数を減らすことが好ましい.ガウス分布の数を減らすために利用できる方法が2つある.一方は知識ベースの音素クラスを用いることである.他方はデータ駆動のクラスタリングである.これらの方法は,どのようなベイズネットワークにも適用可能である.
【0089】
ここでは,音素コンテキストを,調音の態様における主な相違に基づき分類し,パラメータのサイズを削減する.テーブル1に,非特許文献6から流用した知識ベースの音素クラスの例を挙げる.
【0090】
【表1】
HMM/BNアプローチに基づくペンタフォンの可能性についての,さらなる詳細及び議論は特許文献1に示されている.
【0091】
5.音素モデルレベルでの知識源の組込み
A.一般的検討
セクション2に記述の理論的フレームワークに従い,再びモデルMをHMM音素モデルλ,DをセグメントXsとする.
【0092】
1)因果関係の定義
トポロジの構造は図2(A)に示されるものと同様であり,HMM音素ユニットの確率関数は今回は式(3)と同様のBN同時確率関数により示される.
【0093】
【数25】
追加の知識源K1,K2,…,KNをHMM音素モデルP(Xs,λ)に組込むためには(所与のλに対し,全てのK1,K2,…,KNが独立と仮定する.),簡易に式(5)に従い,次の式を得る.
【0094】
【数26】
2)推論
ここでの最大の関心事は,与えられた入力セグメントXsに対するP(Xs|K1,…,Kn,λ)を計算することである.しかし,条件付PDFに対する単純な形式の関数を得るのは困難である.なぜなら,この式には,持続時間が変化するHMMモデルλ,及びセグメントXsが関係しているからである.このためここで,セクション2−Cで述べたジャンクションツリーアルゴリズムにより,P(Xs|K1,…,KN,λ)を分解する必要がある.これは式(14)に従い以下のように分解される.
【0095】
【数27】
この式は,いくつかの,より複雑さの少ない依存関係,すなわち,特定の追加の知識K1,K2,…,KNが与えられた場合のセグメント観測データXsの尤度に対応するP(Xs|K1,λ),…,P(Xs|KN,λ)によって,音素のHMM尤度P(Xs|K1,K2,…,KN,λ)を表す新しい方法である.
【0096】
B.広域音素コンテキスト情報の組込み
前のセクションで述べたアプローチを,広域音素の知識情報の組込みの場合と同じ課題に対して適用してみる.広域音素知識情報の組込みにおいては,トライフォンコンテキスト/a−,a,a+/を,ペンタフォンコンテクスト/a−−,a−,a,a+,a++/に拡張する.構造上,従来のHMMのトライフォンコンテキストユニットモデルは,図10(A)に示すモデル370として説明され,ペンタフォンコンテキストユニットモデルは,図10(B)に示すモデル372として説明される.
【0097】
2つ前のコンテキストCL/a−−/と2つ後のコンテキスト/a++/とを,確率関数P(Xs|λ)に追加する.Xs,λ,CL及びCRの条件に関する依存性は,図4(A)に示すものと類似のBNにより記述される.分解で最終的に得られるジャンクションツリーもまた,図4(E)に示すものと同様である.図4(E)におけるMがここでのHMM音素モデルλであり,DがセグメントXsである.このことから,条件付確率関数は,式(26)によれば以下のように定義される.
【0098】
【数28】
λが,トライフォン/a−,a,a+/,2つ前のコンテキストCL/a−−/,及び,2つ後のコンテキストCR/a++/と関連付けられていることから,以下のように書ける.
【0099】
【数29】
この式(28)は以下のようになる.
【0100】
【数30】
これはペンタフォンモデルが,p(Xs|[a−−,a−,a,a+]),p(Xs|[a−,a,a+,a++]),及びp(Xs|[a−,a,a+])により構成できることを示す.これら構成要素は,左/先行テトラフォンコンテキスト,右/後続テトラフォンコンテキスト,及び中央トライフォンコンテキストというユニットが与えられた場合の,セグメントXsの尤度に対応する.
【0101】
しかし,[a−−,a−,a,a+],[a−,a,a+,a++]に対するテトラフォンモデルを作成することもまた,データが疎にしか存在しないことにより困難である.
【0102】
これに代えて,式(28)を用い,λがモノフォン/a/を示すように,並びに2つ前と後のコンテキストCL及びCRとが/a−−,a−/及び/a+,a++/をそれぞれ表すようにする.この結果,以下の式を得る.
【0103】
【数31】
この式は,ペンタフォンコンテキスト/a−−,a−,a,a+,a++/が,p(Xs|[a−−,a−,a,]),p(Xs|[a,a+,a++]),及びp(Xs|[a])により構成されることを示し,これら構成要素は,左/先行テトラフォンコンテキスト(L3),右/先行テトラフォンコンテキスト(R3),及び中央トライフォンコンテキスト(C1)のユニットが与えられたときの,観測データXsの尤度に対応する.この構成をC1L3R3と呼び,その構造を図10(C)に示す.
【0104】
図10(C)を参照して,ベイズペンタフォンコンテキストユニットC1L3R3 374は,左/先行トライフォンコンテキストユニット(L3)380,右/後続トライフォンコンテキストユニット(R3)382,及びモノフォンユニット(C1)(図示せず)を含む.
【0105】
この図で分かるように,推定すべきコンテキストユニットの数は,コンテキストのカバーする範囲を損なうことなく,N5から(2N3+N)に削減される.ただしNは音素の数である.英語ASRに対し44音素の組を用いるとすれば,ペンタフォンモデルで推定する必要のあるコンテキストの総数は445≒165,000,000コンテキストユニットである.トライフォンコンテキストユニットを用いた構成では,この複雑さが約170,000ユニットまで削減される.
【0106】
式(29)及び(30)を分析すると,式(27)を,HMM音素モデルの他の構成を導くためのスタート点としても用いることが可能であることが分かる.λがモノフォンユニット/a/,CL及びCRが,それぞれ,コンテキストユニット/a−/及び/a+/に先行する,及び後続するコンテキストユニットであると仮定した場合,非特許文献7で提案されたのと同様の因数分解が得られる.これはベイズトライフォンとして知られている.
【0107】
【数32】
ここでは,トライフォンモデルがモノフォン及びバイフォンモデルから構築されている.以後,同様の方法で構成された全てのモデルも,ベイズモデルと呼ばれる.
【0108】
ベイズ広域音素コンテキストモデルと呼ばれる,ベイズトライフォンを拡張したものもまた,本願発明者の先の研究論文である非特許文献8に記載されている.このアプローチにより,単にベイスの法則に基づくのみで,コンテキストへの依存度がより少ないモデルから広域の音素コンテキストをモデル化できる.しかし,種々の種類の知識源を組込むことが必要な場合には困難が生ずる.
【0109】
対照的に,ここでの統一されたフレームワークは,様々な種類の知識源を組込むための,より適切な手段を我々に与える.例えば,性別又はアクセント情報のような他の追加の知識変数で,C1L3R3をさらに拡張することが容易にできる.C1L3R3を,性別情報のみで(C1L3R3−G),アクセント情報のみで(C1L3R3−A),又は,性別及びアクセントの両方の情報で(C1L3R3−AG),拡張することができる.
【0110】
C1L3R3−AGの場合,BNトポロジと,モラル及びトライアンギュレートグラフと,それに対応するジャンクションツリーとは図11に示されるようになる.図11(A)を参照して,BNトポロジ400は,λ,Xs,CL,CR,G及びAによりそれぞれ示される,ノード410,412,414,416,418及び420を含む.図11(B)を参照して,BNトポロジ400に対応するモラル及びトライアンギュレートグラフ430は,ノード410,412,414,416,418及び420と,ノード418及び420,ノード410及び418,並びにノード410及び420をそれぞれ接続する,付加的な3つのリンク422,424,及び426とを含む.図11(C)を参照して,図11(B)のグラフに対応するジャンクションツリー450は,“XsλAG”,“XsCLλ”,及び“XsCRλ”でそれぞれ示される,クラスタノード460,464,及び474と,“Xsλ”,及び“Xsλ”でそれぞれ示される,セパレータノード462及び472とを含む.
【0111】
この場合,条件付確率関数は以下のように求められる.
【0112】
【数33】
したがって,λ,CL及びCRに対するC1L3R3の設定に従えば,C1L3R3−AGのペンタフォン尤度は以下のようになる.
【0113】
【数34】
これは,P(Xs|[a−−,a−,a,a+,a++],A,G)を,P(Xs|[a],A,G),P(Xs|[a−−,a−,a],A,G),及びP(Xs|[a,a+,a++],A,G)に因数分解することにより,単純化できることを示している.
【0114】
提案に係るペンタフォンモデルでASRシステムを実現するためには,いくつかのモデルで動作できる,特別なデコーダを必要とする.これは,提案に係るペンタフォンモデルを,標準的なトライフォンに基づくHMMシステムにより生成されたN−ベストリストの再スコアリングに適用する場合には,避けることができる.
【0115】
図12は,本発明の第1の実施の形態に係るASRシステム500の全体の構造を示す.図12を参照して,ASRシステム500は,音声波形データ510を受け,その音声をデコードし,入力音声の仮説のNベストリストを出力するための標準的デコーダ512と,530,532,534,及び536でそれぞれ示される,ペンタフォンモデルC1L3R3,C1L3R3−A,C1L3R3−G,及びC1L3R3−AGを記憶するためのモデル記憶装置520と,人間の操作に応答して,モデル530,532,534,及び536のうちいずれか1つを選択するためのセレクタ522と,標準的デコーダ512からの仮説のNべストを,セレクタ522により選択されたモデルを利用して再スコアリングし,Nベストの仮説のうち最も高いスコアを示す1つを出力するための仮説選択モジュール516とを含む.
【0116】
図13は仮説選択モジュール516の詳細を示す.図13を参照して,仮説選択モジュール516は,Nベストの仮説を記憶するためのメモリ550と,メモリ550から仮説を1つずつ読出し,分離された音素の特徴パラメータを,後続する再スコアリングのための機能ユニットに左から右という順序で供給するための読出及び供給モジュール552と,シフトメモリ554においてこれらの特徴パラメータを受取るための5つのシフトメモリ554,556,558,560及び562とを含む.特徴パラメータがシフトメモリ554,556,558,560及び562をシフトされた時,シフトメモリ554,556,558,560,及び562は,a+,a++,a,a−,及びa−−に対する特徴パラメータをそれぞれ記憶する.
【0117】
仮説選択モジュール516はさらに,R3モデル並びにシフトメモリ554,556及び558に記憶された特徴パラメータを用いて,確率P(Xs|[a,a+,a++])を計算するための右コンテキスト計算装置570と,C1モデル,及びシフトメモリ558に記憶された特徴ベクトルを用いて,確率P(Xs|[a])を計算するための中央コンテキスト計算装置572と,L3モデル並びにシフトメモリ558,560,及び562に記憶された特徴パラメータを用いて,確率P(Xs|[a−−,a−,a])を計算するための左コンテキスト計算装置574と,読出及び供給モジュール552によりメモリ550から読出された仮説の各セグメンテーションに対し,式(30)にしたがって確率P(Xs|[a−−,a−,a,+,a++])を計算するためのPDF計算装置576とを含む.
【0118】
仮説選択モジュール516はさらに,各仮説のセグメントの確率を乗算することにより,メモリ550に記憶された各仮説を再スコアリングし,スコアを対応する仮説と関連付けてメモリ550に記憶するための再スコアリングモジュール578と,メモリ550内の仮説をスコアの降順にソートし,最も高いスコアを有する仮説を出力するためのソート及び選択モジュール580とを含む.
【0119】
単語レベルでのNベスト認識は,標準的デコーダ512により,従来のHMM音響モデル及び標準的なビタビ復号を用いて,テストデータの全ての発声に対して実行される.全てのNベストの仮説は,全音素の音響スコア,言語モデル(Language Model:LM)スコア,及びビタビ分割を含む.そして,各仮説の音素セグメント毎に,提案に係るペンタフォンモデルを用いて,仮説選択モジュール516において再スコアリングが行なわれる.
【0120】
図13を参照して,メモリ550はNベストの仮説を記憶する.読出及び供給モジュール552はメモリ550から最初の仮説を読み出し,左から右に(先頭から末尾に),仮説内の音素セグメント(特徴パラメータ)をシフトメモリ554へ出力する.
【0121】
シフトメモリ554〜562は,音素セグメントをシフトする.シフトメモリ554,556及び558に記憶された,音素セグメントの各組に対して,右コンテキスト計算装置570はR3モデルを用いて確率P(Xs|[a,a+,a++])を計算する.シフトメモリ558に記憶された各音素セグメントに対し,中央コンテキスト計算装置572はC1モデルを用いて確率P(Xs|[a])を計算する.シフトメモリ558,560,及び562に記憶された音素セグメントの各組に対して,左コンテキスト計算装置574はL3モデルを用いて確率P(Xs|[a−−,a−,a])を計算する.計算された確率は,PDF計算装置576へ与えられる.PDF計算装置576はペンタフォンコンテキスト確率P(Xs|[a−−,a−,a,+,a++])を,式(30)にしたがって計算し,その確率を再スコアリングモジュール578に与える.
【0122】
シフトメモリ558に記憶される各音素セグメントに対応して,読出及び供給モジュール552は再スコアリングモジュール578に,PDF計算装置576の出力を読むタイミングを知らせる.これに応答して,再スコアリングモジュール578はPDF計算装置576の出力を読み,その値を記憶する.仮説の最後になると,読出及び供給モジュール552は,再スコアリングモジュール578に信号を送る.これに応答して,再スコアリングモジュール578はその仮内の全音素セグメントの確率を掛け合わせることにより,当該仮説のスコアを計算する.計算完了の際,再スコアリングモジュール578は,メモリ550内のスコア(ペンタフォンスコア)を処理対象の仮説と関連付けて記憶する.
【0123】
メモリ550に記憶された全ての仮説に対してペンタフォンスコアが計算されると,読出及び供給モジュールはソート及び選択モジュール580に信号を送る.これに応答して,ソート及び選択モジュール580は,メモリ550に記憶された全ての仮説を,対応するペンタフォン及びLMスコアと共に読出し,そのペンタフォン及びLMスコアを組合わせて新しいスコアとし,その新しいスコアの降順に仮説を並べかえ,並べかえた仮説のうち最も高いスコアを有するものを選択し,それを新しい仮説518として出力する.
【0124】
図14に,仮説の再スコアリングの例を示す.
【0125】
トレーニングの間に,いくつかの音素コンテキストが出現しなかったかもしれない.このようなコンテキストに対しては,ここで提案したペンタフォンコンテキストモデルは,認識の間に出力確率を作りだすことができない.この問題に対処するため,ここでは,単純に,小さな数値を出力確率として割当る.この再スコアリングには先行,後続,及び中央のモデルからの出力確率が関係するため,全ての要素モデルにフロアリングが適用される.
【0126】
トレーニングデータの量が不十分な場合,パラメータの推定は,ここで提案したペンタフォンモデルに対するものでさえも信頼性が低くなり,状態出力の信頼性もまた下がる.モデルの信頼性を向上するため削除補間法を用いたが,その結果,より精密と思われるモデルが実際には信頼性を欠く場合に,より信頼性の高いモデルに戻ることができる.この概念は,別々にトレーニングした2個のモデルであって,その一方が他方よりも信頼性高くトレーニングされているようなモデル間を補間することに関連している.しかし,2個のモデルを補間する代わりに,我々はこのアプローチを2つの音素尤度の組込みに適用した.ただし,ここで提案したベイズペンタフォンモデルの音素尤度P(Xs|λbayPenta)が精密な方であり,トライフォンの尤度P(Xs|λtriphn)が,より信頼性の高い方である.このため,音素尤度P(Xs|λ)は以下で与えられる.
【0127】
【数35】
ただし,αはここで提案したペンタフォンモデルのHMM音素尤度の重みを表し,(1−α)はトライフォンモデルのHMM音素尤度の重みを表す.トレーニングデータの量が十分に多ければ,P(Xs|λbayPenta)はより信頼性が高くなり,αは1.0に近づく.十分でなければ,αは0.0に近づき,より信頼性の高いモデルP(Xs|λtriphn)に戻る.
【0128】
発話の始め/終わりにおいては,全ての左/右コンテキストは無音で満たされる.隣接した単語の間に長い無音が存在しないと仮定しているので,前の単語の最後の音素コンテキストは,現在の単語の最初の音素コンテキストにも影響する.この再スコアリングメカニズムはこのように,単語内及び単語と単語の間の全セグメントに対して同様に振舞う(クロスワードモデル).
【0129】
前述のように計算されたスコアはその後,現在の仮説に対応したLMスコアと組合わされる.Nベストから,最も高い発声スコアを達成する仮説が新しい認識出力として選択される.
【0130】
6.実験
出願人(株式会社国際電気通信基礎技術研究所(ATR))が準備した,アクセント付の英語発声コーパスをこの実験に用いた.文の素材は,旅行で用いられる表現の基本的なドメインに基づくものである.発話データベースは,アメリカ(US)とオーストラリア(AUS)の英語アクセントからなり,各アクセントは各々,100人の話者(男性50名,女性50名)による約45,000の発話(44発声時間)からなる.このデータの90%,すなわち40,000の発話(男女各40人の話者による20,000の発話)をトレーニングデータとして用いた.評価のため,残り10%のアクセントデータ(US及びAUS)の混合物から,20人の異なる話者(男性10名,女性10名)による,200の発話をランダムに選択した.バイグラム及びトライグラム言語モデルを,約150,000の旅行に関する文によりトレーニングした.利用可能であった発音辞典は37,000の単語からなり,USの発音に基づいていた.
【0131】
16kHzのサンプリング周波数,20ミリ秒のフレーム長,10ミリ秒のフレームシフト,並びに12次のMFCC(Mel−Frequency Cepstrum Coefficients:メル周波数ケプストラム),ΔMFCC及びΔ対数パワーからなる25次元の特徴パラメータを,特徴パラメータとして用いた.全ての音素について,初期HMMとして3状態を用いた.そして,連続状態分割(Successive State Splitting:SSS)トレーニングアルゴリズムを用いて,状態結合HMnetトポロジを持つトライフォン音響モデルを得た.状態結合の数は,ここで用いられたSSSアルゴリズムが最小記述長(Minimum Describtion Length:MDL)最適化基準に基づくことから,アルゴリズムにより自動的に決定される.MDL−SSSの詳細は他の文献(非特許文献9)に記載されている.SSSトポロジトレーニングは,全てのトレーニングデータを用いて実行された.状態の総数は2,126であり,状態当りガウス混合成分が4種類,すなわち,状態当りガウス混合成分の数が5,10,15及び20個のモデルが得られた.
【0132】
従来のトライフォン音響モデル(AM)に性別及びアクセントといった付加的知識を組込むこともまた,性別及び/又はアクセント依存のAMをトレーニングすることにより,可能である.すべてのモデルに対するトポロジに対応した構造が確実に同じになるように,所定のアクセント又は性別のトレーニングデータによる,組込トレーニング手順のみが行なわれた.このため,総合して,1つの単一トライフォンAM(付加的知識無し)と,2つのアクセント依存トライフォンAM(USとAUSとの両方に対して)と,2つの性別依存トライフォンAM(男性と女性との両方に対して)と,4つのアクセント及び性別依存トライフォンAM(USの男性及び女性と,AUSの男性及び女性とに対して)とを得た.
【0133】
これら,状態当り5混合成分のベースラインモデルがどのような性能を示したかを図15のグラフにプロットした.付加的知識無しのトライフォンのベースラインは,83.60%の単語正解率を達成した.しかし,性別依存モデルのみ,性能をわずかに向上可能であった.他のモデルの性能は低下しただけであった.とりわけ,アクセント・性別依存モデルは単語正解率82.11%まで低下した.これは,他のベースラインモデルに比べトレーニングデータの量が特に少なかったことによるものであろう.
【0134】
A.HMM状態レベルで知識源を組込んだときの性能
提案に係るペンタフォンモデルを,セクション4−Bに記述したように,音素クラスコンテキスト変数でラベル付けされたすべてのアクセントデータにおいて,同じ量のトレーニングデータを用いてトレーニングした.モデルの状態トポロジ,状態の総数,及び,遷移確率は,すべてトライフォンHMMベースラインと同一である.それゆえに,これらはすべてパラメータの数という点で同様の複雑さを有する.主要な違いは,状態の確率分布において,各々のガウス分布がCLまたはCRにより明確に条件付けされているという点にのみある.これとは対照的に,HMMベースラインでの全てのガウス成分は,混合インデックスに関する「意味のある」解釈無しにEMアルゴリズムにより学習された.いくつかの音素コンテキストクラスCLまたはCRは,文法規則により存在しないか,又はトレーニングデータに現れず,その結果,トレーニング後に,状態当り平均約50のガウス分布が得られた.データ駆動型クラスタリング技術を用いてペンタフォンモデルのサイズを状態当り5,10,15及び20の混合成分に対応するよう減少させることにより,推定パラメータの信頼性の低下を避け,ガウス分布の総数が全く同じであることにより,性能をベースラインシステムと比べることが可能なようにする.
【0135】
最初に,ベースラインと同じテストデータを用い,ペンタフォンモデルBN−C,BN−CG,BN−CA又はBN−CGAがどの程度の性能であるかを評価した.平均で状態当り5つという同じ数の混合成分を持つこれら4つのモデル全ての結果を,図16にプロットした.
【0136】
これからわかるように,全てのBNのタイプを用い,様々なタイプの知識源の組込みを行なうように状態の確率分布を変えただけで,認識が向上した.しかし,性別及びアクセント変数を組込んだものでは,ここで提案したモデルの認識率はそれ以上向上しなかった.この問題も,各々のアクセント又は性別依存モデルに対するトレーニングデータに限りがあることに関係しているのであろう.それが,最高性能がBN−Cを用いた場合の単語正解率85.03%である理由である.
【0137】
我々は,これを,一致するアクセントのテストの組で評価した.このテストデータは,BN−Cを用いてもたらされる効果が何かをさらに詳しく調査するための,各アクセント(US及びAUS)からランダムに選択された200の発話である.種々の数の混合成分のモデルを用いて得られた結果をテーブル2に要約する.
【0138】
【表2】
【0139】
【表3】
これからわかるように,ここで提案したペンタフォンモデルは,同じ数のパラメータの範囲ではベースラインよりも良い性能を示す.USのペンタフォンHMM/BNの最良の性能はガウス混合分布数が10の時に得られ,これによってWER(Word Error Rate:単語誤り率)が相対的に約8%削減し,AUSのペンタフォンの最良の性能はガウス混合分布数が20の時に得られ,WERが相対的に約11%削減した.一致しないアクセントのテストの組でもこれらペンタフォンモデルの性能を評価した.例えば,US発声でトレーニングされたモデルをAUS発声のテストデータでテストし,その逆も行なった.15個の混合成分のモデルを用いて得られた結果をテーブル3に要約する.一致時と不一致時との比較を簡単にするため,テーブル3には一致するアクセントの評価から得た結果も含ませてある.一致しないアクセントに対するペンタフォンモデルでも,標準的なHMMトライフォンモデルに比べ,依然として一貫して性能が優れていることが分かる.
【0140】
B.HMM音素モデルレベルでの知識源組込み時の性能
非特許文献8では,我々は,ペンタフォンモデルを分解する数種類の方法を調査し,最良の方法がC1L3R3構成であることを見出した.ここでは,C1L3R3モデルのみを用いた追加の実験について記述する.
【0141】
全てのアクセント付のペンタフォンモデルの全成分を,同量のトレーニングデータ及び同じSSSトレーニングアルゴリズムを用いて別々にトレーニングした.状態の総数は3,360(C1:132状態,L3:1,746状態,R3:1,782状態の合計)で,状態当り4種類のガウス混合成分数,すなわち,5,10,15及び20という数のガウス混合成分のものが得られた.そして,組込みトレーニング手順を,特定のアクセント又は性別のトレーニングデータでペンタフォンC1L3R3−A,C1L3R3−G,及びC1L3R3−AGに対して実行した.
【0142】
【表4】
【0143】
【表5】
最初に,付加的知識源の組込みが複数のアクセント付のテストデータに対しどんな効果を有するかを評価した.5つの混合成分を有する,提案に係るペンタフォンC1L3R3,C1L3R3−A,C1L3R3−G,及びC1L3R3−AGに対する結果を図17に要約する.10ベストリストと,削除補間のための0.3の重みパラメータαを用いて再スコアリングが行なわれた.ここから分かるように,組込んだ知識源が多いほど,性能もよくなった.提案に係るペンタフォンC1L3R3モデルは,ベースラインに対して性能が向上し,達成された最高性能は,アクセントA,性別G,先行コンテキストCL,及び後続コンテキストCRという付加的知識を組込んだC1L3R3−AGによる,84.38%という単語正解率である.性別及びアクセントが組込まれた時には,ペンタフォンHMM/BNに対する場合と同様,性能の低下はなかったが,これは恐らく削除補間法を使用したことによるものである.
【0144】
次に,全アクセント付テストデータに対してC1L3R3−AGがどのような性能を示すのか,その詳細を,Nベスト(N=10)リストを用いて調査した.補間削除法のための重みパラメータαは同じ(0.3)であった.ここでは,非特許文献1で使用された,相対的向上度(Rel-Imp)と,再スコアリングについての相対的向上度(Rel−Resc−Imp)との両方を以下により計算した.
【0145】
【数36】
ただし,Nベストリストの上限はNベスト認識結果である.
【0146】
種々の数の混合成分のモデルによって得られた結果をテーブル4に要約する.これから分かるように,提案に係るペンタフォンモデルにより,ASRシステムの性能は一貫して向上した.最大のRel−Resc−Impは,US及びAUSアクセントの両方に対し,15の混合モデルの時に得られた(USモデルに対し37.92%及びAUSモデルに対し38.04%).
【0147】
また,提案に係るペンタフォンC1L3R3−AGモデルが,一致しないアクセントのテストの組に対してどの程度の性能を示すかについても評価した.15個の混合成分を持つモデルを用いて得た結果をテーブル5に要約する.テーブル5は,一致時と不一致時との比較を簡単にするために,一致するアクセントに対する評価からの結果をも含む.提案に係るペンタフォンC1L3R3−AGモデルが,一致しないアクセントについて標準的なトライフォンモデルよりも一貫して良い性能を示すことが分かる.
【0148】
C.種々のモデルの比較
最後に,2,202個の状態数の従来のペンタフォンHMMモデルであって,何も無いところからMDL−SSSを用いてトレーニングされたものを用い,提案に係るモデルの性能の高さが,主に広域音素コンテキストによりもたらされたものかどうかを調査するために,追加の実験を行なった.性別及びアクセントに依存するペンタフォンモデルも,特定のアクセント又は性別に関するトレーニングデータでの組込み手順を用いて取得した.これらはベイズペンタフォンの場合と同様,Nベストリストを再スコアリングすることにより実現された.
【0149】
状態当り5つの混合成分を持つ全てのモデルに対する結果を図18にプロットする.これから分かるように,提案に係るペンタフォンC1L3R3モデルによりベースラインに比べて性能が向上し,しかもこれは従来のペンタフォンHMMで単に再スコアリングするよりも優秀である.この理由は,ある量のトレーニングデータが与えられたときに,MDL−SSSアルゴリズムを用いて従来のペンタフォンモデルをトレーニングした結果得られたのが,総数2,202個の状態を持つモデルであり,これがトライフォンHMMでの状態の総数とそれほど変わらないことによるのであろう.同じガウス分布成分を共有する異なるペンタフォンコンテキストがあまりに多くあるように見えるために,コンテキストの分解能が低下した.このため,いくつかのコンテキスト依存性の少ないモデルを組合わせたものを用いてペンタフォンモデルを近似することにより,コンテキストの分解能の向上と性能の改善とを促進することができた.得られた最高性能は,BN−Cによる単語正解率85.03%であった.
【0150】
7.結論
統計的音響モデルを基本としたHMMに,付加的知識源を組込むための一般的なフレームワークを述べた.広域音素コンテキスト情報をトライフォンHMMへ組込むことにより,このフレームワークの実現を提示した.これは最初にBNを用いてHMMの状態レベルで行なわれた.付加的知識源が認識の間に隠されていても,このアプローチによれば標準デコーディングシステムを変更なく使用することができる.次に,広域音素コンテキスト音響モデリングを,より狭いコンテキストを持ついくつかの他のモデルを用いて構築することにより,HMM音素モデルレベルで組込んだ.この複合の技術によって,推定されるべきコンテキストユニットの数の削減がもたらされたため,コンテキスト依存性のより少ないモデルを推定することが必要なだけとなったので,コンテキストの分解能は著しく向上した.
【0151】
これらの広域コンテキストモデル構成を,Nベストの再スコアリングにより,処理後の段階に適用した.実験結果により,提案に係るフレームワークで作成された広域音素コンテキストモデルが,標準的なトライフォンモデルに対して単語正解率を向上させることが明らかとなった.2つ前のコンテキストCLと,2つ後のコンテキストCRという付加的知識は,HMM状態レベルでの組込みに適しており,一方,アクセントA及び性別Gという付加的知識は,HMM音素モデルレベルでの組込みに,より適していた.
【0152】
上述のように,本発明は,付加的な知識源を統一された方法で組み込むための方法及び装置に関するものである.これら方法及び装置はベイズネットワークのフレームワークを利用し,どのようなドメインからのものでも,すべての付加的知識源を簡単に統合する.このグラフによるモデルフレームワークの有利な点は,(1)情報源間の確率論的関係を学習することを可能にすること,及び,(2)同時確率密度関数を,互いにリンクされた局部的条件付確率密度関数の組に分解することを容易にすること,である.モデルが簡素化された形式であるため,このようにして,限定された量のデータを用いてモデルを構築し,信頼性高く推定することが可能である.
【0153】
このフレームワークは一般的なアプローチを代表するものである.即ち,このフレームワークは,それぞれモデルに基づく尤度関数を持つ,多くの既存の音響モデルのモデル化の問題に適用できる.
【0154】
コンピュータによる実現
上述の実施の形態は,コンピュータシステムと,当該システム上で実行されるコンピュータプログラムとによって実現可能である.図19はこれら実施の形態で用いられるコンピュータシステム650の外観を示し,図20はコンピュータシステム650のブロック図である.ここで示すコンピュータシステム650は単なる例示であって,さまざまな他の構成が利用可能である.
【0155】
図19を参照して,コンピュータシステム650は,コンピュータ660と,モニター662と,キーボード666と,マウス668と,スピーカー692と,マイクロフォン690とを含む.さらに,コンピュータ660は,DVD(Digital Versatile Disc)ドライブ670及び半導体メモリポート672を含む.
【0156】
図20を参照して,コンピュータ660はさらに,DVD670及び半導体メモリポート672に接続されたバス686と,上述した装置を実現するコンピュータプログラムを実行するためのCPU(Central Processing Unit)676と,コンピュータ660のブートアッププログラムを記憶するROM(Read−Only Memory)678と,CPU676によって使用される作業領域及びCPU676によって実行されるプログラムの記憶領域を提供するRAM(Random Access Memory)680と,音声データ,音響データ,言語モデル,及び音声認識のために必要なレキシコンを記憶するためのハードディスクドライブ674と,コンピュータ660にネットワーク652との接続を提供するためのネットワークインターフェース(I/F)696とを含み,これらは全てバス686に接続されている.
【0157】
上述の実施の形態に係るシステムを実現するソフトウェアはDVD682又は半導体メモリ684等の記憶媒体に記憶されたオブジェクトコードの形で流通し,DVDドライブ670又は半導体メモリポート672等の読出装置を介してコンピュータ660に提供され,ハードディスクドライブ674に記憶される.CPU676がプログラムを実行する際には,プログラムはハードディスクドライブ674から読出されてRAM680に記憶される.図示しないプログラムカウンタによって指定されたアドレスから命令がフェッチされ,その命令が実行される.CPU676はハードディスクドライブ674から処理すべきデータを読出し,処理の結果をこれもまたハードディスクドライブ674に記憶する.スピーカ692とマイクロフォン690とは,音声認識と音声合成とに用いられる.
【0158】
コンピュータシステム650の一般的動作は周知であるので,ここでは詳細な説明は行なわない.
【0159】
ソフトウェアの流通の方法に関して,ソフトウェアは必ずしも記憶媒体上に固定されたものでなくてもよい.例えば,ソフトウェアはネットワーク652に接続された別のコンピュータから配布されてもよい.ソフトウェアの一部がハードディスク674に記憶され,ソフトウェアの残りの部分をネットワークを介してハードディスク674に取込み,実行の際に統合する様にしてもよい.
【0160】
典型的には,現代のコンピュータはコンピュータのオペレーティングシステム(OS)によって提供される汎用の関数を利用し,所望の目的に従って制御された態様でこれら関数を実行する.従って,OS又は第3者から提供されうる汎用関数を含まず,一般的な関数の実行順序の組合せのみを指定したプログラムであっても,そのプログラムが全体として所望の目的を達成する制御構造を有する限り,そのプログラムがこの発明の範囲に包含されることは明らかである.
【0161】
今回開示された実施の形態は単に例示であって,本発明は上記した実施の形態のみに制
限されるわけではない.本発明の範囲は,発明の詳細な説明の記載を参酌した上で,特許
請求の範囲の各請求項によって示され,そこに記載された文言と均等の意味及び範囲内で
のすべての変更を含む.
【図面の簡単な説明】
【0162】
【図1】付加的知識源を音響モデルに組込む一般的手順を示す図である.
【図2】種々のBNトポロジを示す図である.
【図3】種々のBNトポロジのいくつかの例を示す図である.
【図4】BNトポロジと,対応するトライアンギュレートグラフと,トライアンギュレートグラフのうちの1つから得たジャンクションツリーとを示す図である.
【図5】図3(A)に示すBNと同じBNトポロジと,これに対応するジャンクションツリーとを示す図である.
【図6】トライフォン/a+,a,a−/をモデル化するために用いられるガウス混合分布密度での従来のHMM音響モデルを示す図である.
【図7】ペンタフォンコンテキスト/a−−,a−,a,a+,a++/をモデル化するためのBN−Cトポロジを示す図である.
【図8】BN−CG,BN−CA,及びBN−CGAのトポロジを示す図である.
【図9】BNによる観測空間モデリングの例を示す図である.
【図10】従来のトライフォンモデルと,従来のペンタフォンモデルと,ベイズペンタフォンモデル構成C1L3R3とを示す図である.
【図11】BNトポロジと,これに対応するモラル及びトライアンギュレートグラフと,これに対応するジャンクションツリーとを示す図である.
【図12】本発明のある実施の形態に係るASRシステム500の全体構造を示す図である.
【図13】仮説選択モジュール516の詳細を示すブロック図である.
【図14】本実施の形態に係るNベスト再スコアリングのメカニズムの例を示す図である.
【図15】実験で用いられたトライフォンベースラインモデルの認識単語正解率の値を示す図である.
【図16】種々のBNトポロジを用いたペンタフォンHMM/BNモデルの認識単語正解率の値を示す図である.
【図17】種々のベイズペンタフォンモデルの認識単語正解率の値を示す図である.
【図18】種々のシステムのトライフォンHMMベースライン,ペンタフォンHMMベースライン,ペンタフォンHMMベースライン,及び本発明の実施の形態に係るペンタフォンモデルの認識単語正解率の値を示す図である.
【図19】コンピュータシステム650の外観を示す図である.
【図20】コンピュータシステム650を示すブロック図である.
【符号の説明】
【0163】
70,80,90,100,110,140,240,330 ベイズネットワーク
130,150 モラル及びトライアンギュレートグラフ
160,180,450 ジャンクションツリー
190 HMM
270,290,310,400,430 BNトポロジ
164,166,170,460,464,474 クラスタの組
162,168,462,472 セパレータの組
500 ASRシステム
510 音声波形データ
512 標準的なデコーダ
514 Nベストリスト
516 仮説選択モジュール
530 C1L3R3ペンタフォンモデル
532 C1L3R3−A ペンタフォンモデル
534 C1L3R3−G ペンタフォンモデル
536 C1L3R3−AG ペンタフォンモデル
550 メモリ
552 読出及び供給モジュール
554,556,558,560,526 シフトメモリ
570 右コンテキスト計算装置
572 中央コンテキスト計算装置
574 左コンテキスト計算装置
576 確率密度関数計算装置
578 再スコアリングモジュール
580 ソート及び選択モジュール
【技術分野】
【0001】
本発明は音声認識における確率計算に関し,特に,1以上の知識源を組込んだ音声認識における確率計算に関する.
【背景技術】
【0002】
情報技術は成長を続けており,日常生活の多くの局面においてますます大きな影響力を持つようになってきている.人間と,対話型システムのような情報処理装置との間の音声を介したコミュニケーションの様態もまた,ますます重要になっている.音声指向型インターフェースを実現するための基本的技術の1つとして,自動音声認識(Automatic Speech Recognition:ASR)がある.過去40年近く,多くの研究者がASRの領域の研究を行なってきた.その目標は,人間が発話した自然の話し言葉を,自動的に認識することが可能な知的な情報処理装置の開発である.しかし,複雑な音響信号から,その背後に存在する言語的なメッセージを抽出するのは,信号に含まれる変動について多くの源が存在するため,容易な処理ではない.
【0003】
いくつかのアプローチがこの問題に対処するために開発されている.これらのASRへのアプローチは,一般的に“知識ベース”と“コーパスベース”との2つのタイプに分類される.
【0004】
前者は主に,音声信号のスペクトログラム又はその他の視覚的表現を解釈する人間の能力に基づいており,知識ベースの規則を用いる.しかし,これらの規則が互いに依存する全ての場合を予見するのは難しいため,ある規則が,同じ現象を説明する上で他の規則と全く矛盾するなどして,他の規則と必然的に競合してしまう.
【0005】
これとは対照的に,後者のアプローチは通常,データから知識を自動的に抽出可能な,明確に定義された統計的アルゴリズムを用いた,音声信号のモデル化を基本にしている.このモデル化のアプローチは有望な結果を与えており,前者の知識ベースによるアプローチよりも良い性能を示している.これが,現在のASRシステムの多くが,隠れマルコフモデル(Hidden Markov Models:HMM)に基づく統計的データ駆動型の方法を用いる理由である.最先端のASRシステムは,制御された条件においては非常に高い性能に到達している.
【0006】
この領域の著しい進歩にもかかわらず,ASRシステムが毎日の生活で幅広く利用され,潜在能力を完全に発揮するまでには,克服すべき多くの課題が未だ存在する.例えば,予期できない音響の変化が存在すると,ASRシステムは人間の聴者よりもはるかに劣る性能しか示さない.単に,統計的モデルに頼るだけで,利用可能な付加的知識をほとんど無視するのでは,限定されたレベルの成功にしか到達できない.多くの研究者はこの問題に気付いており,知識ベース及び統計的なアプローチをさらに明確に統合するための様々な試みを行なってきた.
【0007】
今までのところ,非特許文献1は,再スコアリングを目的として,ニューラルネットワークを用いて,音響音素知識源の組込みを可能にする研究を提案している.非特許文献2及び3に開示の大語彙連続音声認識(Large−Vocabulary Speech Recognition:LVCSR)システムもまた,クインフォン/ペンタフォンといった長い期間の同時調音効果の組込みにより,音響モデルの改善をもたらすことに成功した.何人かの研究者は,最近になり,ベイズネットワーク(Bayesian Networks:BN)のようなグラフ的なツールの利用を試みている.BNはHMMを普遍化したものと考えることもでき,音声のスペクトル情報に加えて,調音素性,サブバンドの相関関係,又は話し方のスタイル等の付加的知識を簡単に組込むことができる(非特許文献4).
【特許文献1】特開2007−052166公報
【非特許文献1】J.リ,Y.ツァオ,及びC.−H.リー,「自動音声認識における候補の再スコアリングのための知識源統合」,ICASSP予稿集,フィラデルフィア,米国,2005,837−840ページ(J.Li,Y.Tsao,and C.−H.Lee,“A study on knowledge source integration for candidate rescoring in automatic speech recognition,”in Proc.ICASSP,Philadelphia,USA,2005,pp.837−840.)
【非特許文献2】C.ネッティ,G.ポタミアノス,J.ルッティン,I.マシューズ,H.グロティン,D.ヴェルギリ,J.シソン,A.マシャリ及びJ.シュー,「聴覚−視覚的音声認識」,技術報告,CSLP ジョンホプキンス大学,ボルチモア,米国,2000年(C.Neti,G.Potamianos,J.Luettin,I.Mattews,H.Glotin,D.Vergyri,J.Sison,A.Mashari,and J.Zhou,“Audio−visual speech recognition,”Tech.Rep.,CSLP John Hopkins University,Baltimore,USA,2000.)
【非特許文献3】A.ローリエ,D.ヒンドル,M.ライリー及びR.スプロート,「AT&T LVCSR−2000システム」,音声トランスクリプションワークショップ,メリーランド大学,米国,2000年(A.Ljolje,D.Hindle,M.Riley,and R.Sproat,“The AT&T LVCSR−2000 system,”in Speech Transcription Workshop,University of Maryland,USA,2000.)
【非特許文献4】K.ダウディ,D.フォア及びC.アントアーヌ,「確率論的グラフモデルに基づくマルチバンド音声認識の新たな試み」,ICSLP予稿集,北京,中国,329−332ページ,2000年(K.Daoudi,D.Fohr,and C.Antoine,“A new approach for multi−band speech recognition based on probabilistic graphical models,”in Proc.ICSLP, Beijing, China,pp.329−332,2000.)
【非特許文献5】K.マルコフ及びS.ナカムラ,「ハイブリッドHMM/BN音響モデルの前方向−後方向トレーニング」,ICLSP予稿集,621−624ページ,2006年(K.Markov and S.Nakamura,“Forward−backwards training of hybrid HMM/BN acoustic models,”in Proc.ICSLP,pp.621−624,2006.)
【非特許文献6】J.J.オデル,「大語彙音声認識でのコンテキストの使用」,博士論文,ケンブリッジ大学,ケンブリッジ,英国,1995(J.J.Odell,The Use of Context in Large Vocabulary Speech Recognition,Ph.D.thesis,Cambridge University,Cambridge,UK,1995.)
【非特許文献7】Ji.ミン,P.O.ボイル,M.オーウェンス,及びF.J.スミス,「連続音声認識のためのトライフォンモデル構築のためのベイズアプローチ」,IEEE音声及び音響処理トランザクション,第7巻,第6号,678−684ページ,1999年11月(Ji.Ming,P.O.Boyle,M.Owens,and F.J.Smith,“A Bayesian approach for building triphone models for continuous speech recognition,"IEEE Trans.Speech and Audio Processing,vol.7,no 6,pp.678−684,November 1999.)
【非特許文献8】S.サクティ,S.ナカムラ,及びK.マルコフ,「ベイズフレームワークに基づく広域音素コンテキストの組込みによる音響モデル精度の向上」,IEICE情報&システムトランザクション,E89−D巻,第3号,946−953ページ,2006年(S.Sakti,S.Nakamura,and K.Markov,“Improving acoustic model precision by incorporating a wide phonetic context based on a Bayesian framework”IEICE Trans.Inf.& Stst.,vol.E89−D,no.3,pp.946−953,2006)
【非特許文献9】T.ジツヒロ,T.マツイ,及びS.ナカムラ,「MDL基準に基づく非均一HMMトポロジの自動生成」,IEICE情報&システムトランザクション,E87−D巻,第8号,2121−2129ページ,2004年(T.Jitsuhiro,T.Matsui,and S.Nakamura,“Automatic generation of non−uniform HMM topologies based on the MDL criterion,”IEICE Trans.Inf.& Syst.,vol E87−D,no.8,pp.2121−2129,2004)
【発明の開示】
【発明が解決しようとする課題】
【0008】
しかし,そのような複雑なモデル等を開発して最善の性能を達成することが可能ではない場合がしばしばであった.モデルのパラメータを適切にトレーニングするには資源が不十分なとき,すなわちトレーニングデータの量,及び利用可能なメモリ領域のような資源が不十分な時に,特にそうしたことが起こる.その結果,頑健でない推定と,未知のパターンの数の増加とにより,入力空間の分解能が失われる.さらに,大きなモデルを用いたデコードもまた煩雑となり,時には不可能にさえなる.ここでできる最良の方法は,利用可能なトレーニングデータを用いて信頼性高く推定できる,簡単な形式のモデルを選択することである.
【0009】
それゆえに,本発明の目的の1つは,利用可能なトレーニングデータを用いて,音声信号の音素の確率を頑健に計算することが可能な確率計算装置を提供することである.
【0010】
本発明の別の目的は,データが疎になる可能性があるトレーニングデータを用いて音声信号の音素の確率を,頑健でかつ高い信頼性で計算することが可能な確率計算装置を提供することである.
【課題を解決するための手段】
【0011】
本発明の第1の局面は,音声信号の所与のセグメント中に存在する,予め定義された組の音素の各々について,音声信号のための統計的音響モデル及び1以上の知識源を用いて,確率を計算するための確率計算装置に関する.セグメントは,音声信号の複数のフレームを含む.音響モデル及び1以上の知識源はベイズネットワークにより示される因果関係を有する.ベイズネットワークは,複数のクラスタノード及び1以上のセパレータノードを含むジャンクションツリーに対応する.この装置は,クラスタノード及び1以上のセパレータノードに対応する,複数の局部的音響モデルを記憶するための手段と,フレームの各々に対して予め定義された観測データを計算するための手段と,複数の局部的音響モデルを利用して,音素の各々の,観測データを発生する局部的確率を計算するための局部的確率計算手段と,音素の各々の,観測データを発生する確率を,局部的確率計算手段により計算された局部的確率の所定の関数として計算するための確率計算手段とを含む.
【0012】
局部的な音素の各々の,観測データを発生する確率は,局部的確率の予め定義された関数により計算される.各音素に対する局部的確率は複数の局部的音響モデルを利用して計算される.局部的モデルは1以上の知識源を組込んだモデルよりも小さいため,計算量はより少なくなり,モデルのトレーニングに必要なトレーニングデータの量もより少なくなり,そして,確率計算はより頑健で信頼性が高くなる.
【0013】
好ましくは,所定の関数は
【0014】
【数1】
で定義され,Dは観測データであり,Mは音響モデルであり,Nは正の整数であり,Kiは1以上の知識源であり,ただし,P(D|Ki,M)(i=1〜N)及びP(D|M)は局部的確率計算手段により計算された局部的確率である.
【0015】
さらに好ましくは,モデルMはモノフォン音響モデルであり,1以上の知識源は先行するトライフォンコンテキストユニット及び後続するトライフォンコンテキストユニットを含む.
【0016】
さらに好ましくは,モデルMは追加の知識源を用いてトレーニングされたモノフォン音響モデルであり,1以上の知識源は先行するトライフォンコンテキストユニット及び後続するトライフォンコンテキストユニットを含む.
【0017】
追加の知識源はアクセント知識,又は性別に関する知識,又はアクセント知識及び性別に関する知識の両方を含む.
【0018】
本発明の第2の局面は,コンピュータ上で実行されると,当該コンピュータに,音声信号の所与のセグメント中に存在する,予め定義された組の音素の各々について,音声信号のための統計的音響モデル及び1以上の知識源を用いて,確率を計算するための確率計算装置として機能させるコンピュータプログラムに関する.セグメントは,音声信号の複数のフレームを含む.音響モデル及び1以上の知識源はベイズネットワークにより示される因果関係を有する.ベイズネットワークは,複数のクラスタノード及び1以上のセパレータノードを含むジャンクションツリーに対応する.このコンピュータプログラムは,コンピュータを,クラスタノード及び1以上のセパレータノードに対応する,複数の局部的音響モデルを記憶するための手段と,フレームの各々に対して予め定義された観測データを計算するための手段と,複数の局部的音響モデルを利用して,音素の各々の,観測データを発生する局部的確率を計算するための局部的確率計算手段と,音素の各々の,観測データを発生する確率を,局部的確率計算手段により計算された局部的確率の所定の関数として計算するための確率計算手段として機能させる.
【発明を実施するための最良の形態】
【0019】
1.序論
ここでは,本願が提案するフレームワークを,データのスパースネス及びメモリの制約という困難をしばしば伴う,広域音素知識情報に組込むという問題に適用することについて論ずる.はじめに,どのように付加的知識源がHMM状態の分布に組込まれるかを示す.次に,どのように付加的知識源がHMM音素モデリングに組込まれるかを示す.何れのアプローチも2種類のアクセントを含む英語音声データを用いた大語彙連続音声認識実験により実験的に実証されている.
【0020】
はじめに,付加的知識源の組込みに対する一般的フレームワークについて次のセクションに記述する.次に,従来のHMM音響モデルについての概略をセクション3に記述する.セクション4及び5では,HMM状態及び音素モデルレベルで付加的知識源を組込むにあたり,どのように本フレームワークが用いられるかを示す.ここには広域音素コンテキスト情報の組込みの問題への適用法も含まれる.実験の詳細を,結果及び議論を含めてセクション6に示す.最後に,結論がセクション7に記述される.
【0021】
2.知識源を組込むための一般的フレームワーク
統計的コーパスベースのアプローチにおいては,ある観測データDが与えられることにより,モデルMをトレーニングする.興味の対象となる重要な問題の1つは,そのモデルについて特定の知識が与えられることにより期待することができるデータを予測する,尤度P(D|M)を計算することである.
【0022】
確率密度関数P(D|M)は,単純な場合は条件付確率テーブル(Conditional Probability Tables:CPT)(Dが離散的な場合),又はガウス分布のような連続的関数(Dが連続の場合)によりモデル化することができる.この場合,所与のデータd及びモデルパラメータmに対する出力確率は,以下のように簡略に計算される.
【0023】
【数2】
その後,付加的知識源をこのモデルに組込む必要があると仮定する.ここでは,どのようにして付加的知識源が組込まれるかを考慮することが必要である.この考慮の手順はいくつかのステップを含み,その概略を図1に示す.
【0024】
図1を参照して,この手順は,情報源,モデル及びデータの間の因果関係を,BNを用いて定義するステップ(ステップ50)と,直接にBN推論をすることが可能か否かを判定するステップ(ステップ52)と,直接にBN推論が可能と判定されたときに,直接にBN推論を実行するステップ(ステップ54)と,直接にBN推論することが不可能と判定されたときに,後述するジャンクションツリーアルゴリズムを用いて,関係に関するネットワークをリンクされたクラスタの組に分解するステップ(ステップ56)と,ステップ56において得られたジャンクションツリー上で推論を行なうステップ58とを含む.
【0025】
以下に,その手順のさらなる詳細を記述する.
【0026】
A.情報源間の因果関係の定義
DとMの間の因果関係がBNを用いて説明されるような,単純な場合からはじめる.BNの1つの例は,図2(A)にその概略を示す,ノード72及びノード74を含むBN70である.ここで,ノードM72は正方形のノードで示される離散変数であり,ノードD74は楕円のノードにより示される連続変数である.
【0027】
BNの同時確率関数は以下のように因数分解される.
【0028】
【数3】
ただし,Pa(Zk)はBN変数Zkの親を示す.このことから,図2(A)より以下の式を得る.
【0029】
【数4】
このため,データに関する知識に基づき,D,M及びKの間の条件に関する依存性を単純に定義し,付加的な知識KをP(D,M)に組込み,同時確率モデルを同様の方法により表す.例えば,D,M及びKの間の条件に関する依存性を,図2(B)に概略を示すBNにより表すことができる.図2(B)では,BN80はノード72及び74と,付加的ノードK76とを含む.ここでBN同時確率関数は以下のようになる.
【0030】
【数5】
さらに詳細な例を考える.ここまで,K1,K2,…,KN知識源があると仮定していた.ここでは,これらすべてが条件に関する依存性が無いと仮定している.図3に,D,M及びK1,K2,…,KNの間の条件に関する依存性の構造の2つの例の概要を示す.
【0031】
図3(A)を参照して,ネットワーク90はノード72及び74と,さらにノード92,94,…,96(ノードK1〜KN)とを含む.ノードK1〜KNは親ノード72及び子ノード74を持つ.図3(B)に示すネットワーク100は,ノード72及び74と,ノード92,…,及び96(ノードK1〜KN)とを含む.ノードK1〜KNのうちノード92及び96は子ノード74のみを持つが,他のノードは親ノード72及び子ノード74を持つ.
【0032】
このため,図3(A)に示されるBNに対する同時確率密度関数は,式(2)により以下の様になる.
【0033】
【数6】
もし,図3(B)(K1及びKNを参照)に示すように,Mからの因果関係の影響を何ら受けないあるKiがある場合,同時確率密度関数は以下の式で示されるようになる.
【0034】
【数7】
ここで分かるように,条件に関する独立性の仮定が異なると,確率関数の分解の仕方も異なってくる(式(5)及び(6)を参照).
【0035】
B.ベイズネットワークにおける直接推論
推論における最重要関心事は,大域での条件付確率P(D|K1,…,KN,M)を計算することである.この確率密度関数がとる形式が,直接的なBN推論を許容する場合,以下の2つのケースが考えられる.
【0036】
1)全ての変数が観測可能である.
【0037】
このケースでは,確率密度関数は単純に式(1)で計算される.
【0038】
【数8】
2)付加的な知識源K1,…,KNのような,いくつかの変数が観測できないか,または隠されている.
【0039】
このケースでは,確率密度関数は式(5)と,すべてのKiに対しすべての可能なKi:ki1,ki2,…,kiMに関するマージナライゼーションにより計算される.
【0040】
【数9】
ただし単純化のために,<D=d>,<M=m>,及び<Ki=kij>の変わりに,d,m,及びkijを用いている.
【0041】
しかし,全体的な条件付確率P(D|K1,…,KN,M)の計算は,変数が多すぎること,及び/または,計算上の複雑さにより,簡単ではないことがある.このような場合,有向グラフを変数のクラスタに分解し,これらに対し適切な計算を実行できるようにすることが必要である.この処理は,次のサブセクションで述べるジャンクションツリーアルゴリズムにより行なえる.
【0042】
C.ジャンクションツリー分解
K1及びK2の2つの付加的知識源の組込みのみの単純なケースを考えてみる.D,M,K1及びK2の間の因果関係を,図4(A)に示すBN110により示す.BN110はM,D,K1及びK2によりそれぞれ示す,ノード112,114,116及び118を含む.ここで,ノードM,K1及びK2は正方形のノードで示される離散変数であり,ノードDは楕円のノードで示される連続変数である.
【0043】
そして,ジャンクションツリーを得るために,以下のようなグラフ変換が実行される.
【0044】
1)親を結合させ(共通の子を持つ全ての変数のペアの間にリンクを追加し),リンクの向きをなくすことにより,BN110から無向グラフを組立てる.図4(A)の場合,ノード116及び118の間にリンクが付与される.その結果得られるグラフは「モラルグラフ」と呼ばれる.
【0045】
2)三角形からなるグラフ(トライアンギュレートグラフ)を形成するため,選択的にモラルグラフにアーク(弧)を付加する.もし“コードレスサイクル”が存在しなければ,グラフはトライアンギュレートである,という.コード(弦)とは,長さが3より大きいサイクル内の,2つの連続しない頂点を接続するエッジである.
【0046】
3)トライアンギュレートグラフにおいて,Pa(A)≠0であるすべての変数Aに対して,Pa(A)∪Aを含むサブセットを形成する.これはクラスタまたはクリークとよばれる.
【0047】
4)クラスタ/クリークをノードとしてジャンクションツリーを構築する.この場合,二つのクリークの間のリンクの各々は,これらクリークの間の空ではない共通集合のセパレータを用いてラベル付けされる.
【0048】
図4(B)は,図4(A)に示すBN110に相当する,モラル及びトライアンギュレートグラフ130の概要を示す.グラフ130はノード116及び118の間に追加のリンク120を含む.しかし,このトライアンギュレートグラフからはD,M,K1及びK2の変数の全体の集合からなる1つのクラスタ/クリークしか得ることができず,これ以上分解できない.幸運にも,K1及びK2は独立であると仮定されるため,いくつかの矢を逆向きにすることにより,BN110と等価の図4(C)に示すBN140を得ることができる.これが可能なのは,P(X,Y)がP(X|Y)P(Y)とP(Y|X)P(X)とに分解できること,及びこの2つが互いに等価であるためである.
【0049】
図4(D)はBN140に対応するモラル及びトライアンギュレートグラフ150の概要を示す.これによりクラスタ/クリークを同定することができ,さらに図4(E)にその概要を示すジャンクションツリーを得ることができる.ここではクラスタの組は楕円のノード164及び166により表され,セパレータの組は正方形のノード162により表されている.
【0050】
以上から,BN同時確率分布は,全てのクラスタのポテンシャル(確率)の積を,セパレータのポテンシャルの積で除算することにより以下のように定義される.
【0051】
【数10】
ただし,Uはグラフにおける全ての変数を示す「世界」を,φCiはクラスタポテンシャル(クラスタCiにおける確率)を,φSiはセパレータポテンシャル(セパレータSiにおける確率)を示す.このため,同時確率関数,P(D,K1,K2,M)は図4(E)によれば以下のようになる.
【0052】
【数11】
ただし,P(D,K1,M)とP(D,K2,M)とはクラスタポテンシャルであり,P(D,M)はセパレータポテンシャルである.
【0053】
同様の仮定及び考慮に基づいて,図3(A)に示すBN90と同様のBNトポロジは図5(A)のように書くことができる.図5(B)にこれに対応するジャンクションツリーを示す.図5(B)では,変数{(D,K1,M),(D,K2,M),…(D,KN,M)}のN個のクラスタ164,166,…170と,N−1個のセパレータ{D,M}(ノード162,168等)が存在する.このため式(5)により求められる同時確率関数は以下の式により分解することができる.
【0054】
【数12】
これは,同時確率関数P(D,K1,…,KN,M)を,ある付加的な知識K1,K2,…,KNが与えられた場合の観測データDの確率に対応するいくつかの局部的な同時確率関数P(D,K1,M),…,P(D,KN,M)を合成したものとして表す新しい表記方法を示す.
【0055】
D.ジャンクションツリー推論
チェーンルールを用いることにより,全てのP(D,Ki,M)に対し以下の式を得る.
【0056】
【数13】
このため,式(11)は以下のようになる.
【0057】
【数14】
この式(11)を式(5)と比較すると,
【0058】
【数15】
であることが分かり,これは,P(D|K1,…,KN,M)が,特定の付加的な知識K1,K2,…,KNが与えられた場合の観測データDの確率に対応する別々の項に分解可能であることを示す.
【0059】
いくつかの単純なP(D|Ki,M)を定義したり,推定したり,観測したりすることは,1つではあるが複雑なP(D|K1,…,KN,M)と比べて非常に簡単となる.
【0060】
このため,データd,モデルパラメータm,及び付加的な知識源k1j,…,kNjが与えられた場合に対する推論における出力確率は,以下のように計算される.
【0061】
【数16】
3.従来のHMM音響モデル
従来のHMMに関連して,いくつかの表記を定義する.トライフォンコンテキスト/a−,a,a+/のHMM音声モデルをλ,HMM状態変数をQと表記する.Xは観測変数であり,Xs=Xt,…,Xt+mは長さmの観測データセグメントである.図6に,標準的なHMM190の構造の概要を示す.ここでは,
1)短時間スペクトル特性はガウス分布210,212,及び214の混合によりモデル化される.
【0062】
2)時間的な音声特徴は状態200,202及び204の間でのHMM状態遷移216,218,220,222及び224により支配される.
【0063】
HMM状態出力確率p(xt|qi)は,通常,状態確率密度関数(Probability Density Function:PDF)P(X|Q)から以下の式により計算される.
【0064】
【数17】
ただし,bmは状態qiのm番目の混合分布の混合重みであり,N(・)は平均ベクトルμmと共分散行列Σmとを持つガウス関数である.HMMセグメントの尤度P(Xs|λ)は,観測結果と状態シーケンスとの同時確率を,全ての状態シーケンスに対してとることにより(合計尤度),又は最も確からしい状態シーケンスのみに対してとることにより(Viterbi Path),計算される.
【0065】
4.HMM状態レベルでの知識源の組込み
A.一般的検討
モデルMは所定のトライフォンHMM状態Qであり,Dはセクション2に述べた理論的フレームワークに従う観測変数Xである.
【0066】
1)因果関係の定義
このトポロジの構造は図2(A)に示すものと同様であり,トライフォンHMM状態PDFは,ここでは式(3)と同様のBN同時確率関数により示される.
【0067】
【数18】
単純に式(5)に従えば,以下のようになる.
【0068】
【数19】
これにより,追加の知識源K1,K2,…,KNをHMM状態分類P(X,Q)に組込む(すべてのK1,K2,…,KNが独立した所定のQであると仮定されている.).
【0069】
2)推論
主たる関心事はHMM状態出力確率P(X|K1,…,KN,Q)の計算であるが,これはガウス関数により簡単にモデル化することが可能である.このために,状態出力を直接得ることができる.全ての追加の知識源K1,…,KNがセクション2−Bに示されたように隠されていると仮定すると,状態出力確率は,すべての1≦i≦Nに対して,すべての可能なKi:ki1,ki2,…,kiMをマージナライゼーションすることにより,式(8)と同様に得られる.
【0070】
【数20】
ここで,p(ki1|qt)…p(kNj|qt)の項を,ガウス成分p(xt|ki1,…,kNj,qt)の混合重み係数として扱えば,式(19)もまた,式(16)の従来のHMMの状態出力確率と等価であることが分かる.式(19)はガウス混合分布を表すので,HMMを基にした既存のデコーダを,何らかの修正をする必要なく用いて認識を行なうことができる.さらに,BNは状態出力の尤度を推論するために使用されるのみであるので,HMMを基にしたトライフォン音響モデルのトポロジをそのまま維持し,HMM状態遷移が依然として時間的な音声特性により支配されるようにできる.このアプローチはまた,ハイブリッドHMM/BNモデル化フレームワークとして知られ,非特許文献5に記載されている.以後,状態レベルで付加的知識を組込んで得られるモデルを,HMM/BNモデルと呼ぶ.
【0071】
このモデルのパラメータ学習は,非特許文献5に記載のHMM/BNモデルの通常のトレーニングから採用できる.これはバックワード・フォワードアルゴリズムを基にしている.このアルゴリズムでは,各トレーニングの繰返しは,BNのトレーニングと,HMM遷移確率の更新とからなる.BNのトレーニングは標準的な統計的方法を用いてなされる.トレーニングの間に全ての変数が観測可能であれば最大尤度(ML)パラメータ推定が適用され,いくつかの変数が隠れている場合,パラメータは標準的なエクスペクテーション・マキシマイゼーション(EM)アルゴリズムにより推定される.
【0072】
B.広域音素コンテキスト情報の組込み
ASRシステムにおいて最も広く用いられる音響ユニットは,現在のところ,依然として,直近の先行する音素コンテキスト及び後続する音素コンテキストを含むトライフォンである.トライフォンは効果的な選択であることが確認されてきたが,より長い期間にわたる同時調音効果を捉えるためには,広域音素コンテキストの方がより適切と考えられている.しかし,広域音素コンテキストには,データのスパースネス及びメモリの制約という問題がある.
【0073】
ここで,前のセクションに記載したフレームワークを,広域音素知識情報を組込むという問題にどのように適用するかを説明する.
【0074】
従来の,トライフォンコンテキスト/a−,a,a+/であるHMM,λを,/a−−,a−,a,a+,a++/のようなペンタフォンコンテキストに拡張する必要があるものとする.このため,このアプローチに基づき,BNに2つの変数を挿入することにより,二つ前及び後のコンテキスト,CL(/a−−)及びCR(/a++/)をトライフォン状態PDFに組込む.
【0075】
トライフォンHMM状態Qと,観測データX,及び2つの付加的変数CL及びCR間の条件に関する依存性は,図7に概要を示すBNトポロジにより説明される.これをBN−Cトポロジと呼ぶ.
【0076】
図7を参照して,ベイズネットワーク240は,ノード250,252,254及び256を含み,これらはQ,X,CL,及びCRにより,それぞれ示される.ノードCLは2つ前のコンテキスト(/a−−)を,ノードCRは2つ後のコンテキスト(/a++/)を表す.
【0077】
HMM状態PDFは,現在のところ,BN同時確率により示される.これは式(18)によると,以下のように分解される.
【0078】
【数21】
ただし,Xは2つ前のコンテキストCL及び2つ後のコンテキストCRの両方に依存する.Xは連続の変数であり,CL,CR及びQは離散的変数であるので,P(X|CL,CR,Q)はガウス関数でモデル化され,各々のP(CL|Q)又はP(CR|Q)はCPTにより表される.
【0079】
状態出力確率はP(X|CL,CR,Q)により得ることができる.付加的なコンテキスト変数CL及びCRが,式(19)のように認識時には得ることができない(隠されている)と仮定すると,
【0080】
【数22】
となり,p(cl|qi)p(cr|qi)の項を,ガウス成分の混合重み係数p(xt|cl,cr,qi)として扱えば,式(19)は式(16)の従来のHMMの状態出力確率と等価である.したがって,ここで,ガウスPDFはcl,cr及びqiの全ての組合せに対しトレーニングされる.
【0081】
さらにこのペンタフォンBNを,このフレームワークを使い,性別に関する情報又はアクセント情報等の他の追加の変数で拡張することもできる.図8はトライフォンHMM状態Qと,観測データXと,2つの付加的変数CL及びCRと,性別に関する変数G及び/又はアクセント変数Aとの間の条件に関する依存性の構造の例をいくつか示す.
【0082】
BNトポロジは,ノード272により示される,性別に関する付加的変数Gを用いて,BN−Cを拡張することで,図8(A)の参照番号270により示されるものになる.これをBN−CGと呼ぶ.ノード292により示される追加のアクセント変数Aを用いてBN−Cを拡張する場合は,BNトポロジは図8(B)の参照番号290が示すものになり,これをBN−CAと呼ぶ.図8(C)のBNトポロジ310は,ノード292及び272によりそれぞれ示される,アクセント及び性別に関する変数の両方を用いて拡張されたものであり,BN−CGAと呼ぶ.
【0083】
BN−CGAの例(図8(C)参照)に対するHMM状態PDFは以下のように表される.
【0084】
【数23】
ただし,Xは,アクセントA,性別G,2つ前のコンテキストCL,及び2つ後のコンテキストCRに依存する.この状態出力確率はまた,式(21)と同様の方法によりP(X|CL,CR,Q,A,G)から得ることができる.
【0085】
【数24】
ここで,p(a)p(g)p(cl|qi)p(cr|qi)の項を,ガウス成分の混合重み係数p(x|cl,cr,qi,a,g)として扱えば,各ガウスPDFはcl,cr,qi,a,及びgの各組合せに対しトレーニングされる.
【0086】
両方の表記(式(21)及び(23))は,標準トライフォンHMM音響モデルにおいて用いられるガウス分布の混合を示す.このため,既存のHMMを基にしたデコーダを,何らかの修正を行なうことなく用いて認識を行なうことができる.提供モデルのパラメータ学習は前のセクションにおいて述べたようにして実行される.トライフォン状態Q,アクセントA,性別G,2つ前のコンテキスト(CL),2つ後のコンテキスト(CR),及び変数Xを含む全ての変数が,トレーニングで観測可能であるから,MLパラメータ推定が利用される.
【0087】
全てのモデルパラメータを信頼性高く推定するにはトレーニングデータの量が不十分な場合,クラスタリング技術,例えば,知識ベースの,又は,データ駆動型のクラスタリングにより,パラメータの数を削減できる.例えば,2つ前/後の音素コンテキストCL/CRの各値cl/crに対し,式(21)及び(23)により,対応するガウス成分が存在する.
【0088】
図9はCRのみが追加されたBN330に対する,観測空間344の概要を示す.図9のCRはノード342により示され,2つ後のコンテキストの種々の値/b/,/p/,…,/z/を有する.この変数の種々の値は種々のガウス分布350,352,…,354にそれぞれ対応する.44音素の組(無音を含む)を英語ASRに用いるとすれば,2つ前/後の音素コンテキストCは,44個の値(C=c1,c2,…,c44)を有する可能性があるということになる.このため,BN−Cトポロジ(図7参照)の各状態に対するガウス分布の総数は,442=1936となり得る.BN−CG,BN−CA及びBN−CGAのトポロジはさらにもっと多くなる.このように増加したモデルパラメータを信頼性高く推定するにはトレーニングデータの量が不十分な場合,全体の性能は顕著に低下するであろう.このため,ガウス分布の数を減らすことが好ましい.ガウス分布の数を減らすために利用できる方法が2つある.一方は知識ベースの音素クラスを用いることである.他方はデータ駆動のクラスタリングである.これらの方法は,どのようなベイズネットワークにも適用可能である.
【0089】
ここでは,音素コンテキストを,調音の態様における主な相違に基づき分類し,パラメータのサイズを削減する.テーブル1に,非特許文献6から流用した知識ベースの音素クラスの例を挙げる.
【0090】
【表1】
HMM/BNアプローチに基づくペンタフォンの可能性についての,さらなる詳細及び議論は特許文献1に示されている.
【0091】
5.音素モデルレベルでの知識源の組込み
A.一般的検討
セクション2に記述の理論的フレームワークに従い,再びモデルMをHMM音素モデルλ,DをセグメントXsとする.
【0092】
1)因果関係の定義
トポロジの構造は図2(A)に示されるものと同様であり,HMM音素ユニットの確率関数は今回は式(3)と同様のBN同時確率関数により示される.
【0093】
【数25】
追加の知識源K1,K2,…,KNをHMM音素モデルP(Xs,λ)に組込むためには(所与のλに対し,全てのK1,K2,…,KNが独立と仮定する.),簡易に式(5)に従い,次の式を得る.
【0094】
【数26】
2)推論
ここでの最大の関心事は,与えられた入力セグメントXsに対するP(Xs|K1,…,Kn,λ)を計算することである.しかし,条件付PDFに対する単純な形式の関数を得るのは困難である.なぜなら,この式には,持続時間が変化するHMMモデルλ,及びセグメントXsが関係しているからである.このためここで,セクション2−Cで述べたジャンクションツリーアルゴリズムにより,P(Xs|K1,…,KN,λ)を分解する必要がある.これは式(14)に従い以下のように分解される.
【0095】
【数27】
この式は,いくつかの,より複雑さの少ない依存関係,すなわち,特定の追加の知識K1,K2,…,KNが与えられた場合のセグメント観測データXsの尤度に対応するP(Xs|K1,λ),…,P(Xs|KN,λ)によって,音素のHMM尤度P(Xs|K1,K2,…,KN,λ)を表す新しい方法である.
【0096】
B.広域音素コンテキスト情報の組込み
前のセクションで述べたアプローチを,広域音素の知識情報の組込みの場合と同じ課題に対して適用してみる.広域音素知識情報の組込みにおいては,トライフォンコンテキスト/a−,a,a+/を,ペンタフォンコンテクスト/a−−,a−,a,a+,a++/に拡張する.構造上,従来のHMMのトライフォンコンテキストユニットモデルは,図10(A)に示すモデル370として説明され,ペンタフォンコンテキストユニットモデルは,図10(B)に示すモデル372として説明される.
【0097】
2つ前のコンテキストCL/a−−/と2つ後のコンテキスト/a++/とを,確率関数P(Xs|λ)に追加する.Xs,λ,CL及びCRの条件に関する依存性は,図4(A)に示すものと類似のBNにより記述される.分解で最終的に得られるジャンクションツリーもまた,図4(E)に示すものと同様である.図4(E)におけるMがここでのHMM音素モデルλであり,DがセグメントXsである.このことから,条件付確率関数は,式(26)によれば以下のように定義される.
【0098】
【数28】
λが,トライフォン/a−,a,a+/,2つ前のコンテキストCL/a−−/,及び,2つ後のコンテキストCR/a++/と関連付けられていることから,以下のように書ける.
【0099】
【数29】
この式(28)は以下のようになる.
【0100】
【数30】
これはペンタフォンモデルが,p(Xs|[a−−,a−,a,a+]),p(Xs|[a−,a,a+,a++]),及びp(Xs|[a−,a,a+])により構成できることを示す.これら構成要素は,左/先行テトラフォンコンテキスト,右/後続テトラフォンコンテキスト,及び中央トライフォンコンテキストというユニットが与えられた場合の,セグメントXsの尤度に対応する.
【0101】
しかし,[a−−,a−,a,a+],[a−,a,a+,a++]に対するテトラフォンモデルを作成することもまた,データが疎にしか存在しないことにより困難である.
【0102】
これに代えて,式(28)を用い,λがモノフォン/a/を示すように,並びに2つ前と後のコンテキストCL及びCRとが/a−−,a−/及び/a+,a++/をそれぞれ表すようにする.この結果,以下の式を得る.
【0103】
【数31】
この式は,ペンタフォンコンテキスト/a−−,a−,a,a+,a++/が,p(Xs|[a−−,a−,a,]),p(Xs|[a,a+,a++]),及びp(Xs|[a])により構成されることを示し,これら構成要素は,左/先行テトラフォンコンテキスト(L3),右/先行テトラフォンコンテキスト(R3),及び中央トライフォンコンテキスト(C1)のユニットが与えられたときの,観測データXsの尤度に対応する.この構成をC1L3R3と呼び,その構造を図10(C)に示す.
【0104】
図10(C)を参照して,ベイズペンタフォンコンテキストユニットC1L3R3 374は,左/先行トライフォンコンテキストユニット(L3)380,右/後続トライフォンコンテキストユニット(R3)382,及びモノフォンユニット(C1)(図示せず)を含む.
【0105】
この図で分かるように,推定すべきコンテキストユニットの数は,コンテキストのカバーする範囲を損なうことなく,N5から(2N3+N)に削減される.ただしNは音素の数である.英語ASRに対し44音素の組を用いるとすれば,ペンタフォンモデルで推定する必要のあるコンテキストの総数は445≒165,000,000コンテキストユニットである.トライフォンコンテキストユニットを用いた構成では,この複雑さが約170,000ユニットまで削減される.
【0106】
式(29)及び(30)を分析すると,式(27)を,HMM音素モデルの他の構成を導くためのスタート点としても用いることが可能であることが分かる.λがモノフォンユニット/a/,CL及びCRが,それぞれ,コンテキストユニット/a−/及び/a+/に先行する,及び後続するコンテキストユニットであると仮定した場合,非特許文献7で提案されたのと同様の因数分解が得られる.これはベイズトライフォンとして知られている.
【0107】
【数32】
ここでは,トライフォンモデルがモノフォン及びバイフォンモデルから構築されている.以後,同様の方法で構成された全てのモデルも,ベイズモデルと呼ばれる.
【0108】
ベイズ広域音素コンテキストモデルと呼ばれる,ベイズトライフォンを拡張したものもまた,本願発明者の先の研究論文である非特許文献8に記載されている.このアプローチにより,単にベイスの法則に基づくのみで,コンテキストへの依存度がより少ないモデルから広域の音素コンテキストをモデル化できる.しかし,種々の種類の知識源を組込むことが必要な場合には困難が生ずる.
【0109】
対照的に,ここでの統一されたフレームワークは,様々な種類の知識源を組込むための,より適切な手段を我々に与える.例えば,性別又はアクセント情報のような他の追加の知識変数で,C1L3R3をさらに拡張することが容易にできる.C1L3R3を,性別情報のみで(C1L3R3−G),アクセント情報のみで(C1L3R3−A),又は,性別及びアクセントの両方の情報で(C1L3R3−AG),拡張することができる.
【0110】
C1L3R3−AGの場合,BNトポロジと,モラル及びトライアンギュレートグラフと,それに対応するジャンクションツリーとは図11に示されるようになる.図11(A)を参照して,BNトポロジ400は,λ,Xs,CL,CR,G及びAによりそれぞれ示される,ノード410,412,414,416,418及び420を含む.図11(B)を参照して,BNトポロジ400に対応するモラル及びトライアンギュレートグラフ430は,ノード410,412,414,416,418及び420と,ノード418及び420,ノード410及び418,並びにノード410及び420をそれぞれ接続する,付加的な3つのリンク422,424,及び426とを含む.図11(C)を参照して,図11(B)のグラフに対応するジャンクションツリー450は,“XsλAG”,“XsCLλ”,及び“XsCRλ”でそれぞれ示される,クラスタノード460,464,及び474と,“Xsλ”,及び“Xsλ”でそれぞれ示される,セパレータノード462及び472とを含む.
【0111】
この場合,条件付確率関数は以下のように求められる.
【0112】
【数33】
したがって,λ,CL及びCRに対するC1L3R3の設定に従えば,C1L3R3−AGのペンタフォン尤度は以下のようになる.
【0113】
【数34】
これは,P(Xs|[a−−,a−,a,a+,a++],A,G)を,P(Xs|[a],A,G),P(Xs|[a−−,a−,a],A,G),及びP(Xs|[a,a+,a++],A,G)に因数分解することにより,単純化できることを示している.
【0114】
提案に係るペンタフォンモデルでASRシステムを実現するためには,いくつかのモデルで動作できる,特別なデコーダを必要とする.これは,提案に係るペンタフォンモデルを,標準的なトライフォンに基づくHMMシステムにより生成されたN−ベストリストの再スコアリングに適用する場合には,避けることができる.
【0115】
図12は,本発明の第1の実施の形態に係るASRシステム500の全体の構造を示す.図12を参照して,ASRシステム500は,音声波形データ510を受け,その音声をデコードし,入力音声の仮説のNベストリストを出力するための標準的デコーダ512と,530,532,534,及び536でそれぞれ示される,ペンタフォンモデルC1L3R3,C1L3R3−A,C1L3R3−G,及びC1L3R3−AGを記憶するためのモデル記憶装置520と,人間の操作に応答して,モデル530,532,534,及び536のうちいずれか1つを選択するためのセレクタ522と,標準的デコーダ512からの仮説のNべストを,セレクタ522により選択されたモデルを利用して再スコアリングし,Nベストの仮説のうち最も高いスコアを示す1つを出力するための仮説選択モジュール516とを含む.
【0116】
図13は仮説選択モジュール516の詳細を示す.図13を参照して,仮説選択モジュール516は,Nベストの仮説を記憶するためのメモリ550と,メモリ550から仮説を1つずつ読出し,分離された音素の特徴パラメータを,後続する再スコアリングのための機能ユニットに左から右という順序で供給するための読出及び供給モジュール552と,シフトメモリ554においてこれらの特徴パラメータを受取るための5つのシフトメモリ554,556,558,560及び562とを含む.特徴パラメータがシフトメモリ554,556,558,560及び562をシフトされた時,シフトメモリ554,556,558,560,及び562は,a+,a++,a,a−,及びa−−に対する特徴パラメータをそれぞれ記憶する.
【0117】
仮説選択モジュール516はさらに,R3モデル並びにシフトメモリ554,556及び558に記憶された特徴パラメータを用いて,確率P(Xs|[a,a+,a++])を計算するための右コンテキスト計算装置570と,C1モデル,及びシフトメモリ558に記憶された特徴ベクトルを用いて,確率P(Xs|[a])を計算するための中央コンテキスト計算装置572と,L3モデル並びにシフトメモリ558,560,及び562に記憶された特徴パラメータを用いて,確率P(Xs|[a−−,a−,a])を計算するための左コンテキスト計算装置574と,読出及び供給モジュール552によりメモリ550から読出された仮説の各セグメンテーションに対し,式(30)にしたがって確率P(Xs|[a−−,a−,a,+,a++])を計算するためのPDF計算装置576とを含む.
【0118】
仮説選択モジュール516はさらに,各仮説のセグメントの確率を乗算することにより,メモリ550に記憶された各仮説を再スコアリングし,スコアを対応する仮説と関連付けてメモリ550に記憶するための再スコアリングモジュール578と,メモリ550内の仮説をスコアの降順にソートし,最も高いスコアを有する仮説を出力するためのソート及び選択モジュール580とを含む.
【0119】
単語レベルでのNベスト認識は,標準的デコーダ512により,従来のHMM音響モデル及び標準的なビタビ復号を用いて,テストデータの全ての発声に対して実行される.全てのNベストの仮説は,全音素の音響スコア,言語モデル(Language Model:LM)スコア,及びビタビ分割を含む.そして,各仮説の音素セグメント毎に,提案に係るペンタフォンモデルを用いて,仮説選択モジュール516において再スコアリングが行なわれる.
【0120】
図13を参照して,メモリ550はNベストの仮説を記憶する.読出及び供給モジュール552はメモリ550から最初の仮説を読み出し,左から右に(先頭から末尾に),仮説内の音素セグメント(特徴パラメータ)をシフトメモリ554へ出力する.
【0121】
シフトメモリ554〜562は,音素セグメントをシフトする.シフトメモリ554,556及び558に記憶された,音素セグメントの各組に対して,右コンテキスト計算装置570はR3モデルを用いて確率P(Xs|[a,a+,a++])を計算する.シフトメモリ558に記憶された各音素セグメントに対し,中央コンテキスト計算装置572はC1モデルを用いて確率P(Xs|[a])を計算する.シフトメモリ558,560,及び562に記憶された音素セグメントの各組に対して,左コンテキスト計算装置574はL3モデルを用いて確率P(Xs|[a−−,a−,a])を計算する.計算された確率は,PDF計算装置576へ与えられる.PDF計算装置576はペンタフォンコンテキスト確率P(Xs|[a−−,a−,a,+,a++])を,式(30)にしたがって計算し,その確率を再スコアリングモジュール578に与える.
【0122】
シフトメモリ558に記憶される各音素セグメントに対応して,読出及び供給モジュール552は再スコアリングモジュール578に,PDF計算装置576の出力を読むタイミングを知らせる.これに応答して,再スコアリングモジュール578はPDF計算装置576の出力を読み,その値を記憶する.仮説の最後になると,読出及び供給モジュール552は,再スコアリングモジュール578に信号を送る.これに応答して,再スコアリングモジュール578はその仮内の全音素セグメントの確率を掛け合わせることにより,当該仮説のスコアを計算する.計算完了の際,再スコアリングモジュール578は,メモリ550内のスコア(ペンタフォンスコア)を処理対象の仮説と関連付けて記憶する.
【0123】
メモリ550に記憶された全ての仮説に対してペンタフォンスコアが計算されると,読出及び供給モジュールはソート及び選択モジュール580に信号を送る.これに応答して,ソート及び選択モジュール580は,メモリ550に記憶された全ての仮説を,対応するペンタフォン及びLMスコアと共に読出し,そのペンタフォン及びLMスコアを組合わせて新しいスコアとし,その新しいスコアの降順に仮説を並べかえ,並べかえた仮説のうち最も高いスコアを有するものを選択し,それを新しい仮説518として出力する.
【0124】
図14に,仮説の再スコアリングの例を示す.
【0125】
トレーニングの間に,いくつかの音素コンテキストが出現しなかったかもしれない.このようなコンテキストに対しては,ここで提案したペンタフォンコンテキストモデルは,認識の間に出力確率を作りだすことができない.この問題に対処するため,ここでは,単純に,小さな数値を出力確率として割当る.この再スコアリングには先行,後続,及び中央のモデルからの出力確率が関係するため,全ての要素モデルにフロアリングが適用される.
【0126】
トレーニングデータの量が不十分な場合,パラメータの推定は,ここで提案したペンタフォンモデルに対するものでさえも信頼性が低くなり,状態出力の信頼性もまた下がる.モデルの信頼性を向上するため削除補間法を用いたが,その結果,より精密と思われるモデルが実際には信頼性を欠く場合に,より信頼性の高いモデルに戻ることができる.この概念は,別々にトレーニングした2個のモデルであって,その一方が他方よりも信頼性高くトレーニングされているようなモデル間を補間することに関連している.しかし,2個のモデルを補間する代わりに,我々はこのアプローチを2つの音素尤度の組込みに適用した.ただし,ここで提案したベイズペンタフォンモデルの音素尤度P(Xs|λbayPenta)が精密な方であり,トライフォンの尤度P(Xs|λtriphn)が,より信頼性の高い方である.このため,音素尤度P(Xs|λ)は以下で与えられる.
【0127】
【数35】
ただし,αはここで提案したペンタフォンモデルのHMM音素尤度の重みを表し,(1−α)はトライフォンモデルのHMM音素尤度の重みを表す.トレーニングデータの量が十分に多ければ,P(Xs|λbayPenta)はより信頼性が高くなり,αは1.0に近づく.十分でなければ,αは0.0に近づき,より信頼性の高いモデルP(Xs|λtriphn)に戻る.
【0128】
発話の始め/終わりにおいては,全ての左/右コンテキストは無音で満たされる.隣接した単語の間に長い無音が存在しないと仮定しているので,前の単語の最後の音素コンテキストは,現在の単語の最初の音素コンテキストにも影響する.この再スコアリングメカニズムはこのように,単語内及び単語と単語の間の全セグメントに対して同様に振舞う(クロスワードモデル).
【0129】
前述のように計算されたスコアはその後,現在の仮説に対応したLMスコアと組合わされる.Nベストから,最も高い発声スコアを達成する仮説が新しい認識出力として選択される.
【0130】
6.実験
出願人(株式会社国際電気通信基礎技術研究所(ATR))が準備した,アクセント付の英語発声コーパスをこの実験に用いた.文の素材は,旅行で用いられる表現の基本的なドメインに基づくものである.発話データベースは,アメリカ(US)とオーストラリア(AUS)の英語アクセントからなり,各アクセントは各々,100人の話者(男性50名,女性50名)による約45,000の発話(44発声時間)からなる.このデータの90%,すなわち40,000の発話(男女各40人の話者による20,000の発話)をトレーニングデータとして用いた.評価のため,残り10%のアクセントデータ(US及びAUS)の混合物から,20人の異なる話者(男性10名,女性10名)による,200の発話をランダムに選択した.バイグラム及びトライグラム言語モデルを,約150,000の旅行に関する文によりトレーニングした.利用可能であった発音辞典は37,000の単語からなり,USの発音に基づいていた.
【0131】
16kHzのサンプリング周波数,20ミリ秒のフレーム長,10ミリ秒のフレームシフト,並びに12次のMFCC(Mel−Frequency Cepstrum Coefficients:メル周波数ケプストラム),ΔMFCC及びΔ対数パワーからなる25次元の特徴パラメータを,特徴パラメータとして用いた.全ての音素について,初期HMMとして3状態を用いた.そして,連続状態分割(Successive State Splitting:SSS)トレーニングアルゴリズムを用いて,状態結合HMnetトポロジを持つトライフォン音響モデルを得た.状態結合の数は,ここで用いられたSSSアルゴリズムが最小記述長(Minimum Describtion Length:MDL)最適化基準に基づくことから,アルゴリズムにより自動的に決定される.MDL−SSSの詳細は他の文献(非特許文献9)に記載されている.SSSトポロジトレーニングは,全てのトレーニングデータを用いて実行された.状態の総数は2,126であり,状態当りガウス混合成分が4種類,すなわち,状態当りガウス混合成分の数が5,10,15及び20個のモデルが得られた.
【0132】
従来のトライフォン音響モデル(AM)に性別及びアクセントといった付加的知識を組込むこともまた,性別及び/又はアクセント依存のAMをトレーニングすることにより,可能である.すべてのモデルに対するトポロジに対応した構造が確実に同じになるように,所定のアクセント又は性別のトレーニングデータによる,組込トレーニング手順のみが行なわれた.このため,総合して,1つの単一トライフォンAM(付加的知識無し)と,2つのアクセント依存トライフォンAM(USとAUSとの両方に対して)と,2つの性別依存トライフォンAM(男性と女性との両方に対して)と,4つのアクセント及び性別依存トライフォンAM(USの男性及び女性と,AUSの男性及び女性とに対して)とを得た.
【0133】
これら,状態当り5混合成分のベースラインモデルがどのような性能を示したかを図15のグラフにプロットした.付加的知識無しのトライフォンのベースラインは,83.60%の単語正解率を達成した.しかし,性別依存モデルのみ,性能をわずかに向上可能であった.他のモデルの性能は低下しただけであった.とりわけ,アクセント・性別依存モデルは単語正解率82.11%まで低下した.これは,他のベースラインモデルに比べトレーニングデータの量が特に少なかったことによるものであろう.
【0134】
A.HMM状態レベルで知識源を組込んだときの性能
提案に係るペンタフォンモデルを,セクション4−Bに記述したように,音素クラスコンテキスト変数でラベル付けされたすべてのアクセントデータにおいて,同じ量のトレーニングデータを用いてトレーニングした.モデルの状態トポロジ,状態の総数,及び,遷移確率は,すべてトライフォンHMMベースラインと同一である.それゆえに,これらはすべてパラメータの数という点で同様の複雑さを有する.主要な違いは,状態の確率分布において,各々のガウス分布がCLまたはCRにより明確に条件付けされているという点にのみある.これとは対照的に,HMMベースラインでの全てのガウス成分は,混合インデックスに関する「意味のある」解釈無しにEMアルゴリズムにより学習された.いくつかの音素コンテキストクラスCLまたはCRは,文法規則により存在しないか,又はトレーニングデータに現れず,その結果,トレーニング後に,状態当り平均約50のガウス分布が得られた.データ駆動型クラスタリング技術を用いてペンタフォンモデルのサイズを状態当り5,10,15及び20の混合成分に対応するよう減少させることにより,推定パラメータの信頼性の低下を避け,ガウス分布の総数が全く同じであることにより,性能をベースラインシステムと比べることが可能なようにする.
【0135】
最初に,ベースラインと同じテストデータを用い,ペンタフォンモデルBN−C,BN−CG,BN−CA又はBN−CGAがどの程度の性能であるかを評価した.平均で状態当り5つという同じ数の混合成分を持つこれら4つのモデル全ての結果を,図16にプロットした.
【0136】
これからわかるように,全てのBNのタイプを用い,様々なタイプの知識源の組込みを行なうように状態の確率分布を変えただけで,認識が向上した.しかし,性別及びアクセント変数を組込んだものでは,ここで提案したモデルの認識率はそれ以上向上しなかった.この問題も,各々のアクセント又は性別依存モデルに対するトレーニングデータに限りがあることに関係しているのであろう.それが,最高性能がBN−Cを用いた場合の単語正解率85.03%である理由である.
【0137】
我々は,これを,一致するアクセントのテストの組で評価した.このテストデータは,BN−Cを用いてもたらされる効果が何かをさらに詳しく調査するための,各アクセント(US及びAUS)からランダムに選択された200の発話である.種々の数の混合成分のモデルを用いて得られた結果をテーブル2に要約する.
【0138】
【表2】
【0139】
【表3】
これからわかるように,ここで提案したペンタフォンモデルは,同じ数のパラメータの範囲ではベースラインよりも良い性能を示す.USのペンタフォンHMM/BNの最良の性能はガウス混合分布数が10の時に得られ,これによってWER(Word Error Rate:単語誤り率)が相対的に約8%削減し,AUSのペンタフォンの最良の性能はガウス混合分布数が20の時に得られ,WERが相対的に約11%削減した.一致しないアクセントのテストの組でもこれらペンタフォンモデルの性能を評価した.例えば,US発声でトレーニングされたモデルをAUS発声のテストデータでテストし,その逆も行なった.15個の混合成分のモデルを用いて得られた結果をテーブル3に要約する.一致時と不一致時との比較を簡単にするため,テーブル3には一致するアクセントの評価から得た結果も含ませてある.一致しないアクセントに対するペンタフォンモデルでも,標準的なHMMトライフォンモデルに比べ,依然として一貫して性能が優れていることが分かる.
【0140】
B.HMM音素モデルレベルでの知識源組込み時の性能
非特許文献8では,我々は,ペンタフォンモデルを分解する数種類の方法を調査し,最良の方法がC1L3R3構成であることを見出した.ここでは,C1L3R3モデルのみを用いた追加の実験について記述する.
【0141】
全てのアクセント付のペンタフォンモデルの全成分を,同量のトレーニングデータ及び同じSSSトレーニングアルゴリズムを用いて別々にトレーニングした.状態の総数は3,360(C1:132状態,L3:1,746状態,R3:1,782状態の合計)で,状態当り4種類のガウス混合成分数,すなわち,5,10,15及び20という数のガウス混合成分のものが得られた.そして,組込みトレーニング手順を,特定のアクセント又は性別のトレーニングデータでペンタフォンC1L3R3−A,C1L3R3−G,及びC1L3R3−AGに対して実行した.
【0142】
【表4】
【0143】
【表5】
最初に,付加的知識源の組込みが複数のアクセント付のテストデータに対しどんな効果を有するかを評価した.5つの混合成分を有する,提案に係るペンタフォンC1L3R3,C1L3R3−A,C1L3R3−G,及びC1L3R3−AGに対する結果を図17に要約する.10ベストリストと,削除補間のための0.3の重みパラメータαを用いて再スコアリングが行なわれた.ここから分かるように,組込んだ知識源が多いほど,性能もよくなった.提案に係るペンタフォンC1L3R3モデルは,ベースラインに対して性能が向上し,達成された最高性能は,アクセントA,性別G,先行コンテキストCL,及び後続コンテキストCRという付加的知識を組込んだC1L3R3−AGによる,84.38%という単語正解率である.性別及びアクセントが組込まれた時には,ペンタフォンHMM/BNに対する場合と同様,性能の低下はなかったが,これは恐らく削除補間法を使用したことによるものである.
【0144】
次に,全アクセント付テストデータに対してC1L3R3−AGがどのような性能を示すのか,その詳細を,Nベスト(N=10)リストを用いて調査した.補間削除法のための重みパラメータαは同じ(0.3)であった.ここでは,非特許文献1で使用された,相対的向上度(Rel-Imp)と,再スコアリングについての相対的向上度(Rel−Resc−Imp)との両方を以下により計算した.
【0145】
【数36】
ただし,Nベストリストの上限はNベスト認識結果である.
【0146】
種々の数の混合成分のモデルによって得られた結果をテーブル4に要約する.これから分かるように,提案に係るペンタフォンモデルにより,ASRシステムの性能は一貫して向上した.最大のRel−Resc−Impは,US及びAUSアクセントの両方に対し,15の混合モデルの時に得られた(USモデルに対し37.92%及びAUSモデルに対し38.04%).
【0147】
また,提案に係るペンタフォンC1L3R3−AGモデルが,一致しないアクセントのテストの組に対してどの程度の性能を示すかについても評価した.15個の混合成分を持つモデルを用いて得た結果をテーブル5に要約する.テーブル5は,一致時と不一致時との比較を簡単にするために,一致するアクセントに対する評価からの結果をも含む.提案に係るペンタフォンC1L3R3−AGモデルが,一致しないアクセントについて標準的なトライフォンモデルよりも一貫して良い性能を示すことが分かる.
【0148】
C.種々のモデルの比較
最後に,2,202個の状態数の従来のペンタフォンHMMモデルであって,何も無いところからMDL−SSSを用いてトレーニングされたものを用い,提案に係るモデルの性能の高さが,主に広域音素コンテキストによりもたらされたものかどうかを調査するために,追加の実験を行なった.性別及びアクセントに依存するペンタフォンモデルも,特定のアクセント又は性別に関するトレーニングデータでの組込み手順を用いて取得した.これらはベイズペンタフォンの場合と同様,Nベストリストを再スコアリングすることにより実現された.
【0149】
状態当り5つの混合成分を持つ全てのモデルに対する結果を図18にプロットする.これから分かるように,提案に係るペンタフォンC1L3R3モデルによりベースラインに比べて性能が向上し,しかもこれは従来のペンタフォンHMMで単に再スコアリングするよりも優秀である.この理由は,ある量のトレーニングデータが与えられたときに,MDL−SSSアルゴリズムを用いて従来のペンタフォンモデルをトレーニングした結果得られたのが,総数2,202個の状態を持つモデルであり,これがトライフォンHMMでの状態の総数とそれほど変わらないことによるのであろう.同じガウス分布成分を共有する異なるペンタフォンコンテキストがあまりに多くあるように見えるために,コンテキストの分解能が低下した.このため,いくつかのコンテキスト依存性の少ないモデルを組合わせたものを用いてペンタフォンモデルを近似することにより,コンテキストの分解能の向上と性能の改善とを促進することができた.得られた最高性能は,BN−Cによる単語正解率85.03%であった.
【0150】
7.結論
統計的音響モデルを基本としたHMMに,付加的知識源を組込むための一般的なフレームワークを述べた.広域音素コンテキスト情報をトライフォンHMMへ組込むことにより,このフレームワークの実現を提示した.これは最初にBNを用いてHMMの状態レベルで行なわれた.付加的知識源が認識の間に隠されていても,このアプローチによれば標準デコーディングシステムを変更なく使用することができる.次に,広域音素コンテキスト音響モデリングを,より狭いコンテキストを持ついくつかの他のモデルを用いて構築することにより,HMM音素モデルレベルで組込んだ.この複合の技術によって,推定されるべきコンテキストユニットの数の削減がもたらされたため,コンテキスト依存性のより少ないモデルを推定することが必要なだけとなったので,コンテキストの分解能は著しく向上した.
【0151】
これらの広域コンテキストモデル構成を,Nベストの再スコアリングにより,処理後の段階に適用した.実験結果により,提案に係るフレームワークで作成された広域音素コンテキストモデルが,標準的なトライフォンモデルに対して単語正解率を向上させることが明らかとなった.2つ前のコンテキストCLと,2つ後のコンテキストCRという付加的知識は,HMM状態レベルでの組込みに適しており,一方,アクセントA及び性別Gという付加的知識は,HMM音素モデルレベルでの組込みに,より適していた.
【0152】
上述のように,本発明は,付加的な知識源を統一された方法で組み込むための方法及び装置に関するものである.これら方法及び装置はベイズネットワークのフレームワークを利用し,どのようなドメインからのものでも,すべての付加的知識源を簡単に統合する.このグラフによるモデルフレームワークの有利な点は,(1)情報源間の確率論的関係を学習することを可能にすること,及び,(2)同時確率密度関数を,互いにリンクされた局部的条件付確率密度関数の組に分解することを容易にすること,である.モデルが簡素化された形式であるため,このようにして,限定された量のデータを用いてモデルを構築し,信頼性高く推定することが可能である.
【0153】
このフレームワークは一般的なアプローチを代表するものである.即ち,このフレームワークは,それぞれモデルに基づく尤度関数を持つ,多くの既存の音響モデルのモデル化の問題に適用できる.
【0154】
コンピュータによる実現
上述の実施の形態は,コンピュータシステムと,当該システム上で実行されるコンピュータプログラムとによって実現可能である.図19はこれら実施の形態で用いられるコンピュータシステム650の外観を示し,図20はコンピュータシステム650のブロック図である.ここで示すコンピュータシステム650は単なる例示であって,さまざまな他の構成が利用可能である.
【0155】
図19を参照して,コンピュータシステム650は,コンピュータ660と,モニター662と,キーボード666と,マウス668と,スピーカー692と,マイクロフォン690とを含む.さらに,コンピュータ660は,DVD(Digital Versatile Disc)ドライブ670及び半導体メモリポート672を含む.
【0156】
図20を参照して,コンピュータ660はさらに,DVD670及び半導体メモリポート672に接続されたバス686と,上述した装置を実現するコンピュータプログラムを実行するためのCPU(Central Processing Unit)676と,コンピュータ660のブートアッププログラムを記憶するROM(Read−Only Memory)678と,CPU676によって使用される作業領域及びCPU676によって実行されるプログラムの記憶領域を提供するRAM(Random Access Memory)680と,音声データ,音響データ,言語モデル,及び音声認識のために必要なレキシコンを記憶するためのハードディスクドライブ674と,コンピュータ660にネットワーク652との接続を提供するためのネットワークインターフェース(I/F)696とを含み,これらは全てバス686に接続されている.
【0157】
上述の実施の形態に係るシステムを実現するソフトウェアはDVD682又は半導体メモリ684等の記憶媒体に記憶されたオブジェクトコードの形で流通し,DVDドライブ670又は半導体メモリポート672等の読出装置を介してコンピュータ660に提供され,ハードディスクドライブ674に記憶される.CPU676がプログラムを実行する際には,プログラムはハードディスクドライブ674から読出されてRAM680に記憶される.図示しないプログラムカウンタによって指定されたアドレスから命令がフェッチされ,その命令が実行される.CPU676はハードディスクドライブ674から処理すべきデータを読出し,処理の結果をこれもまたハードディスクドライブ674に記憶する.スピーカ692とマイクロフォン690とは,音声認識と音声合成とに用いられる.
【0158】
コンピュータシステム650の一般的動作は周知であるので,ここでは詳細な説明は行なわない.
【0159】
ソフトウェアの流通の方法に関して,ソフトウェアは必ずしも記憶媒体上に固定されたものでなくてもよい.例えば,ソフトウェアはネットワーク652に接続された別のコンピュータから配布されてもよい.ソフトウェアの一部がハードディスク674に記憶され,ソフトウェアの残りの部分をネットワークを介してハードディスク674に取込み,実行の際に統合する様にしてもよい.
【0160】
典型的には,現代のコンピュータはコンピュータのオペレーティングシステム(OS)によって提供される汎用の関数を利用し,所望の目的に従って制御された態様でこれら関数を実行する.従って,OS又は第3者から提供されうる汎用関数を含まず,一般的な関数の実行順序の組合せのみを指定したプログラムであっても,そのプログラムが全体として所望の目的を達成する制御構造を有する限り,そのプログラムがこの発明の範囲に包含されることは明らかである.
【0161】
今回開示された実施の形態は単に例示であって,本発明は上記した実施の形態のみに制
限されるわけではない.本発明の範囲は,発明の詳細な説明の記載を参酌した上で,特許
請求の範囲の各請求項によって示され,そこに記載された文言と均等の意味及び範囲内で
のすべての変更を含む.
【図面の簡単な説明】
【0162】
【図1】付加的知識源を音響モデルに組込む一般的手順を示す図である.
【図2】種々のBNトポロジを示す図である.
【図3】種々のBNトポロジのいくつかの例を示す図である.
【図4】BNトポロジと,対応するトライアンギュレートグラフと,トライアンギュレートグラフのうちの1つから得たジャンクションツリーとを示す図である.
【図5】図3(A)に示すBNと同じBNトポロジと,これに対応するジャンクションツリーとを示す図である.
【図6】トライフォン/a+,a,a−/をモデル化するために用いられるガウス混合分布密度での従来のHMM音響モデルを示す図である.
【図7】ペンタフォンコンテキスト/a−−,a−,a,a+,a++/をモデル化するためのBN−Cトポロジを示す図である.
【図8】BN−CG,BN−CA,及びBN−CGAのトポロジを示す図である.
【図9】BNによる観測空間モデリングの例を示す図である.
【図10】従来のトライフォンモデルと,従来のペンタフォンモデルと,ベイズペンタフォンモデル構成C1L3R3とを示す図である.
【図11】BNトポロジと,これに対応するモラル及びトライアンギュレートグラフと,これに対応するジャンクションツリーとを示す図である.
【図12】本発明のある実施の形態に係るASRシステム500の全体構造を示す図である.
【図13】仮説選択モジュール516の詳細を示すブロック図である.
【図14】本実施の形態に係るNベスト再スコアリングのメカニズムの例を示す図である.
【図15】実験で用いられたトライフォンベースラインモデルの認識単語正解率の値を示す図である.
【図16】種々のBNトポロジを用いたペンタフォンHMM/BNモデルの認識単語正解率の値を示す図である.
【図17】種々のベイズペンタフォンモデルの認識単語正解率の値を示す図である.
【図18】種々のシステムのトライフォンHMMベースライン,ペンタフォンHMMベースライン,ペンタフォンHMMベースライン,及び本発明の実施の形態に係るペンタフォンモデルの認識単語正解率の値を示す図である.
【図19】コンピュータシステム650の外観を示す図である.
【図20】コンピュータシステム650を示すブロック図である.
【符号の説明】
【0163】
70,80,90,100,110,140,240,330 ベイズネットワーク
130,150 モラル及びトライアンギュレートグラフ
160,180,450 ジャンクションツリー
190 HMM
270,290,310,400,430 BNトポロジ
164,166,170,460,464,474 クラスタの組
162,168,462,472 セパレータの組
500 ASRシステム
510 音声波形データ
512 標準的なデコーダ
514 Nベストリスト
516 仮説選択モジュール
530 C1L3R3ペンタフォンモデル
532 C1L3R3−A ペンタフォンモデル
534 C1L3R3−G ペンタフォンモデル
536 C1L3R3−AG ペンタフォンモデル
550 メモリ
552 読出及び供給モジュール
554,556,558,560,526 シフトメモリ
570 右コンテキスト計算装置
572 中央コンテキスト計算装置
574 左コンテキスト計算装置
576 確率密度関数計算装置
578 再スコアリングモジュール
580 ソート及び選択モジュール
【特許請求の範囲】
【請求項1】
音声信号の所与のセグメント中に存在する、予め定義された組の音素の各々について、前記音声信号のための統計的音響モデル及び1以上の知識源を用いて確率を計算するための確率計算装置であって、前記セグメントは、前記音声信号の複数のフレームを含み、前記音響モデル及び前記1以上の知識源はベイズネットワークにより示される因果関係を有し、前記ベイズネットワークは、複数のクラスタノード及び1以上のセパレータノードを含むジャンクションツリーに対応し、
前記装置は、
前記クラスタノード及び1以上のセパレータノードに対応する、複数の局部的音響モデルを記憶するための手段と、
前記フレームの各々に対して予め定義された観測データを計算するための手段と、
前記複数の前記局部的音響モデルを利用して、前記音素の各々の、前記観測データを発生する局部的確率を計算するための局部的確率計算手段と、
前記音素の各々の、前記観測データを発生する確率を、前記局部的確率計算手段により計算された局部的確率の所定の関数として計算するための確率計算手段とを含む、確率計算装置。
【請求項2】
前記所定の関数は、
【数1】
によって定義され、
ただしDは前記観測データであり、Mは前記音響モデルであり、Nは正の整数であり、Kiは1以上の知識源であり、
P(D|Ki,M)(i=1〜N)及びP(D|M)は前記局部的確率計算手段により計算された局部的確率である、請求項1に記載の装置。
【請求項3】
前記モデルMはモノフォン音響モデルであり、
前記1以上の知識源は先行するトライフォンコンテキストユニット及び後続するトライフォンコンテキストユニットを含む、請求項2に記載の装置。
【請求項4】
前記モデルMは追加の知識源を用いてトレーニングされたモノフォン音響モデルであり、
前記1以上の知識源は先行するトライフォンコンテキストユニット及び後続するトライフォンコンテキストユニットを含む、請求項2に記載の装置。
【請求項5】
前記追加の知識源は、アクセント知識、又は性別に関する知識、又はアクセント知識及び性別に関する知識の両方を含む、請求項4に記載の装置。
【請求項6】
コンピュータ上で実行されると、前記コンピュータに、音声信号の所与のセグメント中に存在する、予め定義された組の音素の各々について、前記音声信号のための統計的音響モデル及び1以上の知識源を用いて確率を計算するための確率計算装置として機能させるコンピュータプログラムであって、前記セグメントは、前記音声信号の複数のフレームを含み、前記音響モデル及び前記1以上の知識源はベイズネットワークにより示される因果関係を有し、前記ベイズネットワークは、複数のクラスタノード及び1以上のセパレータノードを含むジャンクションツリーに対応し、
前記コンピュータプログラムは、前記コンピュータを、
前記クラスタノード及び1以上のセパレータノードに対応する、複数の局部的音響モデルを記憶するための手段と、
前記フレームの各々に対して予め定義された観測データを計算するための手段と、
前記複数の前記局部的音響モデルを利用して、前記音素の各々の、前記観測データを発生する局部的確率を計算するための局部的確率計算手段と、
前記音素の各々の、前記観測データを発生する確率を、前記局部的確率計算手段により計算された局部的確率の所定の関数として計算するための確率計算手段として機能させる、コンピュータプログラム。
【請求項1】
音声信号の所与のセグメント中に存在する、予め定義された組の音素の各々について、前記音声信号のための統計的音響モデル及び1以上の知識源を用いて確率を計算するための確率計算装置であって、前記セグメントは、前記音声信号の複数のフレームを含み、前記音響モデル及び前記1以上の知識源はベイズネットワークにより示される因果関係を有し、前記ベイズネットワークは、複数のクラスタノード及び1以上のセパレータノードを含むジャンクションツリーに対応し、
前記装置は、
前記クラスタノード及び1以上のセパレータノードに対応する、複数の局部的音響モデルを記憶するための手段と、
前記フレームの各々に対して予め定義された観測データを計算するための手段と、
前記複数の前記局部的音響モデルを利用して、前記音素の各々の、前記観測データを発生する局部的確率を計算するための局部的確率計算手段と、
前記音素の各々の、前記観測データを発生する確率を、前記局部的確率計算手段により計算された局部的確率の所定の関数として計算するための確率計算手段とを含む、確率計算装置。
【請求項2】
前記所定の関数は、
【数1】
によって定義され、
ただしDは前記観測データであり、Mは前記音響モデルであり、Nは正の整数であり、Kiは1以上の知識源であり、
P(D|Ki,M)(i=1〜N)及びP(D|M)は前記局部的確率計算手段により計算された局部的確率である、請求項1に記載の装置。
【請求項3】
前記モデルMはモノフォン音響モデルであり、
前記1以上の知識源は先行するトライフォンコンテキストユニット及び後続するトライフォンコンテキストユニットを含む、請求項2に記載の装置。
【請求項4】
前記モデルMは追加の知識源を用いてトレーニングされたモノフォン音響モデルであり、
前記1以上の知識源は先行するトライフォンコンテキストユニット及び後続するトライフォンコンテキストユニットを含む、請求項2に記載の装置。
【請求項5】
前記追加の知識源は、アクセント知識、又は性別に関する知識、又はアクセント知識及び性別に関する知識の両方を含む、請求項4に記載の装置。
【請求項6】
コンピュータ上で実行されると、前記コンピュータに、音声信号の所与のセグメント中に存在する、予め定義された組の音素の各々について、前記音声信号のための統計的音響モデル及び1以上の知識源を用いて確率を計算するための確率計算装置として機能させるコンピュータプログラムであって、前記セグメントは、前記音声信号の複数のフレームを含み、前記音響モデル及び前記1以上の知識源はベイズネットワークにより示される因果関係を有し、前記ベイズネットワークは、複数のクラスタノード及び1以上のセパレータノードを含むジャンクションツリーに対応し、
前記コンピュータプログラムは、前記コンピュータを、
前記クラスタノード及び1以上のセパレータノードに対応する、複数の局部的音響モデルを記憶するための手段と、
前記フレームの各々に対して予め定義された観測データを計算するための手段と、
前記複数の前記局部的音響モデルを利用して、前記音素の各々の、前記観測データを発生する局部的確率を計算するための局部的確率計算手段と、
前記音素の各々の、前記観測データを発生する確率を、前記局部的確率計算手段により計算された局部的確率の所定の関数として計算するための確率計算手段として機能させる、コンピュータプログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【図20】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【図20】
【公開番号】特開2009−3110(P2009−3110A)
【公開日】平成21年1月8日(2009.1.8)
【国際特許分類】
【外国語出願】
【出願番号】特願2007−162864(P2007−162864)
【出願日】平成19年6月20日(2007.6.20)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り 平成18年12月22日 社団法人電子情報通信学会発行の「電子情報通信学会技術研究報告」に発表 平成19年3月6日 社団法人日本音響学会発行の「日本音響学会2007年春季研究発表会講演論文集」に発表
【出願人】(301022471)独立行政法人情報通信研究機構 (1,071)
【Fターム(参考)】
【公開日】平成21年1月8日(2009.1.8)
【国際特許分類】
【出願番号】特願2007−162864(P2007−162864)
【出願日】平成19年6月20日(2007.6.20)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り 平成18年12月22日 社団法人電子情報通信学会発行の「電子情報通信学会技術研究報告」に発表 平成19年3月6日 社団法人日本音響学会発行の「日本音響学会2007年春季研究発表会講演論文集」に発表
【出願人】(301022471)独立行政法人情報通信研究機構 (1,071)
【Fターム(参考)】
[ Back to top ]