説明

音声認識装置、音声認識方法及び音声認識プログラム

【課題】計算コストや計算の際に使用するメモリ量の増加を抑えつつ、ロバスト性の高い音声認識を行うことが可能な音声認識技術を提供する。
【解決手段】音声認識装置は、同一の構造を有する複数の音響モデルと、複数の音響モデルに共通の探索ネットワークとを記憶し、音声の入力を受け付け、当該音声を用いて、音響特徴量を抽出し、抽出した音響特徴量と、複数の音響モデルと、探索ネットワークとを用いて、探索ネットワーク上で始端ノードから終端ノードに至るまでに経由するノードの系列を示す各経路に対して、複数の音響モデルのそれぞれに対応してスコアを計算し、各経路のうちスコアが最大である第1経路を選択することにより、探索ネットワーク上で始端ノードから終端ノードに至る最適な経路である第1経路を探索し、音声の認識結果である第1経路を示す情報を出力する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、音声認識装置、音声認識方法及び音声認識プログラムに関する。
【背景技術】
【0002】
従来より、音声認識装置においてロバスト性の高い音声認識を行うためには、例えば、特許文献1及び特許文献2に開示されているように、複数の音響モデルに対して、複数の経路探索部(デコーダ)を同時に用いることにより複数の最適な単語の系列からなる経路を計算する方法か、もしくは特許文献3に開示されているように、単一の経路探索部を順次用いることにより複数の最適な単語の系列からなる経路を計算する方法があった。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2005−221678公報
【特許文献2】特開2003−108188公報
【特許文献3】特開2007−225931公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、従来の方法では、ロバスト性の高い音声認識を行うための計算コストや計算に際して使用するメモリ量が増大する恐れがあった。特に、複数の音響モデルを用いた計算を行う方法においては、計算コストや計算に際して使用するメモリ量が顕著に増大する恐れがあった。
【課題を解決するための手段】
【0005】
実施形態の音声認識装置は、同一の構造を有する複数の音響モデルを記憶する第1記憶部と、始端を表す始端ノードと、終端を表す終端ノードと、前記始端ノード及び終端ノードの間の少なくとも1つのノードとを有し、複数の前記音響モデルに共通の探索ネットワークを記憶する第2記憶部と、音声の入力を受け付ける受付部と、前記音声を用いて、音響特徴量を抽出する抽出部と、前記音響特徴量と、複数の前記音響モデルと、前記探索ネットワークとを用いて、前記探索ネットワーク上で前記始端ノードから前記終端ノードに至るまでに経由するノードの系列を示す各経路に対して、複数の前記音響モデルのそれぞれに対応してスコアを計算する計算部と、各前記経路のうち少なくとも1つの音響モデルに対応する前記スコアが最大である第1経路を選択することにより、前記探索ネットワーク上で前記始端ノードから前記終端ノードに至る最適な経路である前記第1経路を探索する探索部と、前記音声の認識結果である前記第1経路を示す情報を出力する出力部とを備えることを特徴とする。
【図面の簡単な説明】
【0006】
【図1】本実施の形態に係る音声認識装置の機能的構成を例示する図。
【図2】探索ネットワークを例示する図。
【図3】トークンパッシングの手法による最適経路の探索を説明するための図。
【図4】音声認識処理の手順を示すフローチャート。
【図5】図4のステップS3の処理の詳細な手順を示すフローチャート。
【図6】累積スコアリストの更新例を示す図。
【図7】累積スコアリストの更新例を示す図。
【図8】本変形例に係る最適経路の探索を説明するための図。
【発明を実施するための形態】
【0007】
[第1の実施形態]
まず、音声認識装置のハードウェア構成について説明する。本実施の形態に係る音声認識装置は、装置全体を制御するCPU(Central Processing Unit)等の制御部と、各種データや各種プログラムを記憶するROM(Read Only Memory)やRAM(Random Access Memory)等の主記憶部と、各種データや各種プログラムを記憶するHDD(Hard Disk Drive)やCD(Compact Disk)ドライブ装置等の補助記憶部と、これらを接続するバスとを備えており、通常のコンピュータを利用したハードウェア構成となっている。また、音声認識装置には、音声が入力される音声入力部が有線又は無線により各々接続される。
【0008】
次に、このようなハードウェア構成において、本実施の形態に係わる音声認識装置の機能的構成について図1を用いて説明する。音声認識装置100は、音声入力受付部101と、音響特徴量抽出部102と、音響モデル記憶部103と、探索ネットワーク記憶部104と、経路探索部105とを有する。音声入力受付部101と、音響特徴量抽出部102と、経路探索部105とは、制御部が主記憶部や補助記憶部に記憶された各種プログラムを実行することにより各々実現される。音響モデル記憶部103と、探索ネットワーク記憶部104とは、例えば補助記憶部に構成されるものである。
【0009】
音声入力受付部101は、音声入力部に入力された音声を表すアナログの音声信号の入力を受け付け、これをデジタルの音声信号に変換する。音響特徴量抽出部102は、音声入力受付部101がデジタルに変換した音声信号を用いて時刻毎の音響特徴量を抽出する。音響モデル記憶部103は、複数(例えばM個)の音響モデルを記憶する。音響モデルとしては、例えば音素単位の隠れマルコフモデル(HMM)などを用いても良い。ただし複数の音響モデルは、後述する探索ネットワーク記憶部104に記憶された単一の探索ネットワークを用いて経路探索部105が探索可能な共通の構造を有するものとする。例えば、音響モデルが音素単位の隠れマルコフモデルの場合には、複数の音響モデル間で対応する音素モデルの状態数及び状態遷移の構造が共通であることなどが挙げられる。
【0010】
探索ネットワーク記憶部104は、単一の探索ネットワークを記憶する。図2は、探索ネットワークを例示する図である。探索ネットワークは、図中において丸印で表されるノードと、ノード間の遷移を矢印で表したアークとにより構成される。ノードのうち、始端を表すものが始端ノードSであり、終端を表すものが終端ノードEである。始端ノードSから終端ノードEに至るまでのノードの系列を示すものが経路となる。各ノード及び各アークの一部又は全てには、ラベルが付与されている。このラベルは、探索ネットワーク上のノード及びアークを各々識別するための任意の識別子であっても良いし、各ノードやアークに対応付けられる音素や単語であっても良く、求められている音声認識結果によって変更可能である。また、全てのノード及びアークにラベルを付与する必要はない。同図に示される探索ネットワークの例では、各ノードに数字による識別子が各々付与され、各アークに単語が各々付与されている。具体的には、各ノードに「1」〜「6」のラベルが各々付与されており、ノード2からノード3へ至るアークにラベル「単語1」が付与されており、ノード2からノード5へ至るアークにラベル「単語2」が付与されており、ノード1からノード4へ至るアークにラベル「単語3」が付与されている。
【0011】
探索ネットワークのノードnは、時刻tにおいてm番目(1≦m≦M)の音響モデルに対応する音響スコアlm(t,n)を、音響モデルの数(M個)だけ保持する音響スコアリストscr(t,n)を有する。scr(t,n)は例えば式1により表される。
【0012】
【数1】

【0013】
但し、音響スコアリストは、各ノードに対応したものが参照できれば良く、ノード自身に保持させることに限定するものではない。
【0014】
一方、ノードjからノードiへ至るアークは、m番目(1≦m≦M)の音響モデルに対応する遷移スコアamjiを、音響モデルの数(M個)だけ保持する遷移スコアリストtrans(j,i)を有する。trans(j,i) は例えば式2により表される。
【0015】
【数2】

【0016】
但し、遷移スコアリストは、各アークに対応したものが参照できれば良く、アーク自身に保持させることに限定するものではない。
【0017】
経路探索部105は、音響特徴量抽出部102が抽出した音響特徴量と、音響モデル記憶部103に記憶された複数の音響モデルと、探索ネットワーク記憶部104に記憶された探索ネットワークとを用いて、音声入力部に入力された音声の認識の結果として最適な経路(最適経路という)を探索する。このとき、経路探索部105は、始端ノードSから終端ノードEに至るまでに経由するノード毎に、始端ノードSから当該ノードに至る最適経路を順次探索することにより、始端ノードSから終端ノードEに至る最適経路を探索する。そして、経路探索部105は、始端ノードSから終端ノードEへ至る最適経路を経由するノードに付与されたラベル及び当該ノード間の遷移を示すアークに付与されたラベルのうち少なくとも一方を示す経路履歴情報を生成してこれを音声認識結果として出力する。ここでは、経路履歴情報は、経路上のアークにラベルとして付与された単語を示すものとする。
【0018】
探索の方法としては、例えば、以下の参考文献1に示されるように、探索ネットワーク上のトークンの伝播を用いた手法(トークンパッシング)がある。
(参考文献1)S.J.Young,N.H.Russell,and J.H.S.Thornton,“Token Passing: a Conceptual Model for Connected Speech Recognition Systems”CUED Technical Report F INFENG/TR38,Cambridge University,1989.
【0019】
トークンパッシングの手法では、図3に例示されるように、経路探索部105は、時刻tで到達し得る探索ネットワーク中のノードnに対して、始端ノードSから当該ノードnまでの経路上のアークに付与された単語を示す経路履歴情報hist(t,n)と、複数の音響モデルに各々対応する音響スコアを累積して保持する累積スコアリストcumscr(t,n)とを有するトークンtoken(t,n)を生成する。経路探索部105は、探索ネットワーク中の経路上を経由するノードにこのトークンを伝播させることによって経路履歴情報及び累積スコアリストを更新して最適経路を探索する。同図では、「t=2」の時刻tにおいて、始端ノードSからノード1、ノード2及びノード4までトークンが伝播された場合の例が示されている。尚、累積スコアリストcumscr(t,n)は例えば以下の式3によりM次元のベクトルで表される。
【0020】
【数3】

【0021】
式3において、S(t,n)(1≦≦M)は、始端ノードSから時刻tにおけるノードnに至る経路に対してm番目の音響モデルに対応して累積された音響スコアである。尚、経路履歴情報及び累積スコアリストは、各トークンに対応したものが参照できれば良く、トークン自身に保持させることに限定するものではない。そのため、例えばRAMなどの主記憶部のある記憶領域に、全トークンに関する経路履歴情報及び累積スコアリストを記憶させ、各トークンがそれらを参照する方法なども考えられる。
【0022】
具体的には、経路探索部105は、時刻t-1における経路履歴情報hist(t-1,k)及び累積スコアリストcumscr(t-1,k)を有する全てのトークンtoken(t-1,k)の集合Vt-1を用いて、時刻tにおけるノードiのトークンtoken(t,i)を求め、始端ノードSから時刻tにおけるノードiに至る最適経路を求める。集合Vt-1とは、始端ノードSから当該ノードiに至る経路において当該ノードiの1つ前に経由するノードであって時刻t-1に到達可能なノードが有するトークンの集合を表し、最適経路の探索において枝刈り処理(最適経路の候補の絞り込み)を行う場合には、枝刈りされずに残っているトークンの集合を意味する。
【0023】
始端ノードSから時刻tにおけるノードiに至る最適経路を求めるためには、経路探索部105は、まずトークン集合Vt-1に含まれる全トークンのうち、時刻tにノードiに遷移し得るトークンの集合V→(t,i)を選択する。次に、経路探索部105は、選択したトークン集合V→(t,i)が保持する全ての累積スコアリストcumscr(t-1,k) (ただしkはtoken(t-1,k)∈V→(t,i)を満たす全てのノード番号)と、上述の式2で表される遷移スコアリストtrans(k,i)とのM個の音響モデルに各々対応する値の和(累積)で求められるスコアのうち、最大のスコアを持つノードを最適ノードj*として式4により選択する。
【0024】
【数4】

【0025】
そして、経路探索部105は、最適ノードj*に対応するトークンを最適トークンtoken(t-1,j*)としてノードiに伝播させ、最適トークンtoken(t-1,j*)の累積スコアリストcumscr(t-1,j*)と、遷移スコアリストtrans(j*,i)と、時刻tにおけるノードiで抽出された音響特徴量に対する音響スコアリストscr(t,i)とを用いて、トークンtoken(t,i)の累積スコアリストcumscr(t,i)を式5により更新する。
【0026】
【数5】

【0027】
トークンtoken(t,i)の有する経路履歴情報hist(t,i)は、最適ノードj*からノードiへ至る遷移を表すアークにラベル「w」が付与されている場合、式6に表されるように、hist(t-1,j*)に「w」を追加することにより求められる。
【0028】
【数6】

【0029】
また、最適ノードj*からノードiへ至る遷移を表すアークにラベルが付与されていない場合には、式7に表されるように、hist(t-1,j*)をそのままhist(t,i)に代入することで求められる。
【0030】
【数7】

【0031】
経路探索部105は、これらの処理を、音声の入力が終了した時刻(終了時刻)「T」までの全ての時刻t(t=1,2,…,T)において行い、「t=T」である時刻tにおける終端ノードEに対応するトークンtoken(T,E)の有する経路履歴情報hist(T,E)が最適経路を示すものとしてこれを出力する。これが音声認識結果である。
【0032】
尚、ラベルが探索ネットワークの全ノードに付与されている場合、上記の方法によって求められる最適経路は、当該最適経路を経由するノードの系列を意味する。図3の例では、あるノードからあるノードへ至る遷移を表すアークに単語のラベルが付与されているが、最適経路において取り扱う最小単位が単語である場合、各単語内で各音素の状態等の最適な経路を明示的に求める必要はなく、単語単位での最適な経路を求めれば良い。このような場合においては、時刻t-1で最適ノードj*に対応するトークンtoken(t-1,j*)を伝播させることにより求められるトークンtoken(t,i)が有する経路履歴情報と同一の経路履歴情報を有するトークンtoken(t-1,k)が複数存在することが考えられる。そのようなトークンの集合をV*→(t,i)としたとき、経路探索部105は、始端ノードSから時刻tにおけるノードiに至る経路において、M個の音響モデルに各々対応する値のうち、最大の値を選択し、これを用いて、ノードiに対応するトークンtoken (t,i)の有する累積スコアリストcumscr(t,i)を更新する。具体的には、経路探索部105は、式5の代わりに以下に示す式8を用いて、累積スコアリストcumscr(t,i)を更新する。
【0033】
【数8】

【0034】
尚、kはtoken(t-1,k)∈V*→(t,i)を満たす全てのノード番号である。但し、経路探索部105は、式8を用いて累積スコアリストを更新した場合には、トークンtoken(t,i)の有する経路履歴情報hist(t,i)は、便宜的に式6又は式7を用いて更新することが望ましい。また、経路探索部105は、枝刈り条件に応じて、枝刈りする。具体的に例えば、枝刈り条件とは、各トークンに対応する累積スコアリストにおいて複数の音響モデルに対応して計算された各値の全てが閾値を下回ることである。経路探索部105は、このような枝刈り条件を満たすトークン自体を除去する。また、枝刈り条件とは、例えば、各トークンに対応する累積スコアリストにおいて少なくとも1つの音響モデルに対応して計算された値が閾値を下回ることであっても良い。経路探索部105は、このような枝刈り条件を満たす値を累積スコアリストから除去することにより、枝刈りする。
【0035】
次に、本実施の形態に係る音声認識装置100が行う音声認識処理の手順について図4を用いて説明する。音声認識装置100は、音声入力受付部101の機能により、音声入力部に入力された音声を表すアナログの音声信号の入力を受け付け、これをデジタルの音声信号に変換する(ステップS1)。音声認識装置100は、音響特徴量抽出部102の機能により、ステップS1でデジタルに変換した音声信号を用いて時刻毎の音響特徴量を抽出する(ステップS2)。音声認識装置100は、経路探索部105の機能により、ステップS2で抽出された音響特徴量と、音響モデル記憶部103に記憶された複数の音響モデルと、探索ネットワーク記憶部104に記憶された探索ネットワークとを用いて、最適経路を探索する(ステップS3)。
【0036】
図5は、図4のステップS3の処理の詳細な手順を示すフローチャートである。経路探索部105は、「t=0」である時刻tに、初期処理として、始端ノードSから時刻tにおけるノードnに至る経路上のアークに付与された単語を経路として示す経路履歴情報hist(t,n)と、複数(M個)の音響モデルに対応する音響スコアを累積して保持する累積スコアリストcumscr(t,n)とを有するトークンを生成する(ステップS10)。尚、「t=0」は、音声が入力される前の適当な時点であり、当該時刻tにおけるノードnは、始端ノードSである。このため、経路履歴情報によって示される単語はなく、累積スコアリストcumscr(t,n)の値は全て「0」である。
【0037】
経路探索部105は、時刻tを「1」インクリメントすると(ステップS11)、時刻tに到達し得るノードiを選択する。そして、経路探索部105は、始端ノードSからノードiに至る経路を経由するノード間の遷移を表すアークに付与された単語の系列を示すように経路履歴情報hist(t,i)を更新し、累積スコアリストを更新して、時刻tにおけるトークンを生成する(ステップS12)。次に、経路探索部105は、時刻tに到達し得るノードiに伝播し得る全トークンの有している経路履歴情報が異なるか否かを判断する(ステップS13)。当該判断結果が肯定的である場合(ステップS13:YES)、経路探索部105は、時刻tにおけるノードiに対して、時刻t-1における経路履歴情報hist(t-1,k)及び累積スコアリストcumscr(t-1,k)を有する全てのトークンtoken(t-1,k)の集合Vt-1を用いて、時刻tにおけるノードiのトークンtoken(t,i)を求める。このとき、経路探索部105は、上述の式5を用いて、ノードiに対応するトークンの累積スコアリストcumscr(t,i)を計算する(ステップS14)。例えば、「i=5」であるノード5に対して、図6に例示されるように、3つの音響モデルに対応して各々音響スコアが計算されている場合、ノード4の有するトークンの有する累積スコアリストが、ノード5に対応する累積スコアリストcumscr(t,5)として計算される。その後、ステップS16に進む。
【0038】
一方、ステップS13の判断結果が否定的である場合(ステップS13:NO)、経路探索部105は、時刻tにおけるノードiに対して、時刻t-1における経路履歴情報hist(t-1,k)及び累積スコアリストcumscr(t-1,k)を有する全てのトークンtoken(t-1,k)の集合Vt-1を用いて、時刻tにおけるノードiのトークンtoken(t,i)を求める。このとき、経路探索部105は、上述の式8を用いて、時刻tにおけるノードiに対応するトークンの累積スコアリストcumscr(t,i)を計算する(ステップS15)。例えば、「i=3」であるノード3に対して、図7に例示されるように、3つの音響モデルに対応して各々音響スコアが計算されている場合、一番目の音響スコアについては、ノード2の音響スコアの値が選択され、2番目の音響スコアについては、ノード3の音響スコアの値が選択され、3番目の音響スコアについては、ノード3の音響スコアの値が選択されて、累積スコアリストcumscr(t,3)が計算される。その後、ステップS16に進む。
【0039】
ステップS16では、経路探索部105は、式6又は式7を用いて、時刻tにおけるノードiの経路履歴情報を更新する。そして、経路探索部105は、時刻tにおけるノードiに対応するトークンが枝刈りの条件に合致するか否かを判断する(ステップS17)。当該判断結果が肯定的である場合(ステップS17:YES)、経路探索部105は、当該トークンを除去して(ステップS19)、ステップS18に進み、当該判断結果が否定的である場合(ステップS17:NO)、ステップS18に進む。ステップS18では、経路探索部105は、時刻tまでに到達し得るノードi以外のノードがあるか否かを判断し、当該判断結果が肯定的である場合(ステップS18:YES)、ステップS12に進み、当該ノードi以外のノードについて上述と同様にして処理を行う。一方、ステップS18の判断結果が否定的である場合(ステップS18:NO)、経路探索部105は、時刻tが終了時刻「T」に達したか否かを判断する(ステップS20)。当該判断結果が否定的である場合(ステップS20:NO)、ステップS11に進み、当該判断結果が肯定的である場合(ステップS20:YES)、経路探索部105は、「t=T」の時刻tにおける終端ノードEに対応するトークンの保持する経路履歴情報を出力する(ステップS21)。この経路履歴情報によって示される経路が最適経路であり、ステップS1で入力が受け付けられた音声の認識結果を示す。
【0040】
以上のように、本実施の形態に係わる音声認識装置によれば、複数の音響モデルを用いて単一の探索ネットワーク上において、複数の音響モデルに各々対応した音響スコアの累積を計算して最適経路を探索することで、計算コストや計算の際に使用するメモリ量の増加を抑えつつ、ロバスト性の高い音声認識を行うことが可能となる。
【0041】
なお、本発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化することができる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成することができる。例えば、実施形態に示される全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせても良い。
【0042】
上述した実施の形態において、音声認識装置100で実行される各種プログラムを、インターネット等のネットワークに接続されたコンピュータ上に記憶し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また当該各種プログラムを、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フレキシブルディスク(FD)、CD−R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供するように構成しても良い。
【0043】
上述した実施の形態において、経路探索部105が最適経路を探索する方法は、上述の例に限らず、例えば、参考文献2に示される動的計画法を用いた手法を用いても良い。
(参考文献2)L.Rabiner and B.−H.Juang,“Fundamentals of Speech Recognition”,Prentice Hall Signal Processing Series,pp.339−342,1993.
【0044】
本変形例に係る探索ネットワーク上の最適経路を探索する例について図8を用いて説明する。同図において、横軸方向はノードを表し、縦軸方向は時刻を表しており、図中の丸印は探索ネットワーク中の状態を表し、矢印は状態の遷移を表す。探索ネットワーク中の各状態(t,n)は時刻tにおけるノードnに対応している。「t=0」である時刻tにおける始端ノードSに対応する状態(0,S)を初期状態と呼び、音声入力が終了した時刻Tにおける終端ノードEに対応する状態(T,E)を終了状態と呼ぶ。また各状態は、初期状態(0,S)から当該状態(t,n)へ至る経路を示す経路履歴情報hist(t,n)と、式9で示される複数の音響モデルに対応する音響スコアを累積で保持する累積スコアリストcumscr(t,n)とを有する。
【0045】
【数9】

【0046】
ただし、各状態の経路履歴情報や累積スコアリストは、各状態に対応したものが参照できれば良く、状態自身に保持させることに限定するものではない。そのため、例えばRAMなどの主記憶部のある記憶領域に、全状態に関する経路履歴情報及び累積スコアリストを記憶させ、各状態がそれらを参照する方法なども考えられる。
【0047】
経路探索部105は、時刻t-1において、経路履歴情報hist(t-1,k)及び累積スコアリストcumscr(t-1,k)を有する状態(t-1,k)の集合Qt-1を用いて、時刻tにおけるノードiに対応する状態(t,i)における最適経路を求める。集合Qt-1とは、初期状態(0,S)から時刻tにおける状態(t,i)に至る経路において当該状態(t,i)の1つ前に経由する状態であって時刻t-1に到達可能な状態の集合を表し、最適経路の探索において枝刈り処理を行う場合には、枝刈りされずに残っている状態の集合を意味する。
【0048】
初期状態(0,S)から時刻tにおけるノードiに対応する状態(t,i)に至る最適経路を求めるには、経路探索部105は、まず時刻t-1における状態の集合Qt-1に含まれる全状態のうち、時刻に状態(t,i)に遷移し得る状態の集合Q→(t,i)を選択する。次に、経路探索部105は、選択した状態集合Q→(t,i)の全ての累積スコアリストcumscr(t-1,k)(ただしkは(t-1,k)∈Q→(t,i)を満たす全てのノード番号)と、式2で表される遷移スコアリストtrans(k,i)のM個の音響モデルに各々対応する値の和(累積)で求められるスコアのうち、最大のスコアを持つノードを最適ノードj*として式10により選択する。
【0049】
【数10】

【0050】
そして、経路探索部105は、時刻t-1での最適ノードj*に対応する状態(t-1,j*)での累積スコアリストcumscr(t-1,j*)と、遷移スコアリストtrans(j*,i)と、時刻tにおけるノードiに対応する音響スコアリストscr(t,i)とを用いて、式11により、状態(t,i)における累積スコアリストcumscr(t,i)を計算する。
【0051】
【数11】

【0052】
状態(t,i)の有する経路履歴情報hist(t,i)は、最適ノードj*からノードiへ至る遷移にラベル「w」が付与されている場合には、式12に示されるように、hist(t-1,j*)に「w」を追加することで求められる。
【0053】
【数12】

【0054】
また、最適ノードj*からノードiへ至る遷移にラベルが付与されていない場合には、式13に示されるように、hist(t-1,j*)をそのままhist(t,i)に代入することで求められる。
【0055】
【数13】

【0056】
経路探索部105は、これらの処理を、音声の入力が終了した時刻(終了時刻)「T」までの全ての時刻t(t=1,2,…,T)において行い、「t=T」である時刻tにおける終端ノードEに対応する終了状態(T,E)の有する経路履歴情報hist(T,E)が最適経路を示すものとしてこれを出力する。これが音声認識結果である。
【0057】
尚、ラベルが探索ネットワークの全ノードに付与されている場合、上記の方法によって求められる最適経路は、当該最適経路を経由するノードの系列を意味する。あるノードからあるノードへ至る遷移に単語のラベルが付与されており、最適経路において取り扱う最小単位が単語である場合、各単語内で各音素の状態等の最適な経路を明示的に求める必要はなく、単語単位での最適な経路を求めれば良い。このような場合においては、時刻t-1で最適ノードj*に対応する状態(t-1,j*)を伝播させることにより求められる状態(t,i)が有する経路履歴情報と同一の経路履歴情報を有する状態(t-1,k)が複数存在することが考えられる。そのような状態の集合をQ*→(t,i)としたとき、経路探索部105は、初期状態(0,S)から状態(t-1,k)に至る経路において、M個の音響モデルに各々対応する値のうち、最大の値を選択し、これを用いて、時刻tにおけるノードiに対応するトークン(t,i)の有する累積スコアリストcumscr(t,i)を更新する。具体的には、経路探索部105は、式11の代わりに以下に示す式14を用いて、累積スコアリストcumscr(t,i)を更新する。
【0058】
【数14】

【0059】
尚、kは(t-1,k)∈Q*→(t,i)を満たす全てのノード番号である。但し、経路探索部105は、式14を用いて累積スコアリストを更新した場合には、状態(t,i)の有する経路履歴情報hist(t,i)は、便宜的に式12又は式13を用いて更新することが望ましい。また、経路探索部105は、枝刈り条件に応じて、枝刈りする。具体的に例えば、枝刈り条件とは、各状態に対応する累積スコアリストにおいて複数の音響モデルに対応して計算された各値の全てが閾値を下回ることである。経路探索部105は、このような枝刈り条件を満たす状態自体を除去する。また、枝刈り条件とは、例えば、各状態に対応する累積スコアリストにおいて少なくとも1つの音響モデルに対応して計算された値が閾値を下回ることであっても良い。経路探索部105は、このような枝刈り条件を満たす値を累積スコアリストから除去することにより、枝刈りする。
【0060】
本変形例に係る音声認識装置100が行う音声認識処理の手順は、図4に示されるものと同様である。ステップS3の処理の手順も図5に示されるものと略同様であるが、本変形例においてはトークンの有する経路履歴情報及び累積スコアリストの代わりに、状態の有する経路履歴情報及び累積スコアリストを用いて計算を行う点が、上述の第1の実施の形態と異なる。計算の方法自体は第1の実施の形態と同様である。
【0061】
以上のような構成によっても、複数の音響モデルを用いて単一の探索ネットワーク上において、複数の音響モデルに各々対応した音響スコアの累積を計算して最適経路を探索することで、計算コストや計算の際に使用するメモリ量の増加を抑えつつ、ロバスト性の高い音声認識を行うことが可能となる。
【0062】
上述した実施の形態及び変形例においては、経路探索部105は、枝刈りは行わなくても良い。
【0063】
上述した実施の形態及び変形例においては、あるノードからあるノードに至る遷移に、ラベルとして単語を付与した場合に経路探索部105が行う処理について説明したが、これに限らず、ノード自体にラベルとして単語を付与するようにした場合も経路探索部105は同様にして処理を行う。
【0064】
上述した実施の形態及び変形例においては、経路探索部105は、ノードに対応させて音響スコアを計算するようにしたが、これに限らず、アークに対応させて音響スコアを計算するようにしても良い。
【符号の説明】
【0065】
100 音声認識装置
101 音声入力受付部
102 音響特徴量抽出部
103 音響モデル記憶部
104 探索ネットワーク記憶部
105 経路探索部

【特許請求の範囲】
【請求項1】
同一の構造を有する複数の音響モデルを記憶する第1記憶部と、
始端を表す始端ノードと、終端を表す終端ノードと、前記始端ノード及び終端ノードの間の少なくとも1つのノードとを有し、複数の前記音響モデルに共通の探索ネットワークを記憶する第2記憶部と、
音声の入力を受け付ける受付部と、
前記音声を用いて、音響特徴量を抽出する抽出部と、
前記音響特徴量と、複数の前記音響モデルと、前記探索ネットワークとを用いて、前記探索ネットワーク上で前記始端ノードから前記終端ノードに至るまでに経由するノードの系列を示す各経路に対して、複数の前記音響モデルのそれぞれに対応してスコアを計算する計算部と、
各前記経路のうち少なくとも1つの音響モデルに対応する前記スコアが最大である第1経路を選択することにより、前記探索ネットワーク上で前記始端ノードから前記終端ノードに至る最適な経路である前記第1経路を探索する探索部と、
前記音声の認識結果である前記第1経路を示す情報を出力する出力部とを備える
ことを特徴とする音声認識装置。
【請求項2】
前記第1記憶部は、隠れマルコフモデルで構成され且つ複数の前記音響モデル間で対応する前記隠れマルコフモデルの状態数と状態遷移の構造とが共通である前記音響モデルを記憶する
ことを特徴とする請求項1に記載の音声認識装置。
【請求項3】
前記計算部は、前記音響特徴量と、複数の前記音響モデルと、前記探索ネットワークとを用いて、前記始端ノードから前記終端ノードに至るまでに経由するノード毎に、複数の前記音響モデルのそれぞれに対応して第1スコアを計算し、前記始端ノードから当該ノードに至る第1経路を経由するノードに対応して各々計算した前記第1スコアを累積することにより、前記第1経路に対して複数の前記音響モデルのそれぞれに対応した前記スコアを計算し、
前記探索部は、前記始端ノードから前記終端ノードに至るまでに経由するノード毎に前記始端ノードから当該ノードに至る最適な経路を順次探索するものであり、前記始端ノードから、前記終端ノードに至るまでに経由するノードである第1ノードの1つ前に経由するノードであって前記第1ノードに到達し得る全ての第2ノードに至る各第2経路に対して少なくとも1つの音響モデルに対応する前記スコアが最大となる第3経路を選択することにより、前記始端ノードから前記第3経路を経由して前記第1ノードに至る最適な経路を探索する
ことを特徴とする請求項1に記載の音声認識装置。
【請求項4】
前記計算部は、前記音響特徴量と、複数の前記音響モデルと、前記探索ネットワークとを用いて、前記始端ノードから前記終端ノードに至るまでに経由するノード毎に、複数の前記音響モデルのそれぞれに対応して第1スコアを計算し、前記始端ノードから当該ノードに至る第1経路を経由するノードに対応して各々計算した前記第1スコアを累積することにより、前記第1経路に対して前記スコアを計算し、
前記探索部は、前記始端ノードから前記終端ノードに至るまでに経由するノード毎に前記始端ノードから当該ノードに至る最適な経路を順次探索するものであり、前記始端ノードから、前記終端ノードに至るまでに経由するノードである第1ノードに至る経路である第2経路が1つである場合、当該第2経路に対して複数の前記音響モデルのそれぞれに対応して計算された前記スコアと、前記始端ノードから前記第1ノードの1つ前に経由する第2ノードに至る第3経路に対して複数の前記音響モデルのそれぞれに対応して計算された前記スコアとのうち、前記音響モデル毎に最大のスコアを選択し、選択したスコアを前記第2経路に対するスコアに更新して、前記始端ノードから前記第1ノードに至る最適な経路である前記第2経路を探索する
ことを特徴とする請求項1に記載の音声認識装置。
【請求項5】
前記ノード及び前記ノード間の遷移を表すアークのうち少なくとも一方の全部又は一部に、音素及び単語のうち少なくとも一方であるラベルが付与され、
前記出力部は、前記第1経路において前記始端ノードから前記終端ノードに至るまでに経由するノード及び前記ノード間の遷移を表すアークのうち少なくとも一方の全部又は一部に付与された前記ラベルの系列を示す前記情報を出力する
ことを特徴とする請求項1に記載の音声認識装置。
【請求項6】
同一の構造を有する複数の音響モデルを記憶する第1記憶部と、始端を表す始端ノードと、終端を表す終端ノードと、前記始端ノード及び終端ノードの間の少なくとも1つのノードとを有し、複数の前記音響モデルに共通の探索ネットワークを記憶する第2記憶部と、受付部と、抽出部と、計算部と、探索部と、出力部とを備える音声認識装置で実行される音声認識方法であって、
前記受付部が、音声の入力を受け付けるステップと、
前記抽出部が、前記音声を用いて、音響特徴量を抽出するステップと、
前記計算部が、前記音響特徴量と、複数の前記音響モデルと、前記探索ネットワークとを用いて、前記探索ネットワーク上で前記始端ノードから前記終端ノードに至るまでに経由するノードの系列を示す各経路に対して、複数の前記音響モデルのそれぞれに対応してスコアを計算するステップと、
前記探索部が、各前記経路のうち少なくとも1つの音響モデルに対応する前記スコアが最大である第1経路を選択することにより、前記探索ネットワーク上で前記始端ノードから前記終端ノードに至る最適な経路である前記第1経路を探索するステップと、
前記出力部が、前記音声の認識結果である前記第1経路を示す情報を出力するステップとを含む
ことを特徴とする音声認識方法。
【請求項7】
同一の構造を有する複数の音響モデルを記憶する第1記憶部と、始端を表す始端ノードと、終端を表す終端ノードと、前記始端ノード及び終端ノードの間の少なくとも1つのノードとを有し、複数の前記音響モデルに共通の探索ネットワークを記憶する第2記憶部とを備える音声認識装置の有するコンピュータを、
音声の入力を受け付ける受付手段と、
前記音声を用いて、音響特徴量を抽出する抽出手段と、
抽出された前記音響特徴量と、複数の前記音響モデルと、前記探索ネットワークとを用いて、前記探索ネットワーク上で前記始端ノードから前記終端ノードに至るまでに経由するノードの系列を示す各経路に対して、複数の前記音響モデルのそれぞれに対応してスコアを計算する計算手段と、
各前記経路のうち少なくとも1つの音響モデルに対応する前記スコアが最大である第1経路を選択することにより、前記探索ネットワーク上で前記始端ノードから前記終端ノードに至る最適な経路である前記第1経路を探索する探索手段と、
前記音声の認識結果である前記第1経路を示す情報を出力する出力手段と
して機能させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2012−63651(P2012−63651A)
【公開日】平成24年3月29日(2012.3.29)
【国際特許分類】
【出願番号】特願2010−208760(P2010−208760)
【出願日】平成22年9月17日(2010.9.17)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】