説明

音響モデル学習装置及びコンピュータプログラム

【課題】SVMを用いた音響モデルの学習装置を提供する。
【解決手段】学習装置は、学習データ記憶部102と、各音素の内部状態のSVMパラメータを記憶するSVMパラメータ記憶部116と、学習データの各々と、対応する音響モデル内の内部状態との間を初期アライメントする初期アライメント処理部110と、初期アライメント済の学習データを記憶する、書換え可能な記憶部112と、アライメント済の学習データを用いて音響モデルの各内部状態のSVMの学習を行なうアライメント処理部118と、学習データの各々について、SVM学習部114により学習された音響モデルを用いて各音響モデル内の内部状態とアライメントを行ない、記憶部112の学習データを更新する学習データ更新部122と、終了条件が成立するまで、SVM学習と学習データのアライメントとを繰返し実行させる比較部126とを含む。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、音響モデルの学習装置に関し、特に、確率SVM(Support Vector Machine)を用いた音響モデルの学習を行なうことができる学習装置に関する。
【背景技術】
【0002】
人間とコンピュータシステムとの間のインタフェイスとして、音声を使うものが人間にとって使いやすいものと考えられている。このような音声を用いたマン・マシン・インタフェイスにおいて必須なのは、音声認識技術である。音声認識にはさまざまな技術があるが、現在の主流は、多数の音声コーパスを用いてHMM(隠れマルコフモデル)の学習を行ない、音声から得られた特徴量を発生した尤度が最も高い音素列を統計的に推定する技術である。HMMを用いた音声認識技術によれば、一定の認識精度が得られ、実用の域に達していると思われる。
【0003】
しかし一方で、HMMを用いた音声認識技術では、精度は一定程度まで高められるものの、それ以上に精度を高めるのはきわめてむずかしい。そのため、HMMとは異なる技術を用いることにより、HMMによる音声認識技術を補完することができる技術が求められている。一方、そのような技術を開発するに当たり、これまでにHMMを用いた音声認識技術で使用された仕組みに対して大きな変更を行なうことなく、新たな枠組みを作ることができると、さらに望ましい。
【0004】
そのような観点でHMMに代わり得るものとして考えられるものに、SVMがある。元々、SVMは、データが2つのクラスのいずれに属するかを識別するためのものとして開発されてきた。そしてそうした機能において、SVMは優れた識別性能を発揮できることが知られている。そこで、SVMを音声認識技術に適用することができれば、HMMを補完し、音声認識の性能をより高めることができる。特に最近は、例えば後掲の非特許文献1に示されるように、SVMの識別結果として、あるクラスに標本が属する確率を出力可能なもの(確率SVM)に関する研究が進んでいる。それらを使用すれば、HMMに代えてSVMを使用できる可能性が高い。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】ティン・ファン・ウー他、ペアワイズ・カップリングによる、マルチクラス分類のための確率推定、ジャーナル・オブ・機械学習研究、第5巻、pp.975−1005、2004年(Ting-Fan Wu et al., Probability Estimates for Multi-class Classification by Pairwise Coupling, Journal of Machine Learning Research, 5 (2004) 975-1005)
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかし、SVMを音声認識に使用するのは今まで困難であった。それは、音声が本質的に時間的に変化するものであるのに対し、SVMは静的な対象を扱うものであることに起因する。この点について、以下に説明する。
【0007】
図1を参照して、2つの単語「さかた」(単語42)と「たさか」(単語44)とを識別することを考える。ここでは、説明を分かりやすくするため、便宜的に、「さ」を「●」及び「○」で示し、「か」を「◆」及び「◇」で示し、「た」を「■」及び「□」で示すものとする。これらのうち、黒い記号は単語42からのものであることを示し、白い記号は単語44からのものであることを示す。
【0008】
これらの音から得られる特徴ベクトルを、特徴量空間20の内部に配置することを考える。すると、いずれの単語からのものも、「さ」の特徴量は部分空間50を中心に位置し、「か」の特徴量は部分空間52を中心に位置し、「た」の特徴量は部分空間54を中心に位置するであろう。SVMは、特徴量空間内で2つのクラスに属する単語の特徴量からなるデータ点の集合の間に考えられる超平面のうち、異なるクラスのデータ点を区別し、かつ各データ点からの距離が最大となるものを学習データから定める。したがって、図1に示すように本来は異なる2つの単語から得られる音響特徴ベクトルが、特徴量空間で互いに同じような領域に交じり合って存在しているときには、これらを互いに識別することができない。
【0009】
こうした問題を解決し、HMMを用いた従来の音声認識技術で、HMMに代えてSVMを用いることができれば非常に望ましい。
【0010】
それゆえに本発明の目的は、従来のHMMに代えてSVMを用いた音響モデルの学習装置及びそのためのコンピュータプログラムを提供することである。
【課題を解決するための手段】
【0011】
本発明の第1の局面に係る音響モデル学習装置は、各々が一連の音響特徴ベクトルからなり、かつ各々にトランスクリプションが付された複数の学習データを記憶するための学習データ記憶手段と、各音素の音響モデルのパラメータを記憶するための音響モデル記憶手段とを含む。音響モデルの各々は、マルコフ過程に基づく、N個の内部状態(Nは自然数)からなるモデルである。各内部状態は、音声データが当該内部状態から出力されたものである尤度を推定するSVMに対応付けられる。音響モデル学習装置はさらに、複数の学習データの各々の各部と、対応する音響モデル内の内部状態との間の初期アライメントを準備する初期化手段と、初期化手段により初期化されたアライメント済の学習データを記憶する、書換え可能なアライメント済データ記憶手段と、アライメント済データ記憶手段に記憶されたアライメント済の学習データを用いて、音響モデルの各内部状態のSVMの学習を行なう学習手段と、アライメント済データ記憶手段に記憶された学習データの各々について、学習手段により学習された音響モデルを用いて各音響モデル内の内部状態とアライメントを行なうことで、アライメント済データ記憶手段に記憶された学習データを更新するアライメント手段と、アライメント手段によるアライメントに関連する終了条件が成立するまで、学習手段とアライメント手段とによる学習処理及びアライメント処理を繰返し実行させる繰返制御手段とを含む。
【0012】
最初に学習データが学習データ記憶手段に記憶される。学習データの各々は一連の音響特徴ベクトルとそのトランスクリプションとを含む。この学習データの各々について、その音素と、対応する音響モデルとの初期的なアライメントが初期化手段により行なわれる。この初期アライメントされた学習データを用い、各音響モデルの内部状態を構成するSVMの学習が学習手段により行なわれる。学習が終わったSVMにより規定される音響モデルを用い、アライメント手段によって、再度、学習データの各々の一連の音響特徴ベクトルと、トランスクリプションとのアライメントが行なわれる。アライメント後の学習データを用いて、さらにSVMの学習が行なわれる。このように音響モデルを構成するSVMの学習と、学習後のSVMにより規定される音響モデルを用いた学習データのアライメントとが、繰返し、所定の終了条件が成立するまで行なわれる。この結果得られるSVMにより規定される音響モデルは、HMMを用いたものと同様、学習データに基づいた学習により、一連の音響特徴ベクトルについての音素の識別を信頼性を持って行なうことができる。しかも、これらSVMを用いた音響モデルはHMMと同様の構成であるため、HMMを用いた音響モデルを使用する従来の音声認識装置等において、HMMを用いたものに代えて使用することができる。
【0013】
その結果、従来のHMMに代えてSVMを用いた音響モデルの学習装置及びそのためのコンピュータプログラムを提供することができる。
【0014】
好ましくは、初期化手段は、複数の学習データの各々を、対応するトランスクリプションに含まれる音素数と、Nとの積とにより定まる数に等分することにより、初期アライメントを準備する手段を含む。
【0015】
初期アライメントとして、このような簡単なものから出発しても良い。初期化が簡単な処理で行なえるという効果がある。
【0016】
さらに好ましくは、音響モデルの各内部状態から後続する内部状態に状態が遷移する遷移確率と、各内部状態で状態がループする確率とは、互いに等しく選ばれている。
【0017】
状態間の遷移確率と、内部状態で状態がループする確率とが互いに等しく選ばれているため、学習時の計算量を削減することができる。
【0018】
より好ましくは、アライメント手段は、アライメント済データ記憶手段に記憶された学習データの各々について、当該学習データに含まれる音響特徴ベクトルの各々と、学習手段による学習後の各音響モデル内の内部状態とを、ダイナミックプログラミングによって最大の尤度が得られるようにアライメントし、当該アライメントの結果によりアライメント済データ記憶手段に記憶された学習データを更新する更新手段を含む。
【0019】
終了条件は、ダイナミックプログラミングにより学習データの全体をアライメントした際の尤度と、直前の繰返し時に得られた尤度との差の絶対値が所定の値より小さいという条件であってもよいし、繰返し制御手段による繰返し数が所定の数に達したという条件であってもよい。
【0020】
本発明の第2の局面に係るコンピュータプログラムは、各々が一連の音響特徴ベクトルからなり、かつ各々にトランスクリプションが付された複数の学習データを記憶するための学習データ記憶装置に接続されるコンピュータを、各音素の音響モデルのパラメータを記憶するための音響モデル記憶手段として機能させるコンピュータプログラムである。音響モデルの各々は、マルコフ過程に基づく、N個の内部状態(Nは自然数)からなるモデルであり、各内部状態は、音声データが当該内部状態から出力されたものである尤度を推定するSVMに対応付けられる。このコンピュータプログラムは、コンピュータをさらに、複数の学習データの各々の各部と、対応する音響モデル内の内部状態との初期アライメントを準備する初期化手段と、初期化手段により初期化されたアライメント済の学習データを記憶する、書換え可能なアライメント済データ記憶手段と、アライメント済データ記憶手段に記憶されたアライメント済の学習データを用いて、音響モデルの各内部状態のSVMの学習を行なう学習手段と、アライメント済データ記憶手段に記憶された学習データの各々について、学習手段により学習された音響モデルを用いて各音響モデル内の内部状態とアライメントを行なうことで、アライメント済データ記憶手段に記憶された学習データを更新するアライメント手段と、アライメント手段によるアライメントに関連する終了条件が成立するまで、学習手段とアライメント手段とによる学習処理及びアライメント処理を繰返し実行させる繰返制御手段として機能させる。
【図面の簡単な説明】
【0021】
【図1】SVMによる音声認識の問題点を説明するための図である。
【図2】本発明の1実施の形態における、SVMによる音声認識の原理を説明するための図である。
【図3】本発明の実施の形態において用いられる音響モデルの内部構造を模式的に説明する図である。
【図4】本発明の実施の形態に係る、音響モデルの学習装置の機能的ブロック図である。
【図5】本発明の実施の形態における学習データを説明するための模式図である。
【図6】本発明の実施の形態における、学習データの初期アライメント処理を説明するための模式図である。
【図7】本発明の実施の形態における、学習過程における学習データの分割のアライメントの変化を説明するための模式図である。
【図8】SVMによる音響モデルの学習過程におけるダイナミックプログラミングを説明するための模式図である。
【図9】本発明の一実施の形態に係る音響モデルの学習装置を実現するコンピュータシステムの外観図である。
【図10】図9に示すコンピュータのブロック図である。
【発明を実施するための形態】
【0022】
以下の説明及び図面では、同一の部品には同一の参照番号を付してある。したがって、それらについての詳細な説明は繰返さない。
【0023】
[構成]
既に説明したように、音声データが時間による変化を伴うものであるのに対し、従来のSVMはそのような時間的な変化に対応したものではなかった。そこで本実施の形態では、SVMの取り扱う音響特徴ベクトルに、時間的要素を組込むことで上記した従来の問題点を解決する。この点について図2を参照して説明する。
【0024】
図1と同様、2つの単語42及び44を識別する問題を考える。ここでも説明を簡明にするため、音として「さ」「か」及び「た」の3つを考えるものとする。
【0025】
音声には時間的変化が伴うことについては前述したとおりである。上記した2つの単語42及び44についていうと、それらを構成する音は同じだが、その出現順序が異なっている。例えば時間t=t0、t1及びt2に上記した2つの単語42及び44の各音が発音されたものとする。
【0026】
時刻t=t0において、単語42及び44から得られる音響特徴ベクトルを特徴量空間に配置してみると、図2(A)に示すようになるであろう。すなわち、単語42から得られる音響特徴量はもっぱら「さ」という音のものとなり、部分空間50を中心とする領域に位置する。一方、単語44から得られる音響特徴量はもっぱら「た」という音のものとなり、部分空間54を中心とする領域に位置するであろう。この時点では部分空間52を中心とする領域に位置する音響特徴量は、理想的にはほとんど存在しないであろう。
【0027】
同様に、時刻t=t1では、図2(B)に示すように、単語42の「か」という音からの音響特徴ベクトルは部分空間52を中心とした領域に位置し、単語44の「さ」という音からの音響特徴ベクトルは部分空間50を中心とした領域に位置する。この時点では、部分空間54を中心とする領域に位置する音響特徴ベクトルはほとんど存在しない。
【0028】
時刻t=t2では、図2(C)に示すように、単語42の「た」という音からの音響特徴ベクトルは部分空間54を中心とした領域に位置し、単語44の「か」という音からの音響特徴ベクトルは部分空間52を中心とした領域に位置する。この時点では、部分空間50を中心とする領域に位置する音響特徴ベクトルはほとんど存在しない。
【0029】
以上から、音響特徴量に時間的な要素を入れることにより、同じ音を構成要素として含む単語であっても、容易に識別をすることができることが分かる。問題は、これをどのようにして実現するか、である。単純に時間を音響特徴量に含ませると、かえって計算量が非常に増大することになり好ましくない。そこで本実施の形態では、各音素の音響モデルを、一定数の内部状態を持つ、HMMと同様のものとし、音声データから得られた音響特徴ベクトルに、その音響特徴量が得られたフレームが、音響モデルのどの内部状態に対応するかを示す情報を付加することとする。
【0030】
図3を参照して、本実施の形態で使用される音響モデル60、62は、いずれも従来使用されている3状態のHMM音響モデルと同様の、マルコフ過程に基づく内部構造を持っている。例えば音響モデル60は、音素Sに対応するものであり、3つの内部状態S11,S12及びS13からなるものとする。これら内部状態S11,S12及びS13はそれぞれ、HMMとは異なり、この音素の各状態から処理対象の音響(音響特徴ベクトル)が得られる確率を出力するSVMにより実現される。
【0031】
この音響モデルでは、これら3つの状態S11,S12及びS13についてそれぞれ、各状態をループする状態遷移70,72及び74と、状態S11から状態S12への状態遷移80、状態S12から状態S13への状態遷移82、及び状態S13から次の音素の先頭の内部状態への状態遷移84とが想定され、これらにはそれぞれ定数である確率=0.5が割当てられている。例えば、状態S11からは、状態S11への状態遷移70及び状態S12への状態遷移80が想定されており、これらに割当てられる確率はいずれも0.5である。
【0032】
他の音素、例えば音素Sに対する音響モデル62についても、図3(B)に示すように、音響モデル60と同様の、内部状態S21,S22及びS23からなる構造を持つ。各内部状態から音響特徴量が得られる尤度を算出するためのSVMを規定するパラメータが音響モデル60と異なっている点のみが音響モデル60との相違である。
【0033】
図4を参照して、音響モデル60等の学習を行なうための学習装置100は、学習データを保持する学習データ記憶装置102に接続されて使用される。本実施の形態では、学習データは、各々にトランスクリプションが付された音声データを含む。例えば図5(A)を参照して、学習データ中の音声データ150には、トランスクリプション152が付される。同様に、図5(B)に示す学習データ中の音声データ160には、トランスクリプション162が付される。音声データ150及び160等は、図示しないが、所定フレーム長及び所定シフト長でフレーム化された音声データの各フレームから算出された一連の音響特徴ベクトルからなる。各音響特徴ベクトルは、対応するフレームの音声データから算出されたフレーム音響特徴量(MFCCパラメータ、パワー、F0,F1等)を含む。トランスクリプションは、本実施の形態では音素ごとの表現とする。本実施の形態では、音声データとトランスクリプションとのアライメントはまだされていないものとする。
【0034】
再び図4を参照して、学習装置100は、学習データ記憶装置102に記憶された学習データの各々について、音声データとトランスクリプションの各音素との初期アライメントを行なう初期アライメント処理部110と、初期アライメント処理部110によりアライメントされた学習データを記憶する、初期アライメント後の学習データ記憶部112と、学習データ記憶部112に記憶された初期アライメント後の学習データを用いた学習により、各音素に対して予め準備された音響モデルの各内部状態を構成するSVMの学習を行なうSVM学習部114と、SVM学習部114により学習された音響モデルの内部状態のSVMのパラメータを記憶する、書換可能な記憶装置からなるSVMパラメータ記憶部116とを含む。
【0035】
学習装置100はさらに、SVMパラメータ記憶部116に記憶されたSVMパラメータにより規定される音響モデルを用いて、学習データ記憶部112に記憶されたアライメント済の学習データを、ダイナミックプログラミングを用いて各学習データのトランスクリプションの音素とアライメントし、アライメント済の学習データ120を出力するアライメント処理部118と、アライメント処理部118によりアライメントされたアライメント済の学習データ120でアライメント済学習データ記憶部112の内容を更新するための学習データ更新部122とを含む。
【0036】
学習装置100はさらに、アライメント処理部118による学習データのアライメント時に、アライメント処理部118により算出されるアライメントの結果の尤度(セグメンテーション確率)を、1回前の繰返し時に算出されたセグメンテーション確率と比較し、両者の差異が所定のしきい値未満であるか、又は繰返し処理が所定回数以上であれば繰返しの終了条件が成立したものとして、アライメント処理部118によるアライメント処理、学習データ更新部122による更新処理、及びSVM学習部114による学習処理を終了させる比較部126と、アライメント処理部118により算出されたセグメンテーション確率を、比較部126による次回の繰返し時の比較のために記憶するためのセグメンテーション確率記憶部128とを含む。
【0037】
[動作]
以上、学習装置100の構成について説明したが、個の学習装置100は以下のように動作する。
【0038】
図4を参照して、最初に、学習データ記憶装置102に学習データを記憶させる。学習データは、ある音声データと、その音声データに対応するトランスクリプションとを含む。このときの2つの学習データ「SAKATA」と「TASAKA」に関する音声データ及びトランスクリプションの組合せを図5(A)(B)にそれぞれ示す。
【0039】
図5(A)を参照して、学習データ「SAKATA」は、音声データ150と、対応するトランスクリプション152とを含む。図5(B)に示す学習データ「TASAKA」も同様に、音声データ160とトランスクリプション162とを含む。
【0040】
再び図4を参照して、初期アライメント処理部110は、学習データ記憶装置102に記憶された各学習データに対して初期アライメント処理を実行し、アライメント後の学習データをアライメント済学習データ記憶部112に記憶させる。初期アライメント処理部110による初期アライメントの方法は、あくまで初期のものである。したがって、音声データとトランスクリプションとのアライメントとして不合理でないものであればどのようなものでもよい。本実施の形態では、初期アライメント処理部110は、音声データ150及び160をそれぞれ、対応するトランスクリプション152及び162に含まれる音素数で、互いに等しい長さの部分に分割する。さらに初期アライメント処理部110は、分割された各音素に相当する音声データ部分を、SVMパラメータ記憶部116で想定されている、音響モデル内の内部状態の数の部分領域に分割する。したがって、学習データは、トランスクリプションに含まれる音素数と各音響モデルに含まれる内部状態数との積により定まる数だけに分割される。このように分割した部分領域の各々を、トランスクリプションを構成する各音素のモデルの内部状態に順番にアライメントする。
【0041】
図6を参照して、この初期アライメントについて具体的に説明する。例えば音声データ150の分割について考える。音声データ150に対応するトランスクリプション152に含まれる音素の数は6つである。したがって、図6(A)に示すように、初期アライメント処理部110は音声データ150を、まず各音素に対応する6つの音声データ部分170,172、174,176,178、及び180に分割する。図6(B)に示す音響データ部分170も同様に、6つの音声データ部分190,192,194,196,198及び200に分割される。
【0042】
さらに、例えば音声データ部分170は、3つの内部状態を持つ、この音声データ部分170に対応する音素の音響モデルにより表されるので、初期アライメント処理部110は、音声データ部分170を3つの部分領域200,202及び204に分割する。これら部分領域200、202及び204がそれぞれ、音素「S」に対応する音響モデルを構成する3つの内部状態に対応する。初期アライメント処理部110はこのアライメントを表現するために、音声データ150に含まれる各音響特徴ベクトルについて、そのベクトルに対応するフレームが、どの音素のどの内部状態に対応するかを示す符号を要素として追加する。ここでいう「符号」とは、例えば図3に示す内部状態S11,S12及びS13等を示す何らかの符号のことをいう。したがって、ある音声データを構成する一連の音響特徴ベクトルのうち、同じ音素の同じ内部状態(例えば内部状態S12)とアライメントされた音響特徴ベクトルには、「S12」を示す符号が要素として付加される。図6(A)に示す各音声データ部分172,174,176,178,及び180、並びに図6(B)に示す各音声データ部分190,192,194,196,198、及び200も同様である。
【0043】
注意すべきは、ここでのアライメントはあくまで初期アライメントなので、その正確さは問わないということである。もっとも、ここでのアライメントがより正確なものとなっていると、次以降の繰返し処理が早く収束するという効果がある。したがって、何らかの形で音声データとトランスクリプションとのアライメントが済んでいるような学習データがあれば、それをここで用い、そのアライメントにしたがって初期アライメントを与えることが望ましい。
【0044】
再び図4を参照して、SVM学習部114は、アライメント済学習データ記憶部112に格納された初期アライメント済の学習データを用い、各音響モデルを構成するSVMの学習を行なう。このときのSVMの学習は、特徴ベクトルに付加した符号、すなわち音素の内部状態をクラスとして行なう。この学習の結果得られたSVMパラメータはSVMパラメータ記憶部116に記憶される。このSVMの学習のアルゴリズムは、既存のものを用いればよい。
【0045】
SVM学習部114によるSVMの学習が終了すると、アライメント処理部118が、SVMパラメータ記憶部116に記憶されたSVMにより規定される音響モデルを用い、アライメント済学習データ記憶部112に記憶された学習データの再アライメントを行なう。この場合のアライメントは、ダイナミックプログラミングにより、学習データごとに行なわれる。
【0046】
図8を参照して、このときのダイナミックプログラミング処理について説明する。ここでは、説明を容易にするために、ある1つの学習データのうちの、連続する3つの音素について、音響モデルの内部状態との間のアライメントを行なう場合について説明する。ここでは、アライメントされる3つの音素をそれぞれS,S,Sとし、それらの内部状態をS11,S12及びS13,S22,S23及びS23,並びにS31,S32及びS33とする。既に述べたように、各音響モデルにおいて、ある内部状態から次の内部状態に遷移する確率は0.5、ある内部状態をループする確率も0.5とされている。ここでは、アライメント対象となる音響特徴ベクトルをX、X、…,X,…,Xとする。
【0047】
まず、音響特徴ベクトルの第1フレームの音響特徴ベクトルXが、内部状態S11とアライメントされる。続いて、次の音響特徴ベクトルXが内部状態S11をループして出力される確率と、次の内部状態S12に遷移して出力される確率とが算出され、それぞれ記録される。さらに、これら到達された内部状態S11及びS12の各々について、次の音響特徴ベクトルXがその内部状態をループして出力される確率と、次の内部状態S13に遷移して出力される確率とが、学習済のSVMを用いて算出され、記録される。このような処理が、可能な経路の各々について次々に算出される。このとき、ある内部状態に到達する経路が複数あるときには、最も尤度が高かった経路を選択して、選択された経路の各々について算出された確率を全て乗算する。そして、最後の音響特徴ベクトルXと最後の音素の音響モデルの最後の内部状態S33とが対応付けられた時点で、その位置に到達するまでの経路の中で最も尤度の高かった経路が最適経路として選択され、選択された経路にしたがって、音声フレームと音響モデルの内部状態とのアライメントが行なわれる。
【0048】
図8に示す例では、経路230が選択されたものとする。この経路に沿って、例えば音響特徴ベクトルX、X,X,及びXはそれぞれ、内部状態S11,S11,S21,及びS33とアライメントされたことになる。
【0049】
このときの、図に示す音声データ150のアライメント状態の変化の例を図7に示す。図7を参照して、再アライメント後の音声データ150において、各音声データ部分170,172,174,176,178及び180(すなわち各音素)とアライメントされた部分の境界は、上記した再アライメント処理の結果、通常は前後に移動する。さらに、各音素の内部状態とアライメントされた部分の境界も、学習後のSVMによる推定値に基づいて変化する。
【0050】
なお、上記したダイナミックプログラミング処理では、計算量を少なくするため、経路探索の途中で尤度がある値よりも低くなった経路についてはそれ以上の計算を行なわないようにしてもよい。
【0051】
音響特徴ベクトルの系列をXt(t=1,…,T)、ある状態系列における時刻tにおける内部状態をSqt、内部状態SqtのSVMにより音響特徴ベクトルXがその内部状態Sqtのクラスに属するとされる推定値をP(X|Sqt)とすると、アライメント処理部118による処理は、以下の式により算出される尤度を最大とする状態系列qを求めることに相当する。
【0052】
【数1】

アライメント処理部118は、このような処理を、アライメント済学習データ記憶部112に記憶された全ての学習データに対して行ない、各音響特徴ベクトルに含まれている、内部状態を示す要素の値を、再アライメントによりその音響特徴ベクトルとアライメントされた内部状態を示す値で更新し、学習データ120として出力する。これら再アライメント後の学習データ120は、記憶装置に蓄積される。
【0053】
アライメント処理部118による再アライメント処理がアライメント済学習データ記憶部112に記憶されている全ての学習データに対して行なわれると、上記した式(1)を全学習データに対して乗算した値が得られる。比較部126は、最初の繰返し時には、この値をセグメンテーション確率としてセグメンテーション確率記憶部128に記憶させる。
【0054】
学習データ更新部122は、アライメント処理部118により再アライメントされた学習データ120でアライメント済学習データ記憶部112内の学習データを更新する。
【0055】
続いて、2回目の繰返し処理が開始される。すなわち、SVM学習部114は、アライメント済学習データ記憶部112に記憶された再アライメントされた学習データを用い、各音素の各内部状態のSVMの学習を行なう。得られたSVMパラメータにより規定される音響モデルはSVMパラメータ記憶部116に記憶される。アライメント処理部118は、前述した手続と同じ手続により、アライメント済学習データ記憶部112の学習データの再アライメントを行なう。このとき算出されるセグメンテーション確率は比較部126に与えられる。比較部126は、このセグメンテーション確率とセグメンテーション確率記憶部128に記憶された前回の繰返し時のセグメンテーション確率とを比較する。両者の差があるしきい値より小さければ、比較部126はアライメント処理部118、SVM学習部114及び学習データ更新部122による繰返し処理を終了させる。両者の差がしきい値以上であれば、比較部126は、SVM学習部114、アライメント処理部118及び学習データ更新部122を制御し、既に述べた処理をさらに繰返させる。
【0056】
こうして、セグメンテーション確率が収束するか、又は所定回数だけ繰返し処理が終了した時点で、学習装置100により動作が完了する。SVMパラメータ記憶部116に記憶された音響モデルが、確率SVMを用いた音響モデルとして出力される。
【0057】
[コンピュータによる実現]
この実施の形態のシステムは、コンピュータハードウェアと、そのコンピュータハードウェアにより実行されるプログラムと、コンピュータハードウェアに格納されるデータとにより実現される。図9はこのコンピュータシステム330の外観を示し、図10はコンピュータシステム330の内部構成を示す。
【0058】
図9を参照して、このコンピュータシステム330は、FD(フレキシブルディスク)ドライブ352及びCD−ROM(コンパクトディスク読出専用メモリ)ドライブ350を有するコンピュータ340と、キーボード346と、マウス348と、モニタ342とを含む。
【0059】
図10を参照して、コンピュータ340は、FDドライブ352及びCD−ROMドライブ350に加えて、CPU(中央処理装置)356と、CPU356、FDドライブ352及びCD−ROMドライブ350に接続されたバス366と、ブートアッププログラム等を記憶する読出専用メモリ(ROM)358と、バス366に接続され、プログラム命令、システムプログラム、及び作業データ等を記憶するランダムアクセスメモリ(RAM)360とを含む。コンピュータシステム330はさらに、プリンタ344を含んでいる。
【0060】
ここでは示さないが、コンピュータ340はさらにローカルエリアネットワーク(LAN)への接続を提供するネットワークアダプタボードを含んでもよい。
【0061】
コンピュータシステム330に音響モデルの学習装置としての動作を行なわせるためのコンピュータプログラムは、CD−ROMドライブ350又はFDドライブ352に挿入されるCD−ROM362又はFD364に記憶され、さらにハードディスク354に転送される。又は、プログラムは図示しないネットワークを通じてコンピュータ340に送信されハードディスク354に記憶されてもよい。プログラムは実行の際にRAM360にロードされる。CD−ROM362から、FD364から、又はネットワークを介して、直接にRAM360にプログラムをロードしてもよい。
【0062】
このプログラムは、コンピュータ340にこの実施の形態の音響モデルの学習装置として動作を行なわせる複数の命令を含む。この動作を行なわせるのに必要な基本的機能のいくつかはコンピュータ340上で動作するオペレーティングシステム(OS)もしくはサードパーティのプログラム、又はコンピュータ340にインストールされる各種ツールキットのモジュールにより提供される。したがって、このプログラムはこの実施の形態のシステム及び方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能又は「ツール」を呼出すことにより、上記した音響モデルの学習装置としての動作を実行する命令のみを含んでいればよい。コンピュータシステム330の動作は周知であるので、ここでは繰返さない。
【0063】
以上説明したように、本実施の形態に係る学習装置100によれば、確率SVMを用いて音響モデルを構築することができる。音声データと、そのトランスクリプションを構成する各音素とのアライメントだけでなく、各音素に対応する音響モデルの内部状態とのアライメントが同時に行なわれる。この学習により、トランスクリプションが付された音声データがあれば、確率SVMを用いた音声データの学習を行なうことができる。もちろん、初期状態の学習データについて、すでに何らかの手段で初期的なアライメントが行なわれていれば、音響モデルの学習が早期に収束するという効果があるので、そのような学習データがあれば利用することが好ましい。
【0064】
この学習装置100によれば、アライメントするための音響特徴ベクトルの1要素として、発話の時間に相当する、音素の内部状態との対応関係を確立することができる。その結果、SVMを用いた音響モデルにより、同じ音素を異なる位置に含むような音声データの識別をすることも可能となる。
【0065】
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。
【符号の説明】
【0066】
100 学習装置
102 学習データ記憶装置
110 初期アライメント処理部
112 アライメント済学習データ記憶部
114 SVM学習部
116 SVMパラメータ記憶部
118 アライメント処理部
120 再アライメント後の学習データ
122 学習データ更新部
126 比較部
128 セグメンテーション確率記憶部

【特許請求の範囲】
【請求項1】
各々が一連の音響特徴ベクトルからなり、かつ各々にトランスクリプションが付された複数の学習データを記憶するための学習データ記憶手段と、
各音素の音響モデルのパラメータを記憶するための音響モデル記憶手段とを含み、
前記音響モデルの各々は、マルコフ過程に基づく、N個の内部状態(Nは自然数)からなるモデルであり、各内部状態は、音響データが当該内部状態から出力されたものである尤度を推定するSVMに対応付けられ、
前記複数の学習データの各々の各部と、対応する音響モデル内の内部状態との間の初期アライメントを準備する初期化手段と、
前記初期化手段により初期化されたアライメント済の学習データを記憶する、書換え可能なアライメント済データ記憶手段と、
前記アライメント済データ記憶手段に記憶されたアライメント済の学習データを用いて、前記音響モデルの各内部状態のSVMの学習を行なう学習手段と、
前記アライメント済データ記憶手段に記憶された学習データの各々について、前記学習手段により学習された音響モデルを用いて各音響モデル内の内部状態とアライメントを行なうことで、前記アライメント済データ記憶手段に記憶された学習データを更新するアライメント手段と、
前記アライメント手段によるアライメントに関連する終了条件が成立するまで、前記学習手段と前記アライメント手段とによる学習処理及びアライメント処理を繰返し実行させる繰返制御手段とを含む、音響モデル学習装置。
【請求項2】
前記初期化手段は、前記複数の学習データの各々を、対応するトランスクリプションに含まれる音素数と、前記Nとの積とにより定まる数に等分することにより、初期アライメントを準備する手段を含む、請求項1に記載の学習装置。
【請求項3】
前記音響モデルの各内部状態から後続する内部状態に状態が遷移する遷移確率と、各内部状態で状態がループする確率とは、互いに等しく選ばれている、請求項1又は請求項2に記載の音響モデル学習装置。
【請求項4】
前記アライメント手段は、前記アライメント済データ記憶手段に記憶された学習データの各々について、当該学習データに含まれる音響特徴ベクトルの各々と、前記学習手段による学習後の各音響モデル内の内部状態とを、ダイナミックプログラミングによって最大の尤度が得られるようにアライメントし、当該アライメントの結果により前記アライメント済データ記憶手段に記憶された学習データを更新する更新手段を含む、請求項1〜請求項3のいずれかに記載の音響モデル学習装置。
【請求項5】
前記終了条件は、前記ダイナミックプログラミングにより前記学習データの全体をアライメントした際の尤度と、直前の繰返し時に得られた尤度との差の絶対値が所定の値より小さいという条件である、請求項4に記載の音響モデル学習装置。
【請求項6】
前記終了条件は、前記繰返し制御手段による繰返し数が所定の数に達したという条件である、請求項1〜請求項4のいずれかに記載の音響モデル学習装置。
【請求項7】
各々が一連の音響特徴ベクトルからなり、かつ各々にトランスクリプションが付された複数の学習データを記憶するための学習データ記憶装置に接続されるコンピュータを、
各音素の音響モデルのパラメータを記憶するための音響モデル記憶手段として機能させるコンピュータプログラムであり、
前記音響モデルの各々は、マルコフ過程に基づく、N個の内部状態(Nは自然数)からなるモデルであり、各内部状態は、音響データが当該内部状態から出力されたものである尤度を推定するSVMに対応付けられ、
前記コンピュータプログラムは、前記コンピュータをさらに、
前記複数の学習データの各々の各部と、対応する音響モデル内の内部状態との初期アライメントを準備する初期化手段と、
前記初期化手段により初期化されたアライメント済の学習データを記憶する、書換え可能なアライメント済データ記憶手段と、
前記アライメント済データ記憶手段に記憶されたアライメント済の学習データを用いて、前記音響モデルの各内部状態のSVMの学習を行なう学習手段と、
前記アライメント済データ記憶手段に記憶された学習データの各々について、前記学習手段により学習された音響モデルを用いて各音響モデル内の内部状態とアライメントを行なうことで、前記アライメント済データ記憶手段に記憶された学習データを更新するアライメント手段と、
前記アライメント手段によるアライメントに関連する終了条件が成立するまで、前記学習手段と前記アライメント手段とによる学習処理及びアライメント処理を繰返し実行させる繰返制御手段として機能させる、コンピュータプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate


【公開番号】特開2012−185450(P2012−185450A)
【公開日】平成24年9月27日(2012.9.27)
【国際特許分類】
【出願番号】特願2011−50215(P2011−50215)
【出願日】平成23年3月8日(2011.3.8)
【出願人】(393031586)株式会社国際電気通信基礎技術研究所 (905)
【Fターム(参考)】