説明

音素ラベリングデータ音素継続時間長変換方法とその装置とプログラム

【課題】少量の音素ラベリングデータから新音素体系の大量の音素ラベリングデータを精度良く生成する音素ラベリングデータ音素継続時間長変換装置を提供する。
【解決手段】音素継続時間長分布推定部は、変換対象話者の新音素体系における少数の音素ラベリングデータである参照ラベリングデータと、複数話者のある音素体系における音素種別の音素継続時間長の平均値・分散値を、統計的に信頼できる値として得ることが可能な数の複数話者ラベリングデータを入力として、参照ラベリングデータを複数話者ラベリングデータで直線回帰し、複数話者ラベリングデータの全ての音素種別に対応する変換対象話者の音素継続時間長の平均値と分散値である音素継続時間長分布を求め、1個の音素継続時間長に対して複数の音素情報を持つ音素ラベリングデータを、音素情報毎に時間長を分割して新音素ラベリングデータとして出力する。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、音素ラベリングデータベースの音素ラベリングデータを、例えば異なる音声合成システム用の音素ラベリングデータに変換する音素ラベリングデータ音素継続時間長変換方法と、その装置とプログラムに関する。
【背景技術】
【0002】
音素ラベリングとは、音声データ内で発声されている音素の種別と音素の境界を表すラベルを付与することである。ある既存の音素体系で音素ラベリングされた音声データベースが既に存在している場合において、その音声データベースを音声体系の異なる音素体系に基づく音声合成や音声認識等で利用するためには、基本的には新しい音素体系で新たにラベリングする必要がある。
【0003】
新しい音素体系で新たにラベリングする方法としては、人手によるラベリングや自動ラベリングがある。自動ラベリング方式は、例えば非特許文献1に開示されている。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】中村孝、宮崎昇、水野秀之、「発音変動に対応した多段階自動ラベリング方式の検討」日本音響学会講演論文集、p265-268,2009年9月
【発明の概要】
【発明が解決しようとする課題】
【0005】
従来方法の人手によるラベリングは、高精度なラベリングが行えるが、人手によるため多くの時間・費用が必要でありコストがかかる。一方自動ラベリングは、コストは低く抑えられるがラベリング精度が低く、用途によってはそのまま利用することが出来ない課題がある。そこで、既存の音素データベースを、目的のシステムに対応した音素データベースに変換する方法が、最も現実的のように思われる。しかしながら、音素境界を機械的に変換することが難しいことから、そのような音素データベースを変換する装置や方法は、今まで無かった。
【0006】
つまり、新しい音素体系では単一の音素が、既存の音素体系では複数の音素に対応する場合や、その逆の関係の場合もあり、音素境界を単純な規則で変換することが出来ない課題があり、その実現が難しかった。
【0007】
この発明は、このような課題に鑑みてなされたものであり、既存の音素データベースを異なる音素体系にコストを掛けずに精度良く変換する音素ラベリングデータ音素継続時間長変換方法と、その装置とプログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
この発明の音素ラベリングデータ音素継続時間長変換方法は、音素継続時間長分布推定過程と、音素変換過程と、音素継続時間長分割過程と、を備える。音素継続時間長分布推定過程は、変換対象話者の新音素体系における音素ラベリングデータである参照ラベリングデータと、複数話者のある音素体系における音素種別の音素継続時間長の平均値・分散値を、統計的に信頼できる値として得ることが可能な数の音素種別を含む複数話者ラベリングデータを入力として、参照ラベリングデータを複数話者ラベリングデータで直線回帰し、複数話者ラベリングデータの全ての音素種別に対応する変換対象話者の音素継続時間長の平均値と分散値である音素継続時間長分布を求める。音素変換過程は、変換対象話者の変換前の音素ラベリングデータである既存音素ラベリングデータを新音素体系の音素ラベリングデータに変換する。音素継続時間長分割過程は、音素継続時間長分布と新音素体系の音素ラベリングデータを入力として、1つの音素情報に1個の音素継続時間長を持つ音素ラベリングデータはそのまま新音素ラベリングデータとして通過させ、1個の音素継続時間長に対して複数の音素情報を持つ音素ラベリングデータは音素情報毎に音素継続時間長を分割して新音素ラベリングデータとして出力する。
【発明の効果】
【0009】
この発明の音素ラベリングデータ音素継続時間長変換方法は、少量の新音素体系の音素ラベリングデータを、大量の複数話者ラベリングデータで直線回帰し、複数話者ラベリングデータの全ての音素種別に対応する変換対象話者の音素継続時間長分布を求める。そして、1つの音素ラベルに複数の音素を含む音素ラベリングデータを、大量の複数話者ラベリングデータから求めた平均値と分散値に基づいて音素毎の継続時間長に分割した新たな音素体系の音素ラベリングデータとして出力する。したがって、少量の音素ラベリングデータから新音素体系の大量の音素ラベリングデータを精度良く求めることが出来る。
【図面の簡単な説明】
【0010】
【図1】この発明の音素ラベリングデータ音素継続時間長変換装置100の機能構成例を示す図。
【図2】音素ラベリングデータ音素継続時間長変換装置100の動作フローを示す図。
【図3】音素継続時間長分布推定部40の機能構成例を示す図。
【図4】音素継続時間長分布推定部40の動作フローを示す図。
【図5】音素変換部50の動作フローを示す図。
【図6】音素継続時間長分割部60の動作フローを示す図。
【図7】変換対象話者の音素継続時間長の平均値μx′と、複数話者の音素継続時間長の平均値μxとの相関を例示する図。
【図8】変換対象話者の音素継続時間長の分散値σx2と、複数話者の音素継続時間長の分散値σx2との相関を例示する図。
【発明を実施するための形態】
【0011】
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。
【実施例1】
【0012】
図1に、この発明の音素ラベリングデータ音素継続時間長変換装置100の機能構成例を示す。その動作フローを図2に示す。音素ラベリングデータ音素継続時間長変換装置100は、音素継続時間長分布推定部40と、音素変換部50と、音素継続時間長分割部60と、具備する。音素ラベリングデータ音素継続時間長変換装置100の各部の機能は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
【0013】
音素継続時間長分布推定部40は、参照ラベリングデータ10と複数話者ラベリングデータ20を入力として、参照ラベリングデータ10を複数話者ラベリングデータ20で直線回帰し、複数話者ラベリングデータ20の全ての音素種別に対応する変換対象話者の音素継続時間長の平均値と分散値である音素継続時間長分布を求める(ステップS40)。音素継続時間長分布は、図1に破線で示すように、ROM、RAM、やハードディスクに記憶するようにしても良い。
【0014】
参照ラベリングデータ10は、変換対象話者の新音素体系における少数の音素ラベリングデータである。半分以下の音素の音素継続時間長の平均値・分散値を統計的に信頼できる値として得ることが可能な数であり、複数話者ラベリングデータ20を例えば6022文章、音素数61種類とした時に、参照ラベリングデータ10は例えば5文章14種類程度の数である。ただし、1文章には少なくとも主語と述語が含まれるものとする。5文章以上で統計的に信頼できる平均値・分散値が求まることを実験で確認した。
【0015】
複数話者ラベリングデータ20は、複数話者の新音素体系における音素種別の音素継続時間長の平均値・分散値を、統計的に信頼できる値として得ることが可能な数の全ての音素種別を含む音素ラベリングデータである。
【0016】
音素変換部50は、既存音素ラベリングデータ30を新音素体系の音素ラベリングデータである分割前音素ラベリングデータに変換する(ステップS50)。表1に、既存音素ラベリングデータ30の一部を例示する。分割前音素ラベリングデータは、音素継続時間長分布と同様にROM、RAM、やハードディスクに記憶するようにしても良い。
【0017】
【表1】

【0018】
既存音素ラベリングデータの新音素体系への変換は、以下の2段階の処理にて行う。
既存音素ラベリングデータ30は、音素ラベルと音素継続時間長が一対一に対応したデータである。既存音素ラベリングデータ30は、変換したい新音素体系とは異なる他の音素体系の変換対象話者の既存のデータであり、音素変換部50によって新音素体系の分割前音素ラベリングデータに変換される。
表2に、分割前音素ラベリングデータの一部を例示する。表2は、表1の音素を新音素体系に基づいて変換した一段階目の処理の例である。
【0019】
【表2】

【0020】
既存音素ラベリングデータ30の「t」が、分割前音素ラベリングデータの「cT,T」に対応している。このように「t」は、新音素体系では2つの音素に対応するが、ここでは個々の音素の継続時間長は求めず、複数の音素の音素情報とその音素継続時間長の合計値に2つの音素を対応させている。
【0021】
音素継続時間長分割部60は、音素継続時間長分布推定部40が出力する音素継続時間長分布と、音素変換部50が出力する分割前音素ラベリングデータを入力として、1つの音素情報に1個の音素継続時間長を持つ音素ラベリングデータはそのまま通過させて新音素ラベリングデータとし、1個の音素継続時間長に対して複数の音素情報を持つ音素ラベリングデータは、音素情報毎に音素継続時間長を分割して新音素ラベリングデータとして出力する(ステップS60)。
【0022】
表3に、新音素ラベリングデータの一部を例示する。表3は、表2の音素を新音素ラベリングデータに変換した例である。
【0023】
【表3】

【0024】
分割前音素ラベリングデータの「cT,T」が、「cT:70ms」と「T:20ms」の2つの音素情報に分割されている。1つの音素情報に1個の音素継続時間長が対応する分割前音素ラベリングデータ「A」は、そのまま新音素ラベリングデータとして出力される。
【0025】
この音素継続時間長の分割は、少量の参照ラベリングデータ10と大量の複数話者ラベリングデータ20との直線回帰により求めた音素継続時間長分布に基づいて行われる。したがって、少量の一部の新音素体系の音素ラベリングデータから大量の新音素体系の音素ラベリングデータを精度良く生成することが可能になる。
【0026】
以降、音素ラベリングデータ音素継続時間長変換装置100の各部の動作をより詳しく説明する。
〔音素継続時間長分布推定部〕
図3に、音素継続時間長分布推定部40の機能構成例を示す。その動作フローを図4に示す。
音素継続時間長分布推定部40は、平均値・分散値計算手段41と、直線回帰式推定手段42と、音素継続時間長分布推定手段43と、を備える。平均値・分散値計算手段41は、複数話者ラベリングデータ20内の全ての音素集合をXとして、x∈Xである全ての音素xの音素継続時間長の平均値μxと分散値σx2を求める(ステップS41a〜S41c)。
【0027】
そして、参照ラベリングデータ10についても、その全ての音素集合をX′(但し、X′⊆X)として、x∈X′である全ての音素xの出現回数nx′と、音素継続時間長の平均値μx′と分散σx2を求め、この平均値の集合M1と分散の集合Σ1を求める(ステップS41e)。
【0028】
【数1】

【0029】
直線回帰式推定手段42は、参照ラベリングデータの平均値μx′及び分散値σx2と、複数話者ラベリングデータ20の平均値μxと分散値σx2との直線回帰式を最小二乗法で求める(ステップS42a)。
【0030】
【数2】

【0031】
統計的に十分信頼のある平均値と分散値が得られる音素の出現回数の規定値をn(nは少なくとも5以上の値が望ましい)として、nx′≧nである全ての音素の集合Y={x|x∈X′,nx′≧n}について、最小二乗法で次式に示すようにパラメータa1,a2,b1,b2を求める。
【0032】
【数3】

【0033】
ここで、N(Y)は音素集合Yの要素数である。
複数話者ラベリングデータ20内に出現して、参照ラベリングデータ10内に出現しなかった音素、及び統計的に十分信頼できない回数出現した音素(nx′<nである音素x)の集合をZ=X-Y={x|x∈X,nx′≧n}とする。
音素継続時間長分布推定手段43は、Zの全ての音素x(x∈Z)について式(3)を用いて、平均値μx′と分散値σx2を求め、平均値の集合M2と分散値の集合Σ2を求める(ステップS43a)。
【0034】
【数4】

【0035】
そして、音素集合X内の全ての音素の音素継続時間長分布として下記の平均値集合M、分散値集合Σを得る(ステップS43b)。
【0036】
【数5】

【0037】
〔音素変換部〕
図5に示す音素変換部50の動作フローを参照してその動作を説明する。音素変換部50は、既存音素ラベリングデータ30を新しい音素体系における新音素ラベリングデータに変換する。
【0038】
まず最初に、既存の音素体系における音素列x=(x1,x2,…,xn)が、新しい音素体系において音素列y=(y1,y2,…,ym)に対応する場合、既存の音素体系から新しい音素体系への全変換ルールをFとし、F(x)=yとする。また、F(x)が定義されている全ての音素列xの集合(Fの定義域)をXとする(ステップ500)。表4に、変換ルールの例を示す。
【0039】
【表4】

【0040】
次に、音素列の集合X内で音素列を構成する音素の数が最大であるものの音素数Lを求める(ステップS501)。そして、全ての既存音素ラベリングデータ30に対して下記の操作を行い、新しい音素体系による分割前音素ラベリングデータを出力する。
【0041】
既存音素ラベリングデータ30のラベルデータ番号を現す数をiとして、i←1とする(ステップS502)。例えば、上記した表1ではi番目のラベルデータは、i=1のとき「t,70」、i=2のとき「a,60」である。そして、音素列を構成する音素の数kをk←Lとする。ステップS502の処理は、既存音素ラベリングデータの音素ラベル数をNとして、N<iの場合、つまり全てのラベルデータを変換し終わるまで繰り返される(ステップS509)。
【0042】
既存音素ラベリングデータ30のi番目の音素情報xiからi+k-1番目の音素情報xi+k-1を取得し、音素列x=(xi,xi+1,…,xi+k-1)を作る(ステップS504)。
X∈Xの場合(変換ルール内の変換前音素列に定義されているとき)、次の操作を行う(ステップS505のYes)。
既存音素ラベリングデータ30のi番目の音素継続時間長情報をtiとして、新しい音素体系の音素情報y=F(x)と、音素継続時間長の合計値t′を求める(ステップS507)。
【0043】
【数6】

【0044】
分割前音素ラベリングデータとして、音素情報y、音素継続時間長情報t′を出力する(ステップS508)。変換した音素の数だけラベルデータの番号を進めるため、i←i+kとする。音素列を構成する音素の数kをk←Lとする処理(ステップS503)に戻る。
【0045】
x∈Xで無い場合(変換ルール内の変換前音素列に定義されていないとき)音素列を構成する音素の数を減らすため、k←k-1とする(ステップS506)。次の音素ラベルの処理(ステップS504)に戻る。
【0046】
〔音素継続時間長分割部〕
図6に示す音素継続時間長分割部60の動作フローを参照してその動作を説明する。音素継続時間長分割部60は、音素変換部50で得られた分割前ラベリングデータから、複数の音素へ変換されている音素情報について音素継続時間長を分割する。
【0047】
全ての分割前ラベリングデータに対して次の操作を行う。
分割前音素ラベリングデータのラベルデータ番号を表す数をiとして、i←1とする(ステップS600)。例えば、上記した表2においてi=1のとき「cT,T,70」、i=2のとき「A,60」である。分割前音素ラベリングデータの音素ラベル数をNとして、N<iの場合(つまり、全てのラベルデータを分割し終えたとき)終了する(ステップS609)。
【0048】
i番目の分割前音素ラベリングデータの音素情報xi=(xi,1,xi,2,…,xi,n)と音素継続時間長情報tiを取得する(ステップS601)。上記した表2においてi=1のとき、xi=(cT,T),ti=70であり、xi,1=cT,xi,2=Tである。
【0049】
音素列xiを構成する音素数nを求める(ステップS602)。例えば、xi=(cT,T)のときn=2。
音素列xiを構成する全ての音素xi,k(k=1,2,…,n)について、音素継続時間長の平均値μx.i.k、分散値σx.i.k2を音素継続時間長分布から取得し、それぞれの値の合計値MとSを求める(ステップS603)。
【0050】
【数7】

【0051】
次に、下記の操作を行い各音素情報と音素継続時間長を出力する。
音素列xiを構成する音素の中の音素番号をkとして、k←1とする(ステップS604)。n<kの場合(つまり、音素列xiの全ての音素を出力し終えたとき)は、i←i+1としてステップS601に戻って、次のラベルデータの処理を行う。
【0052】
出力する音素情報をxとおいて、x←xi,kとする(例えば、xi=(cT,T)のとき、k=1のときx=xi,k=cT,k=2のときx=xi,k=T)(ステップS605)。
音素継続時間長分布から音素情報xの音素継続時間長の平均値μx、分散値σx2を取得し、式(13)で分割された音素継続時間長情報t′を求める(ステップS606)。
【0053】
【数8】

【0054】
求めた音素情報xと音素継続時間長情報t′は、新音素ラベリングデータとして出力される(ステップS607)。そして、k←k+1として次の音素番号の処理(ステップS605)に戻る。
〔直線回帰について〕
音素継続時間長分布推定部40の直線回帰式推定手段42で求めた直線回帰式の相関係数を示して、この発明の有効性について説明する。具体的なデータに基づいて求めた相関関係を図7と図8に示す。図7は、音素継続時間長の平均値の相関を示す。図8は、その分散値の相関を示す。
【0055】
相関係数は、次のデータで求めた。複数話者ラベリングデータのラベルデータ数は33763文で音素数は117種類、変換対象話者1のラベルデータ数は6022文で音素数89種類、変換対象話者2のラベルデータ数は94文で音素数56種類のデータを用いた。
【0056】
平均値μx′と平均値μxの相関係数は、話者1(図7の■)で相関係数γ=0.99、話者2(図7の◆)で相関係数γ=0.96と、非常に高い相関が見られた。また、分散値σx2と分散値σx2との相関も、話者1(図8の■)でγ=0.81、話者2(図8の◆)でγ=0.73と良好な値を示した。
【0057】
この相関係数から、この発明の音素ラベリングデータ音素継続時間長変換装置100を用いることで、少量の音素ラベリングデータから新音素体系の大量の音素ラベリングデータを、精度良く求めることが可能であることが分かる。
【0058】
上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
【0059】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
【0060】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0061】
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

【特許請求の範囲】
【請求項1】
変換対象話者の新音素体系における音素ラベリングデータである参照ラベリングデータと、複数話者のある音素体系における音素種別の音素継続時間長の平均値・分散値を統計的に信頼できる値として得ることが可能な数の音素種別を含む複数話者ラベリングデータを入力として、上記参照ラベリングデータを上記複数話者ラベリングデータで直線回帰し、上記複数話者ラベリングデータの全ての音素種別に対応する上記変換対象話者の音素継続時間長の平均値と分散値である音素継続時間長分布を求める音素継続時間長分布推定過程と、
変換対象話者の変換前の音素ラベリングデータである既存音素ラベリングデータを新音素体系の音素ラベリングデータに変換する音素変換過程と、
上記音素継続時間長分布と上記新音素体系の音素ラベリングデータを入力として、1つの音素情報に1個の音素継続時間長を持つ音素ラベリングデータはそのまま新音素ラベリングデータとして通過させ、1個の音素継続時間長に対して複数の音素情報を持つ音素ラベリングデータは音素情報毎に音素継続時間長を分割して新音素ラベリングデータとして出力する音素継続時間長分割過程と、
を備える音素ラベリングデータ音素継続時間長変換方法。
【請求項2】
請求項1に記載した音素ラベリングデータ音素継続時間長変換方法において、
上記音素継続時間長分布推定過程は、
上記参照ラベリングデータと上記複数話者ラベリングデータのそれぞれの平均値・分散値を計算する平均値・分散値計算ステップと、
上記参照ラベリングデータの平均値・分散値を、上記複数話者ラベリングデータで直線回帰する線形関係式を推定する直線回帰式推定ステップと、
上記複数話者ラベリングデータに対応する上記変換対象話者の全ての音素種別の音素継続時間長の平均値と分散値を上記線形関係式で推定する音素継続時間長分布推定ステップと、
を含むことを特徴とする音素ラベリングデータ音素継続時間長変換方法。
【請求項3】
請求項1又は2に記載した音素ラベリングデータ音素継続時間長変換方法において、
上記音素継続時間長分割過程は、
音素列xを構成する音素数nを求める音素数取得ステップと、
音素列xiを構成する全ての音素xi,k(k=1,2,…,n)について音素継続時間長の平均値μx,I,k、分散σx,I,k2を、上記音素継続時間長分布から取得し、平均値の合計値Mと分散の合計値Sを求め、それぞれの合計値を求める合計値取得ステップと、
上記新音素ラベリングデータの音素継続時間長情報t′を、
【数9】

ここでtiは分割前の音素継続時間長、
で求める音素継続時間長情報取得ステップと、
を含むことを特徴とする音素ラベリングデータ音素継続時間長変換方法。
【請求項4】
変換対象話者の新音素体系における音素ラベリングデータである参照ラベリングデータと、
複数話者のある音素体系における音素種別の音素継続時間長の平均値・分散値を、統計的に信頼できる値として得ることが可能な数の全ての音素種別を含む音素ラベリングデータである複数話者ラベリングデータと、
変換対象話者の変換前の音素ラベリングデータである既存音素ラベリングデータと、
上記参照ラベリングデータと上記複数話者ラベリングデータを入力として、上記参照ラベリングデータを上記複数話者ラベリングデータで直線回帰し、上記複数話者ラベリングデータの全ての音素種別に対応する上記変換対象話者の音素継続時間長の平均値と分散値である音素継続時間長分布を求める音素継続時間長分布推定部と、
上記既存音素ラベリングデータを新音素体系の音素ラベリングデータである分割前音素ラベリングデータに変換する音素変換部と、
上記音素継続時間長分布と上記新音素体系の音素ラベリングデータを入力として、1つの音素情報に1個の音素継続時間長を持つ音素ラベリングデータはそのまま新音素ラベリングデータとして通過させ、1個の音素継続時間長に対して複数の音素情報を持つ音素ラベリングデータは音素情報毎に音素継続時間長を分割して新音素ラベリングデータとしてを出力する音素継続時間長分割部と、
を具備する音素ラベリングデータ音素継続時間長変換装置。
【請求項5】
請求項4に記載した音素ラベリングデータ音素継続時間長変換装置としてコンピュータを機能させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2012−247729(P2012−247729A)
【公開日】平成24年12月13日(2012.12.13)
【国際特許分類】
【出願番号】特願2011−121435(P2011−121435)
【出願日】平成23年5月31日(2011.5.31)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】