説明

はなし言葉分析装置とその方法とプログラム

【課題】学習データを用いずに音声データから卓立区間を抽出するはなし言葉分析装置を提供する。
【解決手段】言語ラベルが付与された卓立区間を抽出する対象の卓立区間抽出対象音声を入力とし、その言語ラベルを持つ読み上げ口調の合成音声を合成する。そして、卓立区間抽出対象音声と合成音声とを入力として、卓立区間抽出対象音声の基本周波数列である基本周波数列X1と、上記合成音声の基本周波数列である基本周波数列X2を抽出し、卓立区間抽出部が、基本周波数列X1とX2と上記言語ラベルを入力として、アクセント句間での基本周波数の変動方向についての基本周波数列X1と基本周波数列X2との間の相関と、当該アクセント句間での基本周波数の変動量についての基本周波数系列X1とX2との間での比較と、に基づいて上記卓立区間抽出対象音声の卓立区間を抽出して卓立区間情報を出力する。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、発話音声中の強調と抑制という卓立(prominence)に該当する音声区間を自動抽出するはなし言葉分析装置とその方法と、プログラムに関する。
【背景技術】
【0002】
例えば、映画のシーンに応じた台詞を発話する場面、童話の語り聞かせの場面、テレビなどのメディアを通じた商品宣伝の場面、及び、コールセンタなどでの電話応対場面などにおいて自然に発せられた「表現豊かな音声」において、強調や抑制という卓立は頻繁に用いられている。このような卓立は、何らかの基準と比較して明らかになる相対的なものである。よって、基準が不明な状態で、与えられた音声だけから卓立を自動抽出することは困難である。これまでは、卓立区間を予め指定しておき、その区間に卓立を伴って発話された音声を収録して利用されてきた。
【0003】
従来の卓立自動付与では、「強調」か「強調では無い(非強調)」かの自動付与を、2値判別問題として定式化し、2値判別器を用いて「強調」の箇所を抽出していた。その方法は、非特許文献1に開示されている。非特許文献1では、予め人手で強調区間にラベル付けされた学習用音声データを必要とする。学習用音声には、強調区間へのラベル付けと同時に強調のない箇所には非強調を示すラベルが付与される。
【0004】
2値判別器は、「音節などの音声単位を表すカテゴリラベルの並び」、「その音声単位のフレーズや文内での位置を示す数値」、「フレーズの有するアクセント核の位置などの韻律に関する言語特徴を表すカテゴリラベル」、「それらを用いて通常の音声合成器によって合成された合成音と学習用音声データ原音のそれぞれの基本周波数間の差分値」、を入力変数とし、強調または非強調という2値のラベルを出力変数として構築される。この構築された2値判別器を用いて、学習データ以外の新たな音声データに対して、強調か非強調かの2値判別を行い、強調という卓立の区間を音声データから抽出する。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】J. Xu and L.・H. Cai, “Automatic emphasis labeling for emotional speech by measuring prosody generation error”, Proceedings of ICIC, 2009, pp. 177-186, 2009.
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、従来の手法では、卓立区間の抽出のために強調・非強調のラベルが付与された学習データを必要とした。高い精度で卓立区間を判別する2値判別器を構成するためには、正確にラベル付けされた学習データを大量に必要とする。この正確にラベル付けされた音声データを用意するには、人手に頼る他なく、コストが高く付く。
【0007】
このように、卓立区間の自動抽出は困難であり、非特許文献1以前の研究の多くでは、卓立のラベルをテキストに予め付けておき、そのラベルの付けられた箇所で人間が卓立をつけた発話を行うことによって音声を収録していた。しかし、その方法では、自然な発話データ、且つ、そのような強調や非強調を含む発話が自然な割合で含まれる音声データベースを構築することは困難となる。
【0008】
この発明は、このような課題に鑑みてなされたものであり、人手で予め強調・非強調ラベルを付与した音声データを用意することなく、音声データから効率的に卓立区間を抽出することが可能な、はなし言葉分析装置とその方法とプログラムを提供することを目的とする。
【課題を解決するための手段】
【0009】
この発明のはなし言葉分析装置は、言語ラベルが付与された卓立区間抽出対象音声を入力とし、音声合成部と、基本周波数系列抽出部と、卓立区間抽出部と、を具備する。音声合成部は、上記言語ラベルを入力として、その言語ラベルを持つ読み上げ口調の合成音声を合成する。基本周波数列抽出部は、合成音声と卓立区間抽出対象音声を入力として、卓立区間抽出対象音声の基本周波数列である基本周波数列X1と、合成音声の基本周波数列である基本周波数列X2を抽出する。卓立区間抽出部は、基本周波数系列X1とX2と上記言語ラベルを入力として、アクセント句間での基本周波数の変動方向についての基本周波数系列X1とX2との間の相関と、当該アクセント句間での基本周波数の変動量についての基本周波数系列X1とX2との間での比較と、に基づいて卓立区間抽出対象音声の卓立区間を抽出して卓立区間情報を出力する。
【発明の効果】
【0010】
この発明のはなし言葉分析装置によれば、正確な強調・非強調ラベルが付与された大量の学習データを必要とせずに、卓立区間抽出対象音声から、卓立区間情報を得ることが出来る。よって、学習データを用意する人間の稼働にかかる高いコストを排除することが出来る。また、自然に発話された音声データから正確な卓立区間を抽出することが可能になるので、この発明のはなし言葉分析装置は、自然な卓立を有する音声に基づく研究開発を、大幅に加速することに貢献する。また、言語ラベルから生成した合成音声は、変動範囲が小さな読み上げ音声となるので、それを基準とした定義の明確な卓立区間情報を得ることができる。
【図面の簡単な説明】
【0011】
【図1】この発明のはなし言葉分析装置100の機能構成例を示す図。
【図2】はなし言葉分析装置100の動作フローを示す図。
【図3】卓立区間抽出部30の機能構成例を示す図。
【図4】卓立区間抽出部30の動作フローを示す図。
【図5】卓立判定手段34の判定フローを示す図。
【図6】具体的なアクセント句平均M1,M2の動きの一例を示す図。
【発明を実施するための形態】
【0012】
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。
【実施例1】
【0013】
図1に、この発明のはなし言葉分析装置100の機能構成例を示す。その動作フローを図2に示す。はなし言葉分析装置100は、音声合成部10と、基本周波数系列抽出部20と、卓立区間抽出部30と、制御部40と、を具備する。はなし言葉分析装置100の各部の機能は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
【0014】
実施例の説明の前に、強調や抑制の箇所について定義する。強調や抑制の箇所とは、1つの発話又は複数の発話系列の中での相対的な変化として定義できる。相対的な変化として測る際に必要となる基準を、この実施例では、強調や抑制の無い読み上げ口調で発話された音声とし、その読み上げ口調の音声と、表現豊かに発話された音声とを比較して変化が生じている箇所を抽出対象とする。この変化は、基本周波数変動や発話時間長や声質などのさまざまな物理量の違いとなって現れるが、この実施例では基本周波数の変動によるものに焦点を当てる。つまり、基本周波数が相対的に高くなっているところを「強調」、相対的に低くなっているところを「抑制」と定義する。また、強調と抑制の箇所の単位は、この実施例ではアクセント句の単位と定義する。
【0015】
音声合成部10は、卓立区間抽出対象音声に付与された言語ラベルを入力として、その言語ラベルを持つ読み上げ口調の合成音声を合成する(ステップS10)。
【0016】
言語ラベルには、「音素、音節などの各音声区間の種別とそれらの音声区間の開始・終了時刻」、「ポーズ区間の開始終了の時刻」、「アクセント句境界とその開始・終了時刻及びアクセント句のアクセント型」、がある。これらの情報から、「アクセント句の長さ」、「アクセント句の中での各音声単位の位置」を自動計算して付与することが可能である。
【0017】
音声合成部10が合成する合成音声は、従来の音声合成器(参考文献:T. Yoshimura, K. Tokuda, T. Masuko, T. Kobayashi, and T. Kitamura, “Simultaneous modeling of spectrum, pitch and duration in HMM-based speech synthesis,” Proceedings of EUROSPEECH, pp.2347-2350, 1999.)で合成することが出来る。音声合成部10の態様によっては、合成音声と一緒にその基本周波数列X2を同時に出力できる場合がある。
【0018】
基本周波数系列抽出部20は、卓立区間抽出対象音声と音声合成部10で合成した合成音声を入力として、卓立区間抽出対象音声の基本周波数系列である基本周波数系列X1と、合成音声の基本周波数系列である基本周波数系列X2を抽出する(ステップS20)。音声合成部10が、合成音声とその基本周波数列X2を同時に出力する場合(図1の破線を参照)は、基本周波数系列抽出部20は卓立区間抽出対象音声の基本周波数系列である基本周波数系列X1のみを抽出する。基本周波数は、周期信号の周期の最短のものとして定義され、聴覚上では声の高さとして感じ取られるものである。音声の場合には、声帯の開閉時間間隔も波形も一定では無いため、厳密な意味での基本周波数は存在しないが、基本波の瞬時周波数を基本周波数とする。基本周波数は、例えば1msごとに得ることが出来る。基本周波数の単位は元々Hzであるが、そのままの値でも、底をe(ネイピア数)とする自然対数に変換した値でも良い。
【0019】
基本周波数は、例えば基本波だけを取り出すことの出来る帯域フィルタを設計し、そのインパルス応答をマザーウェーブレットとするwavelet変換を行うことで、基本波成分を抽出する方法が知られている(参考文献:H. Katayose, A. de Cheveigne and R. D. Patterson, “Fixed point analysis of frequency to instantaneous frequency mapping for accurate estimation of F0 and periodicity,” Eurospeech ’99, pp. 2781-2784 (1999).)。基本周波数を抽出する方法は、これ以外にも時間領域の自己相関係数から求める方法など複数の方法が存在する。基本周波数を求めること自体は、従来技術であり、その詳しい説明は省略する。
【0020】
卓立区間抽出部30は、基本周波数系列抽出部20が抽出した基本周波数系列X1と基本周波数系列X2と言語ラベルを入力として、それぞれの基本周波数系列を比較する。上記したように基本周波数系列X2は、音声合成部10から直接入力される場合もある。卓立区間抽出対象音声の基本周波数系列X1と合成音声の基本周波数系列X2との間では、言語ラベル情報が一致しているので、2つの基本周波数系列を比較することが可能である。卓立句間抽出部30は、基本周波数系列X1とX2の基本周波数を比較して、卓立区間抽出対象音声の卓立区間を抽出して卓立区間情報を出力する(ステップS30)。制御部40は、上記した各部間の時系列的な動作等を制御するものである。
【0021】
以上述べたようにこの発明のはなし言葉分析装置100は、表現豊かな口調で自然に発話された卓立区間抽出対象音声に付与された言語ラベルから合成音声を合成する。そして、卓立区間抽出対象音声の基本周波数系列X1と、合成音声の基本周波数系列X2の言語ラベルが一致する基本周波数を比較することで卓立区間を抽出する。したがって、従来法のように、学習用の音声データを使用しないで、対象音声から卓立区間を抽出することが出来る。なお、上記したように音声合成部10と、基本周波数系列抽出部20は、従来技術で実現することが可能であるが、この発明のはなし言葉分析装置100は、図1に示すその装置全体の構成自体が新しい。特に新しい部分は、2つの基本周波数系列から卓立区間を抽出する卓立区間抽出部30である。
【0022】
図3に、卓立区間抽出部30の更に詳しい機能構成例を示してその動作を説明する。卓立区間抽出部30は、平均値・標準偏差算出手段31と、正規化手段32と、アクセント句平均系列抽出手段33と、卓立判定手段34と、を備える。図4に、卓立区間抽出部30の動作フローを示す。
【0023】
平均値・標準偏差算出手段31は、基本周波数系列抽出部20が出力する基本周波数系列X1と基本周波数系列X2を入力として、それぞれの発話全体にわたる基本周波数の平均値である発話平均μ1と発話平均μ2と、その標準偏差である発話標準偏差σ1と発話標準偏差σ2と、を算出する(ステップS31)。
【0024】
正規化手段32は、基本周波数系列X1とX2から発話平均μ1,μ2を減算した値を発話標準偏差σ1,σ2で除した発話正規化系列である発話正規化系列M1と発話正規化系列M2を求める(ステップS32、式(1))。
【0025】
【数1】

【0026】
この正規化処理によって、発話者の個人差を除去することが可能であり、卓立区間抽出の精度を向上させることが出来る。
【0027】
アクセント句平均系列抽出手段33は、発話正規化系列M1と発話正規化系列M2と言語ラベルを入力として、それぞれの発話正規化系列M1,M2をアクセント句iごとに分割してi番目のアクセント句の正規化値の平均値であるアクセント句平均M1,M2を計算する(ステップS33)。iは1〜n。
【0028】
卓立判定手段34は、アクセント句平均M1,M2を入力として、最後のアクセント句nまでの隣り合うアクセント句の組に対して変動の方向の相関と変動量の比較に基づいて卓立区間を表す卓立区間情報を出力する(ステップS34)。
【0029】
卓立判定手段34は、アクセント句平均M1,M2を入力として、隣り合うアクセント句の組の平均値μ1(式(2))とμ2(式(3))を計算すると共に、それぞれの相関係数ρ12と、それぞれの変動量Δ1とΔ2と変動量Δ1を変動量Δ2で除した変動量比率rとを求め、アクセント句iの強調と抑制及び、強調も抑制もない卓立区間を表す卓立区間情報を出力する。
【0030】
相関係数ρ12を求める式を式(4)に示す。
【0031】
【数2】

【0032】
【数3】

【0033】
変動量Δ1,Δ2と変動量比率rを求める式を、式(5)と式(6)と、式(7)に示す。
【0034】
【数4】

【0035】
図5に、卓立判定手段34の動作フローを示して、その判定の流れを説明する。図5の動作フローは、アクセント句の番号をi、文内の最初のアクセント句の番号を1、最後のアクセント句の番号をnとして、i及びi+1のアクセント句を用いて、i+1のアクセント句が強調なのか抑制なのか、又は強調も抑制も無い卓立区間に分類する以下の処理を最後のアクセント句nまで繰り返すものである(ステップS340)。
【0036】
卓立判定手段34は、アクセント句iごとに相関係数ρ12を求める(ステップS341)。そして、隣接するアクセント句iとi+1間の変動量Δ1,Δ2と、変動量比率rを求める(ステップS342)。
【0037】
相関係数ρ12が正の相関の場合(ステップS343のYES)、変動量Δ1>変動量Δ2で、且つ変動量比率rが閾値区間外である場合、アクセント句i+1は強調区間と判定される(ステップS344のYES)。変動量比率rが、例えば120%を超える場合に強調と判定する。ステップS344でNOと判定された場合、変動量Δ1<変動量Δ2で、且つ変動量比率rが閾値区間外である場合、アクセント句i+1は抑制区間と判定される(ステップS345のYES)。変動量比率rが、例えば80%未満の場合に抑制と判定する。ステップS345でNOと判定された場合、アクセント句i+1は強調も抑制もないと判定される。
【0038】
ステップS343で正の相関が無いと判定された場合(ステップS343のNO)、負の相関であるか否かを判定する(ステップS346)。ステップS346において、負の相関も無いと判定された場合、アクセント句i+1は強調も抑制もないと判定される(ステップS346のNO)。
【0039】
ステップS343で負の相関があると判定された場合(ステップS346のYES)、変動量Δ1が正方向で且つ変動量Δ2が負方向の場合(ステップS347のYES)、アクセント句i+1は強調と判定される。ステップS347でNOと判定された場合、変動量Δ1が負方向で且つ変動量Δ2が正方向の場合(ステップS348のYES)、アクセント句i+1は抑制と判定される。ステップS348でNOと判定された場合、アクセント句i+1は強調も抑制もないと判定される。
【0040】
図6に、具体的なアクセント句平均系列M1とM2の動きを示して卓立判定手段34の動作を更に説明する。図6の横方向はアクセント句の変化であり経過時間を表し、縦方向は正規化値を表す。図6の、アクセント句iとi+1のアクセント句平均系列の動きは、卓立区間抽出対象音声のアクセント句i+1が強調と判定される場合の一例を示している。アクセント句間の平均値μ1の変化がプラス方向で、アクセント句間の平均値μ2の変化がマイナス方向であるので相関係数ρ12は負の相関である。この場合、図5の動作フローでは、ステップS346でYES、変動量Δ1が正方向で且つ変動量Δ2が負方向なのでステップS347でYESと判定され、アクセント句i+1は強調と判定される。
【0041】
次に、i+1とi+2のアクセント句間の平均値μ1i+1の変化はマイナス方向、アクセント句間の平均値μ2i+1の変化はマイナス方向であるので相関係数ρ12i+1は正の相関である(ステップS343のYES)。そして、この場合、変動量比率ri+1が明らかに閾値区間内である。つまり、変動量比率ri+1が80%〜120%の範囲内であるのでアクセント句i+2は強調も抑制もないと判定される(ステップS345のNO)。
【0042】
以上述べたように、卓立区間抽出対象音声由来のアクセント句平均系列M1と、言語ラベルから合成した合成音声由来のアクセント句平均系列M2の変化の相関係数と、それぞれの変動量Δ1,Δ2と、変動量比率rとを用いることでアクセント句の卓立を判定することが出来る。このように、この発明のはなし言葉分析装置100によれば、正確な強調・非強調ラベルが付与された大量の学習データを不要としながら、音声データから卓立区間情報を得ることを可能にする。また、言語ラベルから生成した合成音声は、変動範囲が小さな読み上げ音声となるので、それを基準とした定義の明確な卓立区間情報を得ることができる。
【0043】
上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
【0044】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
【0045】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0046】
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

【特許請求の範囲】
【請求項1】
言語ラベルが付与された卓立区間抽出対象音声を入力とし、
上記言語ラベルを持つ読み上げ口調の合成音声を合成する音声合成部と、
上記合成音声と上記卓立区間抽出対象音声とを入力として、上記卓立区間抽出対象音声の基本周波数列である基本周波数列X1と、上記合成音声の基本周波数列である基本周波数列X2を抽出する基本周波数列抽出部と、
上記基本周波数系列X1とX2と上記言語ラベルを入力として、アクセント句間での基本周波数の変動方向についての基本周波数系列X1とX2との間の相関と、当該アクセント句間での上記基本周波数の変動量についての上記基本周波数系列X1とX2との間での比較と、に基づいて上記卓立区間抽出対象音声の卓立区間を抽出して卓立区間情報を出力する卓立区間抽出部と、
を具備するはなし言葉分析装置。
【請求項2】
請求項1に記載したはなし言葉分析装置において、
上記卓立区間抽出部は、
上記基本周波数系列X1と上記基本周波数系列X2を入力として、それぞれの発話全体にわたる基本周波数の平均値である発話平均μ1と発話平均μ2と、標準偏差である発話標準偏差σ1と発話標準偏差σ2を算出する平均値・標準偏差算出手段と、
上記基本周波数系列X1とX2から発話平均を減算した値を発話標準偏差で除した発話正規化系列である発話正規化系列M1と発話正規化系列M2を求める正規化手段と、
上記発話正規化系列M1と上記発話正規化系列M2と上記言語ラベルを入力として、それぞれの系列をアクセント句iに分割し、各アクセント句i(i:1〜n)における発話正規化系列のアクセント句平均M1,M2を得るアクセント句平均系列抽出手段と、
上記アクセント句平均M1とM2を入力として、最後のアクセント句nまでの隣り合うアクセント句平均の組に対して変動の方向の相関と変動量の比較に基づいて卓立区間を表す卓立区間情報を出力する卓立判定手段と、
を備えることを特徴とするはなし言葉分析装置。
【請求項3】
言語ラベルが付与された卓立区間抽出対象音声を入力とし、
上記言語ラベルを持つ読み上げ口調の合成音声を合成する音声合成過程と、
上記合成音声と上記卓立区間抽出対象音声とを入力として、上記卓立区間抽出対象音声の基本周波数列である基本周波数列X1と、上記合成音声の基本周波数列である基本周波数列X2を抽出する基本周波数列抽出過程と、
上記基本周波数系列X1とX2と上記言語ラベルを入力として、アクセント句間での基本周波数の変動方向についての基本周波数系列X1とX2との間の相関と、当該アクセント句間での上記基本周波数の変動量についての上記基本周波数系列X1とX2との間での比較と、に基づいて上記卓立区間抽出対象音声の卓立区間を抽出して卓立区間情報を出力する卓立区間抽出過程と、
を備えるはなし言葉分析方法。
【請求項4】
請求項3に記載したはなし言葉分析方法において、
上記卓立区間抽出過程は、
上記基本周波数系列X1と上記基本周波数系列X2を入力として、それぞれの発話全体にわたる基本周波数の平均値である発話平均μ1と発話平均μ2と、標準偏差である発話標準偏差σ1と発話標準偏差σ2を算出する平均値・標準偏差算出ステップと、
上記基本周波数系列X1とX2から発話平均を減算した値を発話標準偏差で除した発話正規化系列である発話正規化系列M1と発話正規化系列M2を求める正規化ステップと、
上記発話正規化系列M1と上記発話正規化系列M2と上記言語ラベルを入力として、それぞれの系列をアクセント句iに分割し、各アクセント句i(i:1〜n)における発話正規化系列のアクセント句平均M1,M2を得るアクセント句平均系列抽出ステップと、
上記アクセント句平均M1とM2を入力として、最後のアクセント句nまでの隣り合うアクセント句平均の組に対して変動の方向の相関と変動量の比較に基づいて卓立区間を表す卓立区間情報を出力する卓立判定ステップと、
を含むことを特徴とするはなし言葉分析方法。
【請求項5】
請求項1又は2に記載したはなし言葉分析装置としてコンピュータを機能させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2013−15693(P2013−15693A)
【公開日】平成25年1月24日(2013.1.24)
【国際特許分類】
【出願番号】特願2011−148817(P2011−148817)
【出願日】平成23年7月5日(2011.7.5)
【出願人】(000004226)日本電信電話株式会社 (13,992)