音声合成の感情付与方法

【目的】様々な感情表現に寄与する静的・動的音響パラメータを大量の音声資料の中から効率よく的確に抽出し、かつその抽出結果が音声合成時のパラメータ制御に直接利用し得るようにし、人手による変換規則の構築という労力をかけずに、任意に発声された無感情な自然音声や規則合成音声を感情を伴ったものに変換する。
【構成】音響的分析部２によって無感情な音声の音響的特徴パラメータと感情を伴った音声の音響的特徴パラメータとを抽出するとともに、ニューラルネットワーク部８によって前記無感情な音声の音響的特徴パラメータを感情を伴った音声の音響的特徴パラメータに変換するための学習を行なわせた後、学習済みの当該ニューラルネットワーク部８を用いて無感情な音声に感情を付与する。

【発明の詳細な説明】
【０００１】
【産業上の利用分野】本発明は放送番組や映画等の制作時において無感情に発声された音声を感情を有する音声に変換する信号処理装置、あるいは任意の文字列を基に規則によって音声を合成する装置などで使用される音声合成の感情付与方法に関する。
【０００２】［発明の概要］本発明は放送番組制作等において、標準的な抑揚および速度で無感情に発声された音声を感情を有する音声に変換する音声信号処理装置、あるいは任意の文字列を基に規則によって音声を合成する装置において、出力音声に付加される感情を制御する方法に関するもので、ニューラルネットワークに、無感情な音声と感情を伴った音声との音響的特徴パラメータの時間的な平均値や変化パターンの違いを学習させておき、任意に発声された無感情な音声から抽出した音響的特徴パラメータ、あるいは規則によって音声を合成する際の合成用パラメータを当該ニューラルネットワークの入力層に与えることによって、その出力層に所望の感情に類似した値を得ることにより、無感情な自然音声や規則合成音声を、自動的に所望の感情を伴ったものに変換することを可能にしたものである。
【０００３】
【従来の技術】従来、自然音声において、無感情なものと、感情を有するものの音声とを音響的に分析し、その物理的な違いを明らかにする調査研究はさまざまにに行われてきたが、それらの知見を基にした、無感情音声を感情を有するものに変換する技術については、ほとんど研究開発が行われていない。その数少ない例としては、韻律すなわち、声の高さ、大きさ、速さの３つの音響的特徴量を無感情と歓喜・怒り・悲哀の３感情の各分析結果の観察から対比させ、無感情音声を上記各３感情に変換するための声の高さ、大きさ、速さのそれぞれについて簡単な変換規則を作成し、分析に用いた音声とは別の意味内容の無感情音声に対してこの変換規則を適用し、感情付与を試みたものがある（電子情報通信学会、技術報告、ＳＰ８８−１５８、ｐｐ．２７−３２、１９８９年３月）。
【０００４】しかし、このような簡単な規則による制御では、特に声の高さの時間変化パターン（いわゆるイントネーション）のような感情の違いに応じて複雑に変化する要素に対して十分な制御を行なうことができない。
【０００５】このため、このような制御を行なっても、その効果に限界があり、必ずしも所望の感情に変換することができない。
【０００６】また、スペクトルの制御については、例えば合成音声で強い声と弱い声との違いを表現するという立場から調査研究はなされているが、合成音声の感情表現という立場からのものはない。
【０００７】また、任意の文字列から規則によって音声を合成する、いわゆる規則合成においては、通常の無感情な音声を如何に自然なイントネーションやアクセント、明瞭な響きで合成するかと言う点にほとんどの努力が払われており、未だその規則の中に感情を制御する要素を加える技術は皆無と言ってよい。
【０００８】
【発明が解決しようとする課題】上述した従来の技術から明らかなように、従来から行われてきた感情を伴った音声に対する音響的分析の結果によれば、感情表現に寄与する物理パラメータとして、声の高さ、大きさ、発声速度、スペクトルなどが挙げられるが、これらは全てある発声時間を通じて一定な静的要素と時々刻々ダイナミックに変化する動的要素に分けて考えることができる。
【０００９】例えば、声の高さについて言えば、全体の平均的な高さが静的要素にあたり、イントネーションが動的要素にあたるため、感情を表現しようとするとき、静的要素のみならず動的要素が重要な働きをすると考えられるが、無感情な音声と感情を伴った音声の動的な要素の分析結果を観察し、その微妙な違いを定式化することは非常に手間がかかり、したがって多くの人が発声した様々な感情音声について検討し、特定の感情への変換規則を構築することは多大な労力を要することが予想される。
【００１０】本発明は上記の事情に鑑み、感情表現に寄与する物理量を大量の音声資料を対象に効率よく分析し、各感情における静的・動的特徴量を的確に抽出し、かつその抽出結果が音声合成時のパラメータ制御に直接利用できる形で与えられる音声合成の感情付与方法を提供することを目的としている。
【００１１】
【課題を解決するための手段】上記の目的を達成するために本発明による音声合成の感情付与方法は、学習時において、予め設定された言語で発声された無感情音声と、有感情音声とについて少なくとも声の高さ、大きさ、発声速度、スペクトルのいずれか１つ以上の音響的特徴パラメータを抽出するとともに、これら無感情音声と有感情音声との間の母音、子音の位置の対応をとりつつ、ニューラルネットワークの入力層に無感情音声の音響的特徴パラメータを与えながら、前記ニューラルネットワークの出力層に有感情音声の音響的特徴パラメータを与えることによって、これら無感情音声と有感情音声との間の音響的特徴パラメータの時間的な平均値または時間変化パターンの違いを学習させ、感情付与時において、合成対象となる音声の音響的特徴パラメータを前記ニューラルネットワークの入力層に入力して出力層から所望感情の音響的特徴パラメータを出力させ、この音響的特徴パラメータを用いて音声合成を行なうことを特徴としている。
【００１２】
【作用】上記の構成において、学習時において、予め設定された言語で発声された無感情音声と、有感情音声とについて少なくとも声の高さ、大きさ、発声速度、スペクトルのいずれか１つ以上の音響的特徴パラメータを抽出するとともに、これら無感情音声と有感情音声との間の母音、子音の位置の対応をとりつつ、ニューラルネットワークの入力層に無感情音声の音響的特徴パラメータを与えながら、前記ニューラルネットワークの出力層に有感情音声の音響的特徴パラメータを与えることによって、これら無感情音声と有感情音声との間の音響的特徴パラメータの時間的な平均値または時間変化パターンの違いを学習させ、感情付与時において、合成対象となる音声の音響的特徴パラメータを前記ニューラルネットワークの入力層に入力して出力層から所望感情の音響的特徴パラメータを出力させ、この音響的特徴パラメータを用いて音声合成を行なうことにより、感情表現に寄与する静的・動的特徴量を的確に抽出し、かつその抽出結果を音声合成時のパラメータ制御に直接利用を可能にし、これによって人手による変換規則の構築という労力をかけなくとも、感情の違いに応じて複雑に変化する音響的特徴量を十分に制御し、無感情な自然音声や規則合成音声を感情を伴ったものに変換する。
【００１３】
【実施例】以下、図面を参照しながら、本発明による音声合成の感情付与方法の実施例を詳細に説明する。
【００１４】図１は本発明による音声合成の感情付与方法の一実施例を用いた音声処理システムの一例を示すブロック図である。
【００１５】この図に示す音声処理システムは、音響的分析部２と、スペクトルのＤＰマッチング部４と、各音素の時間長伸縮部６と、ニューラルネットワーク部８と、規則による合成パラメータ生成部１０と、時間長伸縮部１２と、音声合成システム部１４とを備えており、同図（ａ）の構成において、ニューラルネットワーク部８に無感情な音声の音響的特徴パラメータを感情を伴った音声の音響的特徴パラメータに変換するための学習を行なわせた後、同図（ｂ）の構成において、学習済みの当該ニューラルネットワーク部８を用いて無感情な音声に感情を付与する。
【００１６】音響的分析部２は、電子計算機内に構築され、ＲＯＭ、ＲＡＭあるいはディスクメモリを併用しながら、Ａ／Ｄ変換されて標本化された自然音声の波形に対して様々な分析を行ない、時々刻々と音響的な特徴パラメータを抽出する。
【００１７】スペクトルのＤＰマッチング部４は、電子計算機内に構築され、ＲＯＭ、ＲＡＭあるいはディスクメモリを併用しながら、音響的分析部２で抽出された特徴パラメータのうち、スペクトルの特徴パラメータについて無感情と感情を伴った音声との間の類似度を時々刻々調べ、同一の音素毎の時間的な対応をとることによって無感情音声に対する感情音声の各音素毎の時間的な伸縮率を求める。
【００１８】各音素の時間長伸縮部６は、電子計算機内に構築され、ＲＯＭ、ＲＡＭあるいはディスクメモリを併用しながら、スペクトルのＤＰマッチング部４で得られた各音素毎の時間的な伸縮率に応じて、感情音声の特徴パラメータの時系列を時間的に正規化して無感情音声に合うようにする。
【００１９】ニューラルネットワーク部８は、電子計算機内に構築され、ＲＯＭ、ＲＡＭあるいはディスクメモリを併用しながら、学習時においては、時々刻々と入力層に与えられる無感情音声の音響的特徴パラメータと出力層に与えられる感情音声の音響的特徴パラメータとの違いを学習する。
【００２０】また、感情の付与時においては、学習時に決定されたネットワーク内部の重み係数を用いて、時々刻々と入力層に与えられる無感情音声の音響的特徴パラメータから感情音声の音響的特徴パラメータを推定する計算を行なう。
【００２１】規則による合成パラメータ生成部１０は、電子計算機内に構築され、ＲＯＭ、ＲＡＭあるいはディスクメモリを併用しながら、文字コードとして与えられた任意の文章を解析し、予め構築された規則によって音声合成に必要な音響的特徴パラメータの時系列を生成する。
【００２２】時間伸縮部１２は、電子計算機内に構築され、ＲＯＭ、ＲＡＭあるいはディスクメモリを併用しながら、ニューラルネットワーク部８の出力層に出力された感情音声の音響的特徴パラメータのうち、各音素毎の時間的な伸縮率に応じて感情音声の特徴パラメータの時系列を時間的に操作して、各部分の発声速度に変化を与える。
【００２３】音声合成システム部１４は、電子計算機内に構築され、ＲＯＭ、ＲＡＭあるいはディスクメモリを併用しながら、時間長伸縮部１２で時間伸縮された感情音声の音響的特徴パラメータに応じて音声の合成を行ない、感情が付与された音声波形を得て、Ｄ／Ａ変換した後、出力する。
【００２４】次に、図１（ａ）、（ｂ）に示す各ブロック図および図２に示す模式図〜図６に示す模式図を参照しながら、この実施例の各部の動作を説明する。
【００２５】＜音響的分析部２の動作＞量子化ビット数１６ｂｉｔ、標本化周波数１５ｋＨｚでＡ／Ｄ変換された音声波形が入力される毎に、音響的分析部２はこれを取り込んで、フレーム幅２０ｍｓ、フレームシフト幅１０ｍｓで様々な分析を行ない、以下に列挙する音声の音響的特徴パラメータをフレーム毎に抽出する。
【００２６】（１）全帯域のパワー（標本値の自乗和）Ｐを理論的な最大パワーで除して正規化した値：Ｐ_a（２）ピッチ周波数を、５０Ｈｚ以下の領域（Ｑ＝１）、５０Ｈｚから８００Ｈｚの間を対数スケールで等間隔に１７等分した領域（Ｑ＝２、…、１８）、８００Ｈｚ以上の領域（Ｑ＝１９）のどこに存在するかによって１９段階に量子化したもの：Ｆ_q＝０．０５Ｑ（Ｑ＝１〜２０）、但し、非有声音と判断された場合はＦ_q＝０．０１とする。
【００２７】（３）自己相関分析による線形予測係数：ａ₁〜ａ₂₀（４）線形予測係数より求めたＬＰＣケプストラム係数：Ｃ₀〜Ｃ₂₀（５）中心周波数８０Ｈｚから６．４５ｋＨｚまで１／３オクターブ幅の２０チャネル帯域フィルタバンクの各帯域出力のパワーを前記（１）の全帯域のパワーＰ_aで除して正規化した値：Ｓ₁〜Ｓ₂₀なお、パワー、ピッチ周波数、線形予測係数、ＬＰＣケプストラム係数、帯域フィルタリング等はデジタル音声処理において、現在一般的によく使用されるものであるので、その算出方法の詳細は省略する。また、Ｐ_a、Ｆ_q、Ｓ₁〜Ｓ₂₀は、後述するニューラルネットワーク部８において扱い易いように、その値が０と１との間で変化するように正規化している。
【００２８】＜スペクトルのＤＰマッチング部４の動作＞同じ話者が同じ語を発声しても、その時間的な長さはその都度変化し、しかも非線形に伸縮する。感情が付加された場合ならばなおさらである。そこで、無感情の音声と、感情を伴った音声との各音素の時間長の比較をするには、両者の同じ音素が対応するように、時間軸を非線形に伸縮する時間正規化を行なう必要がある。この具体的方法として動的計画法（ｄｙｎａｍｉｃｐｒｏｇｒａｍｍｉｎｇ）を用いたＤＰマッチングを用いる。音素の特徴を表わすパラメータとしては、ＬＰＣケプストラム係数を用いる。ここで、無感情な音声のｉ番目のフレームと、感情を伴った音声のｊ番目のフレームとを対応付けるとした場合、各々のＬＰＣケプストラム係数をＣ_k^(N)、Ｃ_K^(E)としてそのスペクトル的な差（距離）Ｄ_ijを、
【数１】

で定義し、距離Ｄ_ijの音声全体としての総和ができるだけ小さくなるように無感情な音声と、感情を伴った音声の各フレーム間の対応付けを行なう。２つの音声の総フレーム数をそれぞれＩ、Ｊとすると、一般にはＩとＪとが異なり、伸縮が生じている部分において一方の１つのフレームに他方の複数のフレームが対応付けられる。また、同一文章であるので、開始のフレーム同士（ｉ＝１とｊ＝１）および終了のフレーム同士（ｉ＝Ｉとｊ＝Ｊ）は必ず対応付け可能であるとする。このＤＰマッチングはデジタル音声処理において現在一般的によく使用されるものであるので、その詳細については省略する。
【００２９】求められたフレーム毎の対応関係を用いて、無感情な音声に対する感情を伴った音声の音素毎の時間的伸縮の程度ｒ（同じ長さならｒ＝１．０倍、１／２に短縮したならｒ＝０．５）が求められるので、Ｒ＝１／（１＋ｒ）を感情を伴った音声の各フレームの話速変化量を表わす特徴パラメータとして付加する。Ｒは、後述するニューラルネットワーク部８において扱い易いように、その値が０と１との間で変化するような形にｒを変形したものである。また、２つの音声の対応する音素の位置でのピッチ周波数等のパラメータの違いを知ることができる。
【００３０】＜各音素の時間長伸縮部６の動作＞無感情音声と感情を伴った音声の各分析フレームの総数をそれぞれＩ、Ｊとした場合、スペクトルのＤＰマッチング部４の結果に基づき、無感情音声のｉ番目（１≦ｉ≦Ｉ）のフレームに対応する感情音声のフレームを１つずつ決定していき、感情音声のフレームを総数でＩ個のフレームに配置しなおす。すなわち、感情音声のＪ個の分析フレームのうち、無感情音声に対して時間的に伸びている部分ではフレームが間引かれ、縮まっている部分では同じフレームが繰り返されて配置される。
【００３１】＜ニューラルネットワーク部８の動作＞（１）まず、本発明で用いられているニューラルネットワーク部８の基本的な動作について説明する。
【００３２】本発明では、ネットワーク部８に時間的依存性を持たせることが有効であると考えられるので、前のパターンの出力を次のパターンの入力にフィードバックさせて、ネットワークにパターンの時間変化も吸収させるような、図２に示すシーケンシャルネットワークと呼ばれるものを用いている。
【００３３】１つのネットワークで複数の感情（喜び、怒り、悲哀など）を合わせて学習することとし、入力層には無感情音声のピッチ、パワー、帯域フィルタ出力のパワーおよび所望の感情の種別を与え、出力層に感情音声のパラメータが出力されるような学習を行なう。
【００３４】このネットワークは入力層、中間層（隠れ層）、出力層の３層からなっている。入力層から中間層、ならびに中間層から出力層の間では、前の層の全ての素子から後の層の全ての素子への結線が存在するものとする。入力層、中間層、出力層の任意の素子の出力を各々Ｘｉ、Ｙｊ、Ｚｋとする。ここで、１≦ｉ≦Ｉ、１≦ｊ≦Ｊ、１≦ｋ≦Ｋであり、Ｉ、Ｊ、Ｋは各々の層の素子数とする。このとき、アナログニューロンの入出力関係を次のように定義する。
【００３５】
【数２】

ここで、ｕ_j：中間層の内部変数ｖ_k：出力層の内部変数ｗ_ij：入力層から中間層への重み関数ｗ_jk：中間層から出力層への重み関数θ_j、θ_k：しきい値ｆ：出力関数（シグモイド関数）
ｆ（ｕ）＝１／｛１＋ｅｘｐ（−ｕ／ｕ₀）｝
但し、ｕ₀は傾きである。ただし、本発明では簡単化のため、しきい値を０とする。
【００３６】次に、本ニューラルネットワーク部８におけるＢＰ（ＢａｃｋＰｒｏｐａｇａｔｉｏｎ）法の学習アルゴリズムを示す。
【００３７】ＢＰ法は、目標出力をｔ_kとすると、目標値と実際の出力層の出力ｚ_kとの誤差の２乗和が最小になるように、重み係数ｗ_ij、ｗ_jkを修正する学習法であり、最初、与えられた入力ｘ_iに対して、各ユニットの出力ｙ_jを、またｙ_jに対して各ユニットの出力ｚ_kをというように、入力側から出力側に向かって順に計算する。
【００３８】この後、次式に示す如く各出力ユニットの出力ｚ_kを与えられた目標出力ｔ_kと比較する。
【００３９】
Ｅ_k＝（ｔ_k−ｚ_k）²／２ …（６）
そして、次式に示す如く誤差逆伝搬量δ_kを計算する。
【００４０】
δ_k＝（ｔ_k−ｚ_k）ｚｋ（１−ｚ_k） …（７）
この場合、中間層と出力層との間の重み関数ｗ_jkのｎ回目の学習時の修正量Δｗ_jk(n) は、Δｗ_jk(n) ＝αδ_kｙ_j＋βΔｗ_jk(n-1) …（８）
となり、各ユニットｋに入る全ての重み関数ｗ_jkを、ｗ_jk→ｗ_jk＋Δｗ_jk(n) …（９）
と変更する。ここで、α、βは学習定数で、誤差逆伝搬量δ_kと、ｎ−１回目の修正量Δｗ_jk(n-1) をどのくらいｎ回目の修正量Δｗ_jk(n) に反映させるかを決定する定数である。
【００４１】次に、次式に基づいて中間層における誤差逆伝搬量δ_jを、
【数３】

を求める。また、入力層と中間層との間の重み係数ｗ_ijのｎ回目の学習時の修正量Δｗ_ij(n) は、中間層と出力層とのときと同様ににして、次式で求められ、Δｗ_ij(n) ＝αδ_jｘ_i＋βΔｗ_ij(n-1) …（１１）
各ユニットｊに入る全ての重み関数ｗ_jkを、ｗ_ij→ｗ_ij＋Δｗ_ij(n) …（１２）
と変更する。
【００４２】以上を各入出力データに対して繰り返し行ない、全ての重み関数の値を繰り返し変化させる。そして、前記（６）式で与えられる出力誤差Ｅ_kの値が与えられたしきい値以下になったら、学習が完了したと見なして停止する。
【００４３】この学習法で問題となるのは、誤差を伝搬させる係数α、βの値は学習させるパターン毎に最適なものが異なり、一意に決められないということである。
【００４４】一般に、α、βの値を大きくすれば、修正量Δｗ_jk(n) は大きくなるが、誤差が収束せず、振動してしまう場合がある。そこで、学習の繰り返し毎に、誤差が最小となるようにパラメータをダイナミックに変更する方法（ＤｙｎａｍｉｃａｌｌｙＣｏｎｔｒｏｌｔｒａｉｎｉｎｇＰａｒａｍｅｔｅｒ、ＤＣＰ法）を用いる。実際には、パラメータの値を有限個用意し、その全てのα、βについて同様に学習を行ない、誤差が最も小さくなるパラメータを選択する。しかし、最適なα、βの選択を行なうのは毎回ではなく、学習回数が１回から１０回までは毎回、１１回目から１００回目までは１０回おき、１０１回目から１０００回目までは１００回おきというように学習回数が増えるにつれてパラメータを更新する回数を少なくする。これは学習が進むにつれて、同じパラメータを選択することが多くなるため、頻繁に最適なパラメータを選び直す必要がないからである。したがって、学習の都度に用意した全てのα、βについて学習を繰り返すことはない。
【００４５】（２）次に、ニューラルネットワーク部８に対する学習データの与え方と、感情パラメータの推定法とを説明する。
【００４６】本発明では、ピッチ周波数やパワーのパターンを制御する方法として様々なものが考えられる。ピッチ周波数、パワー、スペクトル、話速をそれぞれ独立したネットワークで扱うことも、全てを１つのネットワークで扱うことも可能である。あるいは、音響的分析部２で１０［ｍｓ］毎に得られた全てのフレームに対してではなく、モーラ（拍：日本語では仮名文字単位に相当）毎にいくつかの代表点（フレーム）を選定してそれらについてのみ扱うことも考えられる。ここでは、そのいくつかの例について説明する。
【００４７】《例１》ピッチ周波数のパターンのみを扱うネットワークの例図３に示すように、当該フレームから連続して１０フレーム（１００［ｍｓ］）分ずつの代表値を与え、当該フレームを５フレーム（５０［ｍｓ］）分ずつシフトしながら学習していく。そして、当該フレームの学習が終了したならば、各重み係数ｗ_ij、ｗ_jkの値を保持して次の学習データを与え、引き続き各重み係数ｗ_ij、ｗ_jkの値について修正を継続する。またこのとき、スペクトルのＤＰマッチング部４によって、出力層に与える感情音声と、入力層に与える無感情音声とのフレーム数は同じになっている。
【００４８】出力層の目標値として、有感情の量子化ピッチ周波数Ｆ_qの時系列を入力層側の当該フレームに対応するフレームから１０フレーム（１００［ｍｓ］）分与える。したがって、出力層の素子は１０である。
【００４９】入力層には、出力層に与えた感情の種別、無感情の量子化ピッチ周波数Ｆ_qの時系列、出力層からフィードバックされた、１つ前の学習時点での出力層の出力値を与える。扱う感情の種類を４つとすると、その表現方法を２進的に与えることとして、感情の種別を与える素子数は２個となる。したがって、入力層の素子数は２２となる。
【００５０】また、中間層の素子数は１０とする。
【００５１】学習終了後のネットワークを感情付与に用いる場合には、任意の無感情音声から抽出した量子化ピッチ周波数Ｆ_qの時系列と、変換したい感情の種別、出力層からのフィードバックを与える。
【００５２】出力層に現われる推定されたパターンは５フレーム分の重なりがあるので、重なる部分は平均値をとって全体のパターンを構成する。
【００５３】《例２》全てのパラメータを１つのネットワークで扱う場合の例図４に示すように、当該フレームのピッチ周波数・パワー・スペクトル・話速変化率を１フレーム（１０［ｍｓ］）分ずつシフトしながら学習していく。当該フレームの学習が終了したならば、各重み係数ｗ_ij、ｗ_jkの値を保持して次の学習データを与え、引き続き各重み係数ｗ_ij、ｗ_jkの値について修正を継続する。またこのとき、スペクトルのＤＰマッチング部４によって、出力層に与える感情音声と、入力層に与える無感情音声とのフレーム数は同じになっている。
【００５４】出力層の目標値として、入力層側の当該フレームに対応する有感情の量子化ピッチ周波数Ｆ_q・全帯域の正規化パワーＰ_a・帯域フィルタバンク出力Ｓ₁〜Ｓ₂₀・話速変化特徴量Ｒを与える。したがって、出力層の素子数は２３である。
【００５５】入力層には、出力層に与えた感情の種別、無感情の量子化ピッチ周波数Ｆ_q・全帯域の正規化パワーＰ_a・帯域フィルタバンク出力Ｓ₁〜Ｓ₂₀、出力層からフィードバックされた、１つ前の学習時点での出力層の出力値を与える。扱う感情の種類を４つとすると、その表現方法を２進的に与えることとして、感情の種別を与える素子数は２個となる。したがって、入力層の素子数は４７となる。
【００５６】中間層の素子数は出力層と同じ２３とする。
【００５７】学習終了後のネットワークを感情付与に用いる場合には、任意の無感情音声から抽出した量子化ピッチ周波数Ｆ_q・全帯域の正規化パワーＰ_a・帯域フィルタバンク出力Ｓ₁〜Ｓ₂₀と、変換したい感情の種別、出力層からのフィードバックを与える。
【００５８】《例３》モーラの代表値のみを扱う場合（ピッチ周波数のみ扱う）
図５に示すように、各モーラの中心および境界を代表点として、それらに相当するフレームで得られたピッチ周波数をネットワークに与える。
【００５９】ここで、母音中心点の定義は、（１）パワーが極大値となるところ（２）スペクトル変化率Δの安定したところ（３）モーラの中心近くの３条件を基準に選択される。
【００６０】スペクトル変化率Δとは、ＬＰＣ回帰係数δを用いて定義される。δはＬＰＣケプストラム係数ｃ₁〜ｃ₂₀の次数毎の時系列ｃ_i(t) の局所的な動きを回帰直線
【数４】

で近似したときの傾斜を表わす係数である。但し、回帰直線を求める範囲は５フレーム（５０［ｍｓ］の幅）分とする。このδに対して、次式で与えられるΔを時刻ｔにおけるスペクトルの変化率とする。
【００６１】
【数５】

図６に示すように、代表フレームの量子化ピッチ周波数Ｆ_qを各モーラ中心を中央として前後３点ずつ入出力層に与え、１モーラずつシフトしながら学習していく。当該モーラの学習が終了したならば、各重み係数ｗ_ij、ｗ_jkの値を保持して次の学習データを与え、引き続き各重み係数ｗ_ij、ｗ_jkの値について修正を継続する。同一文章を発声しているので、出力層に与える感情音声と、入力層に与える無感情音声とのモーラ数は同じである。しかし、無感情音声と有感情音声の両者について、モーラ中心とモーラ境界に相当するフレームの位置を何等かの方法により（手作業による方法が最も正確）決定する必要がある。
【００６２】出力層の目標値として、有感情の各モーラ代表点３点の量子化ピッチ周波数Ｆ_qの時系列を与えるので、出力層の素子数は３つである。
【００６３】入力層には、出力層に与えられた感情の種別、無感情の各モーラ代表点３点の量子化ピッチ周波数Ｆ_qの時系列、出力層からフィードバックされた、１つ前の学習時点での出力層の出力値を与える。扱う感情の種類を４つとすると、その表現方法を２進法的に与えることとして、感情の種別を与える素子数は２個となる。したがって、入力層の素子数は８となる。
【００６４】中間層の素子数は３とする。
【００６５】学習終了後のネットワークを感情付与に用いる場合には、任意の無感情音声から抽出・決定した各モーラ代表点３点の量子化ピッチ周波数Ｆ_qの時系列と、変換したい感情の種別、出力層からのフィードバックを与える。
【００６６】出力層に現われる推定されたパターンは各モーラの代表値３点のみであるので、時間長情報を別のネットワークにより推定して与え、各モーラの代表値を直線でつないだパターンを構成する。そして、１０［ｍｓ］毎の全てのフレーム値をこの直線より内挿して求める。
【００６７】この方法では、推定させるデータが少ないのが特徴である。しかし、入力音声に対してモーラ位置を決定する必要があるので、無感情に発声された自然の音声波形に自動的に感情を付与する音声信号処理には応用が難しくなるが、逆に規則による音声合成の感情付与では、規則によりモーラ位置が記述されているので応用しやすい。
【００６８】＜規則による合成パラメータ生成部１０の動作＞文字コードからこれを構文解析し、予め内部に構築されている辞書を参照しながら各単語や文節のアクセントを決定し、かつ同様に内部に構築されている様々な音素を表現できるスペクトルの特徴パラメータの中から該当する単語等を構成するのに最適なものを選択する。さらに、規則により文章全体のイントネーションやパワーの変化を決定する。
【００６９】この方法については、既に様々なものが開発されており、その中から適当なものを用いれば良いが、多くの場合、標準語アクセントで平静に発声した場合のイントネーションや声の響きが生成されるように設計されており、無感情に発声された自然音声を分析した場合に類似した音響的特徴パラメータの時系列が得られるので、これを学習済みのニューラルネットワーク部８の入力層に与えれば、感情を伴ったものに変換することができる。
【００７０】＜時間伸縮部１２の動作＞ニューラルネットワーク部８で推定された音響的特徴パラメータのうち、各フ
【外１】

＜０．５があるフレーム数以上連続する部分）では、同じフレームを繰り返し、
【外２】

する部分）では、適宜フレームを間引いて配置しなおす。この操作によって、各部分の発声速度が所望の感情に適合したものに変更される。
【００７１】＜音声合成システム部１４の動作＞音声合成システム部１４の動作は音声信号波形の合成と、帯域フィルタバンクとの２つに分かれる。
【００７２】まず、ニューラルネットワーク部８で推定され、時間長伸縮部１２で時間伸縮
【外３】

を基に音声信号波形を合成する。自然音声から抽出された音響的特徴パラメータを全てそのまま用いれば、元の音声波形が再現されるが、何等かの方法で特徴パラメータを変更して用いれば、概ね元の音声とは違った質の音声が得られる。この方法については、既に様々なものが開発されており、それぞれの音質や自然さの点で異なる特長があり、適当なものを選択して用いればよい。但し、自然音声からパラメータを抽出する方式や、規則による合成パラメータ生成部１０の形式に依存するので、それぞれ適合したものを組み合わせて用いなければならない。
【００７３】次に、中心周波数８０Ｈｚから６．４５ｋＨｚまで１／３オクターブ幅の２０チャネル帯域フィルタバンクの各帯域のパワーゲインをニューラルネットワーク
【外４】

な出力波形を得た後、Ｄ／Ａ変換する。
【００７４】
【発明の効果】以上説明したように本発明によれば、様々な感情表現に寄与する静的・動的音響パラメータを大量の音声資料の中から効率よく的確に抽出でき、かつその抽出結果が音声合成時のパラメータ制御に直接利用できるため、人手による変換規則の構築という労力をかけずに、任意に発声された無感情な自然音声や規則合成音声を感情を伴ったものに変換することが可能になる。
【図面の簡単な説明】
【図１】本発明による音声合成の感情付与方法の一実施例を用いた音声処理システムの一例を示すブロック図である。
【図２】図１に示す音声処理システムで使用されるシーケンシャルネットワークの構成例を示す図である。
【図３】図１に示す音声処理システムにおいてピッチ周波数パターンのみを扱う実施例の一例を説明するための図である。
【図４】図１に示す音声処理システムにおいてピッチ周波数、パワー、スペクトル、話速を１つのネットワークで扱う実施例の一例を説明するための図である。
【図５】図１に示す音声処理システムにおいて各モーラの代表値のみを用いて感情を付与する実施例のため、モーラ代表値を決定する方法を説明する図である。
【図６】図１に示す音声処理システムにおいてピッチ周波数パターンの各モーラの代表値のみを用いて感情を付与する実施例の一例を説明するための図である。
【符号の説明】
２音響的分析部
４スペクトルのＤＰマッチング部
６各音素の時間長伸縮部
８ニューラルネットワーク部
１０規則による合成パラメータ生成部
１２時間長伸縮部
１４音声合成システム部

【特許請求の範囲】
【請求項１】学習時において、予め設定された言語で発声された無感情音声と、有感情音声とについて少なくとも声の高さ、大きさ、発声速度、スペクトルのいずれか１つ以上の音響的特徴パラメータを抽出するとともに、これら無感情音声と有感情音声との間の母音、子音の位置の対応をとりつつ、ニューラルネットワークの入力層に無感情音声の音響的特徴パラメータを与えながら、前記ニューラルネットワークの出力層に有感情音声の音響的特徴パラメータを与えることによって、これら無感情音声と有感情音声との間の音響的特徴パラメータの時間的な平均値または時間変化パターンの違いを学習させ、感情付与時において、合成対象となる音声の音響的特徴パラメータを前記ニューラルネットワークの入力層に入力して出力層から所望感情の音響的特徴パラメータを出力させ、この音響的特徴パラメータを用いて音声合成を行なう、ことを特徴とする音声合成の感情付与方法。
【請求項２】前記ニューラルネットワークは少なくともピッチ周波数、大きさ、発声速度、スペクトルのいずれか１つ以上をパラメータとして扱うネットワークであって、音声からこれらのパラメータを抽出する時間間隔は、一定間隔またはモーラの代表値のみを抽出して扱うネットワークである請求項１記載の音声合成の感情付与方法。
【請求項３】合成対象となる音声の音響的特徴パラメータは任意の文章を無感情に発声した音声を分析して得られた各種の音響的特徴パラメータ、またはある任意の文字列を標準的な抑揚を持った合成音声を生成するための合成用パラメータのいずれかである請求項１または２記載の音声合成の感情付与方法。

【図２】

【図１】

【図３】

【図４】

【図５】

【図６】

【公開番号】特開平７−７２９００
【公開日】平成７年（１９９５）３月１７日
【国際特許分類】

物理学 (1,541,580)
- 計算；計数 (381,677)
  - 電気的デジタルデータ処理 (228,215)
    - デジタル計算機一般 (4,503)
      - 一回の動作期間に，計算機自身が経験を積むことによりプログラムが... (26)

【出願番号】特願平５−２１８７１０
【出願日】平成５年（１９９３）９月２日
【新規性喪失の例外の表示】特許法第３０条第１項適用申請有り平成５年３月１７日、社団法人日本音響学会発行の「日本音響学会平成５年度春季研究発表会講演論文集−Ｉ−」に発表
【出願人】（０００００４３５２）日本放送協会 (2,206)

[ Back to top ]

音声合成の感情付与方法

メニュー

スポンサーリンク

次の公報 »

« 前の公報

音声合成の感情付与方法

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク