説明

音声合成の感情付与方法

【目的】 様々な感情表現に寄与する静的・動的音響パラメータを大量の音声資料の中から効率よく的確に抽出し、かつその抽出結果が音声合成時のパラメータ制御に直接利用し得るようにし、人手による変換規則の構築という労力をかけずに、任意に発声された無感情な自然音声や規則合成音声を感情を伴ったものに変換する。
【構成】 音響的分析部2によって無感情な音声の音響的特徴パラメータと感情を伴った音声の音響的特徴パラメータとを抽出するとともに、ニューラルネットワーク部8によって前記無感情な音声の音響的特徴パラメータを感情を伴った音声の音響的特徴パラメータに変換するための学習を行なわせた後、学習済みの当該ニューラルネットワーク部8を用いて無感情な音声に感情を付与する。

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は放送番組や映画等の制作時において無感情に発声された音声を感情を有する音声に変換する信号処理装置、あるいは任意の文字列を基に規則によって音声を合成する装置などで使用される音声合成の感情付与方法に関する。
【0002】[発明の概要]本発明は放送番組制作等において、標準的な抑揚および速度で無感情に発声された音声を感情を有する音声に変換する音声信号処理装置、あるいは任意の文字列を基に規則によって音声を合成する装置において、出力音声に付加される感情を制御する方法に関するもので、ニューラルネットワークに、無感情な音声と感情を伴った音声との音響的特徴パラメータの時間的な平均値や変化パターンの違いを学習させておき、任意に発声された無感情な音声から抽出した音響的特徴パラメータ、あるいは規則によって音声を合成する際の合成用パラメータを当該ニューラルネットワークの入力層に与えることによって、その出力層に所望の感情に類似した値を得ることにより、無感情な自然音声や規則合成音声を、自動的に所望の感情を伴ったものに変換することを可能にしたものである。
【0003】
【従来の技術】従来、自然音声において、無感情なものと、感情を有するものの音声とを音響的に分析し、その物理的な違いを明らかにする調査研究はさまざまにに行われてきたが、それらの知見を基にした、無感情音声を感情を有するものに変換する技術については、ほとんど研究開発が行われていない。その数少ない例としては、韻律すなわち、声の高さ、大きさ、速さの3つの音響的特徴量を無感情と歓喜・怒り・悲哀の3感情の各分析結果の観察から対比させ、無感情音声を上記各3感情に変換するための声の高さ、大きさ、速さのそれぞれについて簡単な変換規則を作成し、分析に用いた音声とは別の意味内容の無感情音声に対してこの変換規則を適用し、感情付与を試みたものがある(電子情報通信学会、技術報告、SP88−158、pp.27−32、1989年3月)。
【0004】しかし、このような簡単な規則による制御では、特に声の高さの時間変化パターン(いわゆるイントネーション)のような感情の違いに応じて複雑に変化する要素に対して十分な制御を行なうことができない。
【0005】このため、このような制御を行なっても、その効果に限界があり、必ずしも所望の感情に変換することができない。
【0006】また、スペクトルの制御については、例えば合成音声で強い声と弱い声との違いを表現するという立場から調査研究はなされているが、合成音声の感情表現という立場からのものはない。
【0007】また、任意の文字列から規則によって音声を合成する、いわゆる規則合成においては、通常の無感情な音声を如何に自然なイントネーションやアクセント、明瞭な響きで合成するかと言う点にほとんどの努力が払われており、未だその規則の中に感情を制御する要素を加える技術は皆無と言ってよい。
【0008】
【発明が解決しようとする課題】上述した従来の技術から明らかなように、従来から行われてきた感情を伴った音声に対する音響的分析の結果によれば、感情表現に寄与する物理パラメータとして、声の高さ、大きさ、発声速度、スペクトルなどが挙げられるが、これらは全てある発声時間を通じて一定な静的要素と時々刻々ダイナミックに変化する動的要素に分けて考えることができる。
【0009】例えば、声の高さについて言えば、全体の平均的な高さが静的要素にあたり、イントネーションが動的要素にあたるため、感情を表現しようとするとき、静的要素のみならず動的要素が重要な働きをすると考えられるが、無感情な音声と感情を伴った音声の動的な要素の分析結果を観察し、その微妙な違いを定式化することは非常に手間がかかり、したがって多くの人が発声した様々な感情音声について検討し、特定の感情への変換規則を構築することは多大な労力を要することが予想される。
【0010】本発明は上記の事情に鑑み、感情表現に寄与する物理量を大量の音声資料を対象に効率よく分析し、各感情における静的・動的特徴量を的確に抽出し、かつその抽出結果が音声合成時のパラメータ制御に直接利用できる形で与えられる音声合成の感情付与方法を提供することを目的としている。
【0011】
【課題を解決するための手段】上記の目的を達成するために本発明による音声合成の感情付与方法は、学習時において、予め設定された言語で発声された無感情音声と、有感情音声とについて少なくとも声の高さ、大きさ、発声速度、スペクトルのいずれか1つ以上の音響的特徴パラメータを抽出するとともに、これら無感情音声と有感情音声との間の母音、子音の位置の対応をとりつつ、ニューラルネットワークの入力層に無感情音声の音響的特徴パラメータを与えながら、前記ニューラルネットワークの出力層に有感情音声の音響的特徴パラメータを与えることによって、これら無感情音声と有感情音声との間の音響的特徴パラメータの時間的な平均値または時間変化パターンの違いを学習させ、感情付与時において、合成対象となる音声の音響的特徴パラメータを前記ニューラルネットワークの入力層に入力して出力層から所望感情の音響的特徴パラメータを出力させ、この音響的特徴パラメータを用いて音声合成を行なうことを特徴としている。
【0012】
【作用】上記の構成において、学習時において、予め設定された言語で発声された無感情音声と、有感情音声とについて少なくとも声の高さ、大きさ、発声速度、スペクトルのいずれか1つ以上の音響的特徴パラメータを抽出するとともに、これら無感情音声と有感情音声との間の母音、子音の位置の対応をとりつつ、ニューラルネットワークの入力層に無感情音声の音響的特徴パラメータを与えながら、前記ニューラルネットワークの出力層に有感情音声の音響的特徴パラメータを与えることによって、これら無感情音声と有感情音声との間の音響的特徴パラメータの時間的な平均値または時間変化パターンの違いを学習させ、感情付与時において、合成対象となる音声の音響的特徴パラメータを前記ニューラルネットワークの入力層に入力して出力層から所望感情の音響的特徴パラメータを出力させ、この音響的特徴パラメータを用いて音声合成を行なうことにより、感情表現に寄与する静的・動的特徴量を的確に抽出し、かつその抽出結果を音声合成時のパラメータ制御に直接利用を可能にし、これによって人手による変換規則の構築という労力をかけなくとも、感情の違いに応じて複雑に変化する音響的特徴量を十分に制御し、無感情な自然音声や規則合成音声を感情を伴ったものに変換する。
【0013】
【実施例】以下、図面を参照しながら、本発明による音声合成の感情付与方法の実施例を詳細に説明する。
【0014】図1は本発明による音声合成の感情付与方法の一実施例を用いた音声処理システムの一例を示すブロック図である。
【0015】この図に示す音声処理システムは、音響的分析部2と、スペクトルのDPマッチング部4と、各音素の時間長伸縮部6と、ニューラルネットワーク部8と、規則による合成パラメータ生成部10と、時間長伸縮部12と、音声合成システム部14とを備えており、同図(a)の構成において、ニューラルネットワーク部8に無感情な音声の音響的特徴パラメータを感情を伴った音声の音響的特徴パラメータに変換するための学習を行なわせた後、同図(b)の構成において、学習済みの当該ニューラルネットワーク部8を用いて無感情な音声に感情を付与する。
【0016】音響的分析部2は、電子計算機内に構築され、ROM、RAMあるいはディスクメモリを併用しながら、A/D変換されて標本化された自然音声の波形に対して様々な分析を行ない、時々刻々と音響的な特徴パラメータを抽出する。
【0017】スペクトルのDPマッチング部4は、電子計算機内に構築され、ROM、RAMあるいはディスクメモリを併用しながら、音響的分析部2で抽出された特徴パラメータのうち、スペクトルの特徴パラメータについて無感情と感情を伴った音声との間の類似度を時々刻々調べ、同一の音素毎の時間的な対応をとることによって無感情音声に対する感情音声の各音素毎の時間的な伸縮率を求める。
【0018】各音素の時間長伸縮部6は、電子計算機内に構築され、ROM、RAMあるいはディスクメモリを併用しながら、スペクトルのDPマッチング部4で得られた各音素毎の時間的な伸縮率に応じて、感情音声の特徴パラメータの時系列を時間的に正規化して無感情音声に合うようにする。
【0019】ニューラルネットワーク部8は、電子計算機内に構築され、ROM、RAMあるいはディスクメモリを併用しながら、学習時においては、時々刻々と入力層に与えられる無感情音声の音響的特徴パラメータと出力層に与えられる感情音声の音響的特徴パラメータとの違いを学習する。
【0020】また、感情の付与時においては、学習時に決定されたネットワーク内部の重み係数を用いて、時々刻々と入力層に与えられる無感情音声の音響的特徴パラメータから感情音声の音響的特徴パラメータを推定する計算を行なう。
【0021】規則による合成パラメータ生成部10は、電子計算機内に構築され、ROM、RAMあるいはディスクメモリを併用しながら、文字コードとして与えられた任意の文章を解析し、予め構築された規則によって音声合成に必要な音響的特徴パラメータの時系列を生成する。
【0022】時間伸縮部12は、電子計算機内に構築され、ROM、RAMあるいはディスクメモリを併用しながら、ニューラルネットワーク部8の出力層に出力された感情音声の音響的特徴パラメータのうち、各音素毎の時間的な伸縮率に応じて感情音声の特徴パラメータの時系列を時間的に操作して、各部分の発声速度に変化を与える。
【0023】音声合成システム部14は、電子計算機内に構築され、ROM、RAMあるいはディスクメモリを併用しながら、時間長伸縮部12で時間伸縮された感情音声の音響的特徴パラメータに応じて音声の合成を行ない、感情が付与された音声波形を得て、D/A変換した後、出力する。
【0024】次に、図1(a)、(b)に示す各ブロック図および図2に示す模式図〜図6に示す模式図を参照しながら、この実施例の各部の動作を説明する。
【0025】<音響的分析部2の動作>量子化ビット数16bit、標本化周波数15kHzでA/D変換された音声波形が入力される毎に、音響的分析部2はこれを取り込んで、フレーム幅20ms、フレームシフト幅10msで様々な分析を行ない、以下に列挙する音声の音響的特徴パラメータをフレーム毎に抽出する。
【0026】(1)全帯域のパワー(標本値の自乗和)Pを理論的な最大パワーで除して正規化した値:Pa(2)ピッチ周波数を、50Hz以下の領域(Q=1)、50Hzから800Hzの間を対数スケールで等間隔に17等分した領域(Q=2、…、18)、800Hz以上の領域(Q=19)のどこに存在するかによって19段階に量子化したもの:Fq =0.05Q(Q=1〜20)、但し、非有声音と判断された場合はFq =0.01とする。
【0027】(3)自己相関分析による線形予測係数:a1 〜a20(4)線形予測係数より求めたLPCケプストラム係数:C0 〜C20(5)中心周波数80Hzから6.45kHzまで1/3オクターブ幅の20チャネル帯域フィルタバンクの各帯域出力のパワーを前記(1)の全帯域のパワーPa で除して正規化した値:S1 〜S20なお、パワー、ピッチ周波数、線形予測係数、LPCケプストラム係数、帯域フィルタリング等はデジタル音声処理において、現在一般的によく使用されるものであるので、その算出方法の詳細は省略する。また、Pa 、Fq 、S1 〜S20は、後述するニューラルネットワーク部8において扱い易いように、その値が0と1との間で変化するように正規化している。
【0028】<スペクトルのDPマッチング部4の動作>同じ話者が同じ語を発声しても、その時間的な長さはその都度変化し、しかも非線形に伸縮する。感情が付加された場合ならばなおさらである。そこで、無感情の音声と、感情を伴った音声との各音素の時間長の比較をするには、両者の同じ音素が対応するように、時間軸を非線形に伸縮する時間正規化を行なう必要がある。この具体的方法として動的計画法(dynamic programming)を用いたDPマッチングを用いる。音素の特徴を表わすパラメータとしては、LPCケプストラム係数を用いる。ここで、無感情な音声のi番目のフレームと、感情を伴った音声のj番目のフレームとを対応付けるとした場合、各々のLPCケプストラム係数をCk (N) 、CK (E) としてそのスペクトル的な差(距離)Dijを、
【数1】


で定義し、距離Dijの音声全体としての総和ができるだけ小さくなるように無感情な音声と、感情を伴った音声の各フレーム間の対応付けを行なう。2つの音声の総フレーム数をそれぞれI、Jとすると、一般にはIとJとが異なり、伸縮が生じている部分において一方の1つのフレームに他方の複数のフレームが対応付けられる。また、同一文章であるので、開始のフレーム同士(i=1とj=1)および終了のフレーム同士(i=Iとj=J)は必ず対応付け可能であるとする。このDPマッチングはデジタル音声処理において現在一般的によく使用されるものであるので、その詳細については省略する。
【0029】求められたフレーム毎の対応関係を用いて、無感情な音声に対する感情を伴った音声の音素毎の時間的伸縮の程度r(同じ長さならr=1.0倍、1/2に短縮したならr=0.5)が求められるので、R=1/(1+r)を感情を伴った音声の各フレームの話速変化量を表わす特徴パラメータとして付加する。Rは、後述するニューラルネットワーク部8において扱い易いように、その値が0と1との間で変化するような形にrを変形したものである。また、2つの音声の対応する音素の位置でのピッチ周波数等のパラメータの違いを知ることができる。
【0030】<各音素の時間長伸縮部6の動作>無感情音声と感情を伴った音声の各分析フレームの総数をそれぞれI、Jとした場合、スペクトルのDPマッチング部4の結果に基づき、無感情音声のi番目(1≦i≦I)のフレームに対応する感情音声のフレームを1つずつ決定していき、感情音声のフレームを総数でI個のフレームに配置しなおす。すなわち、感情音声のJ個の分析フレームのうち、無感情音声に対して時間的に伸びている部分ではフレームが間引かれ、縮まっている部分では同じフレームが繰り返されて配置される。
【0031】<ニューラルネットワーク部8の動作>(1)まず、本発明で用いられているニューラルネットワーク部8の基本的な動作について説明する。
【0032】本発明では、ネットワーク部8に時間的依存性を持たせることが有効であると考えられるので、前のパターンの出力を次のパターンの入力にフィードバックさせて、ネットワークにパターンの時間変化も吸収させるような、図2に示すシーケンシャルネットワークと呼ばれるものを用いている。
【0033】1つのネットワークで複数の感情(喜び、怒り、悲哀など)を合わせて学習することとし、入力層には無感情音声のピッチ、パワー、帯域フィルタ出力のパワーおよび所望の感情の種別を与え、出力層に感情音声のパラメータが出力されるような学習を行なう。
【0034】このネットワークは入力層、中間層(隠れ層)、出力層の3層からなっている。入力層から中間層、ならびに中間層から出力層の間では、前の層の全ての素子から後の層の全ての素子への結線が存在するものとする。入力層、中間層、出力層の任意の素子の出力を各々Xi、Yj、Zkとする。ここで、1≦i≦I、1≦j≦J、1≦k≦Kであり、I、J、Kは各々の層の素子数とする。このとき、アナログニューロンの入出力関係を次のように定義する。
【0035】
【数2】


ここで、uj :中間層の内部変数vk :出力層の内部変数wij:入力層から中間層への重み関数wjk:中間層から出力層への重み関数θj 、θk :しきい値f:出力関数(シグモイド関数)
f(u)=1/{1+exp(−u/u0 )}
但し、u0 は傾きである。ただし、本発明では簡単化のため、しきい値を0とする。
【0036】次に、本ニューラルネットワーク部8におけるBP(Back Propagation)法の学習アルゴリズムを示す。
【0037】BP法は、目標出力をtk とすると、目標値と実際の出力層の出力zk との誤差の2乗和が最小になるように、重み係数wij、wjkを修正する学習法であり、最初、与えられた入力xi に対して、各ユニットの出力yj を、またyj に対して各ユニットの出力zk をというように、入力側から出力側に向かって順に計算する。
【0038】この後、次式に示す如く各出力ユニットの出力zk を与えられた目標出力tkと比較する。
【0039】
k =(tk −zk 2 /2 …(6)
そして、次式に示す如く誤差逆伝搬量δk を計算する。
【0040】
δk =(tk −zk )zk(1−zk ) …(7)
この場合、中間層と出力層との間の重み関数wjkのn回目の学習時の修正量Δwjk(n) は、Δwjk(n) =αδk j +βΔwjk(n-1) …(8)
となり、各ユニットkに入る全ての重み関数wjkを、wjk→wjk+Δwjk(n) …(9)
と変更する。ここで、α、βは学習定数で、誤差逆伝搬量δk と、n−1回目の修正量Δwjk(n-1) をどのくらいn回目の修正量Δwjk(n) に反映させるかを決定する定数である。
【0041】次に、次式に基づいて中間層における誤差逆伝搬量δj を、
【数3】


を求める。また、入力層と中間層との間の重み係数wijのn回目の学習時の修正量Δwij(n) は、中間層と出力層とのときと同様ににして、次式で求められ、Δwij(n) =αδj i +βΔwij(n-1) …(11)
各ユニットjに入る全ての重み関数wjkを、wij→wij+Δwij(n) …(12)
と変更する。
【0042】以上を各入出力データに対して繰り返し行ない、全ての重み関数の値を繰り返し変化させる。そして、前記(6)式で与えられる出力誤差Ek の値が与えられたしきい値以下になったら、学習が完了したと見なして停止する。
【0043】この学習法で問題となるのは、誤差を伝搬させる係数α、βの値は学習させるパターン毎に最適なものが異なり、一意に決められないということである。
【0044】一般に、α、βの値を大きくすれば、修正量Δwjk(n) は大きくなるが、誤差が収束せず、振動してしまう場合がある。そこで、学習の繰り返し毎に、誤差が最小となるようにパラメータをダイナミックに変更する方法(Dynamically Control training Parameter、DCP法)を用いる。実際には、パラメータの値を有限個用意し、その全てのα、βについて同様に学習を行ない、誤差が最も小さくなるパラメータを選択する。しかし、最適なα、βの選択を行なうのは毎回ではなく、学習回数が1回から10回までは毎回、11回目から100回目までは10回おき、101回目から1000回目までは100回おきというように学習回数が増えるにつれてパラメータを更新する回数を少なくする。これは学習が進むにつれて、同じパラメータを選択することが多くなるため、頻繁に最適なパラメータを選び直す必要がないからである。したがって、学習の都度に用意した全てのα、βについて学習を繰り返すことはない。
【0045】(2)次に、ニューラルネットワーク部8に対する学習データの与え方と、感情パラメータの推定法とを説明する。
【0046】本発明では、ピッチ周波数やパワーのパターンを制御する方法として様々なものが考えられる。ピッチ周波数、パワー、スペクトル、話速をそれぞれ独立したネットワークで扱うことも、全てを1つのネットワークで扱うことも可能である。あるいは、音響的分析部2で10[ms]毎に得られた全てのフレームに対してではなく、モーラ(拍:日本語では仮名文字単位に相当)毎にいくつかの代表点(フレーム)を選定してそれらについてのみ扱うことも考えられる。ここでは、そのいくつかの例について説明する。
【0047】《例1》ピッチ周波数のパターンのみを扱うネットワークの例図3に示すように、当該フレームから連続して10フレーム(100[ms])分ずつの代表値を与え、当該フレームを5フレーム(50[ms])分ずつシフトしながら学習していく。そして、当該フレームの学習が終了したならば、各重み係数wij、wjkの値を保持して次の学習データを与え、引き続き各重み係数wij、wjkの値について修正を継続する。またこのとき、スペクトルのDPマッチング部4によって、出力層に与える感情音声と、入力層に与える無感情音声とのフレーム数は同じになっている。
【0048】出力層の目標値として、有感情の量子化ピッチ周波数Fq の時系列を入力層側の当該フレームに対応するフレームから10フレーム(100[ms])分与える。したがって、出力層の素子は10である。
【0049】入力層には、出力層に与えた感情の種別、無感情の量子化ピッチ周波数Fq の時系列、出力層からフィードバックされた、1つ前の学習時点での出力層の出力値を与える。扱う感情の種類を4つとすると、その表現方法を2進的に与えることとして、感情の種別を与える素子数は2個となる。したがって、入力層の素子数は22となる。
【0050】また、中間層の素子数は10とする。
【0051】学習終了後のネットワークを感情付与に用いる場合には、任意の無感情音声から抽出した量子化ピッチ周波数Fq の時系列と、変換したい感情の種別、出力層からのフィードバックを与える。
【0052】出力層に現われる推定されたパターンは5フレーム分の重なりがあるので、重なる部分は平均値をとって全体のパターンを構成する。
【0053】《例2》全てのパラメータを1つのネットワークで扱う場合の例図4に示すように、当該フレームのピッチ周波数・パワー・スペクトル・話速変化率を1フレーム(10[ms])分ずつシフトしながら学習していく。当該フレームの学習が終了したならば、各重み係数wij、wjkの値を保持して次の学習データを与え、引き続き各重み係数wij、wjkの値について修正を継続する。またこのとき、スペクトルのDPマッチング部4によって、出力層に与える感情音声と、入力層に与える無感情音声とのフレーム数は同じになっている。
【0054】出力層の目標値として、入力層側の当該フレームに対応する有感情の量子化ピッチ周波数Fq ・全帯域の正規化パワーPa ・帯域フィルタバンク出力S1 〜S20・話速変化特徴量Rを与える。したがって、出力層の素子数は23である。
【0055】入力層には、出力層に与えた感情の種別、無感情の量子化ピッチ周波数Fq ・全帯域の正規化パワーPa ・帯域フィルタバンク出力S1 〜S20、出力層からフィードバックされた、1つ前の学習時点での出力層の出力値を与える。扱う感情の種類を4つとすると、その表現方法を2進的に与えることとして、感情の種別を与える素子数は2個となる。したがって、入力層の素子数は47となる。
【0056】中間層の素子数は出力層と同じ23とする。
【0057】学習終了後のネットワークを感情付与に用いる場合には、任意の無感情音声から抽出した量子化ピッチ周波数Fq ・全帯域の正規化パワーPa ・帯域フィルタバンク出力S1 〜S20と、変換したい感情の種別、出力層からのフィードバックを与える。
【0058】《例3》モーラの代表値のみを扱う場合(ピッチ周波数のみ扱う)
図5に示すように、各モーラの中心および境界を代表点として、それらに相当するフレームで得られたピッチ周波数をネットワークに与える。
【0059】ここで、母音中心点の定義は、(1)パワーが極大値となるところ(2)スペクトル変化率Δの安定したところ(3)モーラの中心近くの3条件を基準に選択される。
【0060】スペクトル変化率Δとは、LPC回帰係数δを用いて定義される。δはLPCケプストラム係数c1 〜c20の次数毎の時系列ci (t) の局所的な動きを回帰直線
【数4】


で近似したときの傾斜を表わす係数である。但し、回帰直線を求める範囲は5フレーム(50[ms]の幅)分とする。このδに対して、次式で与えられるΔを時刻tにおけるスペクトルの変化率とする。
【0061】
【数5】


図6に示すように、代表フレームの量子化ピッチ周波数Fq を各モーラ中心を中央として前後3点ずつ入出力層に与え、1モーラずつシフトしながら学習していく。当該モーラの学習が終了したならば、各重み係数wij、wjkの値を保持して次の学習データを与え、引き続き各重み係数wij、wjkの値について修正を継続する。同一文章を発声しているので、出力層に与える感情音声と、入力層に与える無感情音声とのモーラ数は同じである。しかし、無感情音声と有感情音声の両者について、モーラ中心とモーラ境界に相当するフレームの位置を何等かの方法により(手作業による方法が最も正確)決定する必要がある。
【0062】出力層の目標値として、有感情の各モーラ代表点3点の量子化ピッチ周波数Fq の時系列を与えるので、出力層の素子数は3つである。
【0063】入力層には、出力層に与えられた感情の種別、無感情の各モーラ代表点3点の量子化ピッチ周波数Fq の時系列、出力層からフィードバックされた、1つ前の学習時点での出力層の出力値を与える。扱う感情の種類を4つとすると、その表現方法を2進法的に与えることとして、感情の種別を与える素子数は2個となる。したがって、入力層の素子数は8となる。
【0064】中間層の素子数は3とする。
【0065】学習終了後のネットワークを感情付与に用いる場合には、任意の無感情音声から抽出・決定した各モーラ代表点3点の量子化ピッチ周波数Fq の時系列と、変換したい感情の種別、出力層からのフィードバックを与える。
【0066】出力層に現われる推定されたパターンは各モーラの代表値3点のみであるので、時間長情報を別のネットワークにより推定して与え、各モーラの代表値を直線でつないだパターンを構成する。そして、10[ms]毎の全てのフレーム値をこの直線より内挿して求める。
【0067】この方法では、推定させるデータが少ないのが特徴である。しかし、入力音声に対してモーラ位置を決定する必要があるので、無感情に発声された自然の音声波形に自動的に感情を付与する音声信号処理には応用が難しくなるが、逆に規則による音声合成の感情付与では、規則によりモーラ位置が記述されているので応用しやすい。
【0068】<規則による合成パラメータ生成部10の動作>文字コードからこれを構文解析し、予め内部に構築されている辞書を参照しながら各単語や文節のアクセントを決定し、かつ同様に内部に構築されている様々な音素を表現できるスペクトルの特徴パラメータの中から該当する単語等を構成するのに最適なものを選択する。さらに、規則により文章全体のイントネーションやパワーの変化を決定する。
【0069】この方法については、既に様々なものが開発されており、その中から適当なものを用いれば良いが、多くの場合、標準語アクセントで平静に発声した場合のイントネーションや声の響きが生成されるように設計されており、無感情に発声された自然音声を分析した場合に類似した音響的特徴パラメータの時系列が得られるので、これを学習済みのニューラルネットワーク部8の入力層に与えれば、感情を伴ったものに変換することができる。
【0070】<時間伸縮部12の動作>ニューラルネットワーク部8で推定された音響的特徴パラメータのうち、各フ
【外1】


<0.5があるフレーム数以上連続する部分)では、同じフレームを繰り返し、
【外2】


する部分)では、適宜フレームを間引いて配置しなおす。この操作によって、各部分の発声速度が所望の感情に適合したものに変更される。
【0071】<音声合成システム部14の動作>音声合成システム部14の動作は音声信号波形の合成と、帯域フィルタバンクとの2つに分かれる。
【0072】まず、ニューラルネットワーク部8で推定され、時間長伸縮部12で時間伸縮
【外3】


を基に音声信号波形を合成する。自然音声から抽出された音響的特徴パラメータを全てそのまま用いれば、元の音声波形が再現されるが、何等かの方法で特徴パラメータを変更して用いれば、概ね元の音声とは違った質の音声が得られる。この方法については、既に様々なものが開発されており、それぞれの音質や自然さの点で異なる特長があり、適当なものを選択して用いればよい。但し、自然音声からパラメータを抽出する方式や、規則による合成パラメータ生成部10の形式に依存するので、それぞれ適合したものを組み合わせて用いなければならない。
【0073】次に、中心周波数80Hzから6.45kHzまで1/3オクターブ幅の20チャネル帯域フィルタバンクの各帯域のパワーゲインをニューラルネットワーク
【外4】


な出力波形を得た後、D/A変換する。
【0074】
【発明の効果】以上説明したように本発明によれば、様々な感情表現に寄与する静的・動的音響パラメータを大量の音声資料の中から効率よく的確に抽出でき、かつその抽出結果が音声合成時のパラメータ制御に直接利用できるため、人手による変換規則の構築という労力をかけずに、任意に発声された無感情な自然音声や規則合成音声を感情を伴ったものに変換することが可能になる。
【図面の簡単な説明】
【図1】本発明による音声合成の感情付与方法の一実施例を用いた音声処理システムの一例を示すブロック図である。
【図2】図1に示す音声処理システムで使用されるシーケンシャルネットワークの構成例を示す図である。
【図3】図1に示す音声処理システムにおいてピッチ周波数パターンのみを扱う実施例の一例を説明するための図である。
【図4】図1に示す音声処理システムにおいてピッチ周波数、パワー、スペクトル、話速を1つのネットワークで扱う実施例の一例を説明するための図である。
【図5】図1に示す音声処理システムにおいて各モーラの代表値のみを用いて感情を付与する実施例のため、モーラ代表値を決定する方法を説明する図である。
【図6】図1に示す音声処理システムにおいてピッチ周波数パターンの各モーラの代表値のみを用いて感情を付与する実施例の一例を説明するための図である。
【符号の説明】
2 音響的分析部
4 スペクトルのDPマッチング部
6 各音素の時間長伸縮部
8 ニューラルネットワーク部
10 規則による合成パラメータ生成部
12 時間長伸縮部
14 音声合成システム部

【特許請求の範囲】
【請求項1】 学習時において、予め設定された言語で発声された無感情音声と、有感情音声とについて少なくとも声の高さ、大きさ、発声速度、スペクトルのいずれか1つ以上の音響的特徴パラメータを抽出するとともに、これら無感情音声と有感情音声との間の母音、子音の位置の対応をとりつつ、ニューラルネットワークの入力層に無感情音声の音響的特徴パラメータを与えながら、前記ニューラルネットワークの出力層に有感情音声の音響的特徴パラメータを与えることによって、これら無感情音声と有感情音声との間の音響的特徴パラメータの時間的な平均値または時間変化パターンの違いを学習させ、感情付与時において、合成対象となる音声の音響的特徴パラメータを前記ニューラルネットワークの入力層に入力して出力層から所望感情の音響的特徴パラメータを出力させ、この音響的特徴パラメータを用いて音声合成を行なう、ことを特徴とする音声合成の感情付与方法。
【請求項2】 前記ニューラルネットワークは少なくともピッチ周波数、大きさ、発声速度、スペクトルのいずれか1つ以上をパラメータとして扱うネットワークであって、音声からこれらのパラメータを抽出する時間間隔は、一定間隔またはモーラの代表値のみを抽出して扱うネットワークである請求項1記載の音声合成の感情付与方法。
【請求項3】 合成対象となる音声の音響的特徴パラメータは任意の文章を無感情に発声した音声を分析して得られた各種の音響的特徴パラメータ、またはある任意の文字列を標準的な抑揚を持った合成音声を生成するための合成用パラメータのいずれかである請求項1または2記載の音声合成の感情付与方法。

【図2】
image rotate


【図1】
image rotate


【図3】
image rotate


【図4】
image rotate


【図5】
image rotate


【図6】
image rotate


【公開番号】特開平7−72900
【公開日】平成7年(1995)3月17日
【国際特許分類】
【出願番号】特願平5−218710
【出願日】平成5年(1993)9月2日
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り 平成5年3月17日、社団法人日本音響学会発行の「日本音響学会平成5年度春季研究発表会講演論文集−I−」に発表
【出願人】(000004352)日本放送協会 (2,206)