説明

音声合成装置

【課題】音声素片の記憶に必要な記憶容量を削減する。
【解決手段】記憶装置14は、音声素片の各フレームの振幅スペクトルSMを示す音声素片データDを記憶する。位相算定部32は、音声素片データDが示す振幅スペクトルSMに対応する最小位相を音声素片の位相スペクトルSPとしてフレーム毎に算定する。音声合成部34は、音声素片データDが示す各フレームの振幅スペクトルSMと位相算定部32による算定後の各フレームの位相スペクトルSPとを利用して音声信号VOUTを生成する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複数の音声素片の連結で発話音や歌唱音等の音声を合成する技術に関する。
【背景技術】
【0002】
複数の音声素片を相互に連結することで所望の音声を合成する素片接続型の音声合成技術が従来から提案されている。例えば特許文献1の技術では、音声素片の各フレームの振幅スペクトルおよび位相スペクトルが記憶装置に格納され、振幅スペクトルおよび位相スペクトルの各々を個別に処理したうえで時間領域の信号に変換して相互に連結することで音声信号が生成される。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特許第4349316号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、特許文献1の技術では、各音声素片のフレーム毎に振幅スペクトルおよび位相スペクトルの双方を記憶し得る大容量の記憶装置が必要になるという問題がある。また、振幅スペクトルおよび位相スペクトルを時間領域の信号に変換する段階で両者が時間的にずれている場合には合成音の受聴者が位相ズレ感を知覚する原因となるから、各フレームの振幅スペクトルと各フレームの位相スペクトルとを時間的に対応させるための特別な処理が必要である。以上の事情を考慮して、本発明は、振幅スペクトルと位相スペクトルとの時間的な対応を容易に維持するとともに音声素片の保持に必要な記憶容量を削減することを目的とする。
【課題を解決するための手段】
【0005】
以上の課題を解決するために本発明が採用する手段を説明する。なお、本発明の理解を容易にするために、以下の説明では、本発明の要素と後述の実施形態の要素との対応を括弧書で付記するが、本発明の範囲を実施形態の例示に限定する趣旨ではない。
【0006】
本発明の音声合成装置は、音声素片データが音声素片の各フレームについて示す振幅スペクトルに対応する位相スペクトルをフレーム毎に算定する位相算定手段(例えば位相算定部32)と、音声素片データが示す各フレームの振幅スペクトルと位相算定手段による算定後の各フレームの位相スペクトルとを利用して音声信号を生成する音声合成手段(例えば音声合成部34)とを具備する。以上の構成では、音声素片データが示す振幅スペクトルを利用して位相スペクトルが算定されるから、振幅スペクトルおよび位相スペクトルの双方を保持する構成と比較して素片記憶手段に必要な記憶容量が削減されるという利点がある。また、振幅スペクトルから位相スペクトルが算定されるから、各フレームの振幅スペクトルと位相スペクトルとの時間的な対応を容易に維持できる(ひいては振幅スペクトルと位相スペクトルとの時間差に起因した合成音の位相ズレ感を抑制できる)という利点もある。
【0007】
本発明の好適な態様において、位相算定手段は、音声素片データが示す振幅スペクトルに対応する最小位相または最大位相を位相スペクトルとして算定する。また、本発明の他の態様(例えば後述の第4実施形態)において、位相算定手段は、音声素片データが示す振幅スペクトルにおいて周波数軸上で相隣接する各周波数間の振幅値の差分を周波数軸の方向に平滑化することで位相スペクトルを算定する。
【0008】
なお、音声素片データが示す各フレームの振幅スペクトルを調整する素片調整手段(例えば素片調整部26)を具備する構成では、位相算定手段による位相スペクトルの算定後に素片調整手段が振幅スペクトルを調整する構成(態様A)も採用され得る。ただし、振幅スペクトルと位相スペクトルとの時間差を低減するという観点からすると、素片調整手段による調整後の振幅スペクトルから位相算定手段が位相スペクトルを算定する構成が格別に好適である。
【0009】
本発明の好適な態様に係る音声合成装置は、位相算定手段が算定した各フレームの位相スペクトルのうち所定の帯域内の各位相値を乱数的に変化させる第1位相補正手段(例えば第1位相補正部41)を具備する。以上の態様では、振幅スペクトルから算定された位相スペクトルのうち所定の帯域(例えば4kHz以上の高域側の帯域)内の各位相値が乱数的に変化する(すなわち複数の位相値の系列に揺らぎが付与される)から、位相算定手段が算定した位相スペクトルをそのまま音声合成手段による音声信号の合成に適用する構成と比較して、聴感的に自然な印象の合成音を生成できるという利点がある。なお、以上の態様の具体例は例えば第2実施形態として後述される。
【0010】
本発明の好適な態様に係る音声合成装置は、音声素片内での有声度(有声/無声の度合)の時間変化を特定し、位相算定手段が算定した各フレームの位相スペクトルの各位相値を、そのフレームの有声度に応じた変動範囲(例えば変動範囲α2)内で乱数的に変化させる第2位相補正手段(例えば第2位相補正部42)とを具備する。例えば、有声度が低い(無声度が高い)ほど変動範囲を拡大する構成が好適である。以上の態様では、振幅スペクトルから算定された位相スペクトルの各位相値が乱数的に変化するから、位相算定手段が算定した位相スペクトルをそのまま音声合成手段による音声信号の合成に適用する構成と比較して、聴感的に自然な印象の合成音を生成できるという利点がある。しかも、第2位相補正手段の補正による位相値の変動範囲が各フレームの有声度に応じて可変に制御されるから、聴感的に自然な印象の合成音を生成できるという効果は格別に顕著となる。なお、以上の態様の具体例は例えば第3実施形態として後述される。
【0011】
本発明の好適な態様に係る音声合成装置は、位相算定手段が各フレームについて算定した位相スペクトルを補正する手段であって、位相算定手段が一のフレームについて算定した位相スペクトルの各位相値に、一のフレームの直前のフレームから予測される位相値の予測誤差を付加する第3位相補正手段を具備する。以上の構成によれば、聴感的に自然な印象の合成音を生成できるという利点がある。なお、以上の態様の具体例は例えば第5実施形態として後述される。
【0012】
以上の各態様に係る音声合成装置は、音声合成に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)で実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働でも実現される。本発明のプログラム(例えばプログラムPGM)は、音声素片データが音声素片の各フレームについて示す振幅スペクトルに対応する位相スペクトルをフレーム毎に算定する位相算定処理と、音声素片データが示す各フレームの振幅スペクトルと位相算定処理後の各フレームの位相スペクトルとを利用して音声信号を生成する音声合成処理とを実行させる。以上のプログラムによれば、本発明の音声合成装置と同様の作用および効果が実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。
【図面の簡単な説明】
【0013】
【図1】本発明の第1実施形態の音声合成装置のブロック図である。
【図2】記憶装置に格納された素片群の模式図である。
【図3】振幅スペクトルおよび位相スペクトルの模式図である。
【図4】第2実施形態の音声合成装置のブロック図である。
【図5】第1位相補正部の動作の説明図である。
【図6】位相値の変動範囲の説明図である。
【図7】第3実施形態の音声合成装置のブロック図である。
【図8】有声度の時間変化を示すグラフである。
【図9】第4実施形態における位相算定部の動作の説明図である。
【図10】第5実施形態の音声合成装置のブロック図である。
【発明を実施するための形態】
【0014】
<A:第1実施形態>
図1は、本発明の第1実施形態に係る音声合成装置100のブロック図である。音声合成装置100は、発話音や歌唱音等の音声を素片接続型の音声合成処理で生成する信号処理装置であり、図1に示すように、演算処理装置(CPU)12と記憶装置14と放音装置16とを具備するコンピュータシステムで実現される。
【0015】
演算処理装置12は、記憶装置14に格納されたプログラムの実行で、合成音の波形を表す音声信号VOUTを生成するための複数の機能(素片選択部22,振幅算定部24,素片調整部26,位相算定部32,音声合成部34)を実現する。なお、演算処理装置12の各機能を複数の集積回路に分散した構成や、専用の電子回路(DSP)が一部の機能を実行する構成も採用され得る。放音装置16(例えばヘッドホンやスピーカ)は、演算処理装置12が生成する音声信号VOUTに応じた音波を放射する。
【0016】
記憶装置14は、演算処理装置12が実行するプログラムPGMや演算処理装置12が使用する各種のデータ(素片群GA,合成情報GB)を記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置14として任意に採用され得る。なお、音声合成装置100とは別個の外部装置(例えばサーバ装置)に記憶装置14を設置し、音声合成装置100が通信網(例えばインターネット)を介して記憶装置14から情報を取得する構成も採用され得る。すなわち、記憶装置14は音声合成装置100の必須の要件ではない。
【0017】
記憶装置14に記憶される素片群GAは、図2に示すように、相異なる音声素片に対応する複数の音声素片データDの集合(音声合成ライブラリ)である。音声素片は、音声の言語的な最小単位に相当する1個の音素、または、複数の音素を相互に連結した音素連鎖(例えば2個の音素で構成されるダイフォン)である。
【0018】
図2に示すように、音声素片データDは、音声素片を時間軸上で区分した各フレームに対応する複数の単位データU(UA,UB)の時系列を含んで構成される。各単位データUは、音声素片の各フレームにおける周波数領域でのスペクトルを規定する情報であり、音声素片のうち有声音の音素の各フレームに対応する単位データUAと、無声音の音素の各フレームに対応する単位データUBとに区別される。無声音の単位データUBは、音声のスペクトル(複素スペクトル)を規定するデータであり、具体的には各フレームの振幅スペクトルSMと位相スペクトルSPとを指定する。
【0019】
第1実施形態における有声音の単位データUAは、振幅特性データRを含んで構成される。振幅特性データRは、有声音の振幅スペクトルSM(包絡線)の形状的な特徴を示す複数の変数の集合である。具体的には、振幅特性データRは、励起波形エンベロープr1と胸部レゾナンスr2と声道レゾナンスr3と差分スペクトルr4とを含むEpR(Excitation plus Resonance)パラメータであり、公知のSMS(Spectral Modeling Synthesis)分析で生成される。なお、EpRパラメータやSMS分析については、例えば特許第3711880号公報や特開2007−226174号公報にも開示されている。
【0020】
励起波形エンベロープ(Excitation Curve)r1は、声帯振動のスペクトルの包絡線を近似する変数である。胸部レゾナンス(Chest Resonance)r2は、胸部共鳴特性を近似する所定個のレゾナンス(帯域通過フィルタ)の帯域幅と中心周波数と振幅値とを指定する。声道レゾナンス(Vocal Tract Resonance)r3は、声道共鳴特性を近似する複数のレゾナンスの各々について帯域幅と中心周波数と振幅値とを指定する。差分スペクトルr4は、励起波形エンベロープr1と胸部レゾナンスr2と声道レゾナンスr3とで近似されるスペクトルと音声の振幅スペクトルとの差分(誤差)を意味する。
【0021】
図1に示すように、記憶装置14には、合成音を時系列に指定する合成情報(スコアデータ)GBが記憶される。合成情報GBは、合成音の発音文字X1と発音期間X2と音高X3とを例えば音符毎に時系列に指定する。発音文字X1は、例えば歌唱音を合成する場合の歌詞の文字列であり、発音期間X2は、例えば発音の開始時刻と継続長とで指定される。合成情報GBは、例えば各種の入力機器(図示略)に対する利用者からの指示に応じて生成されて記憶装置14に格納される。なお、他の通信端末から通信網を介して受信された合成情報GBや可搬型の記録媒体から転送された合成情報GBを音声信号VOUTの生成に使用することも可能である。
【0022】
図1の素片選択部22は、合成情報GBが時系列に指定する発音文字X1に対応する音声素片の音声素片データDを素片群GAから順次に選択する。例えば「sakura」という発音文字X1が指定された場合、素片選択部22は、[Sil-s](Sil:無音),[s-a],[a-k],[k-u],[u-r],[r-a],[a-Sil]という7個の音声素片の音声素片データDを順番に選択する。素片選択部22が順次に選択する音声素片データDのうち有声音の各単位データUAは振幅算定部24に供給され、無声音の各単位データUBは素片調整部26に供給される。
【0023】
振幅算定部24は、素片選択部22から供給される各単位データUAが指定する振幅特性データR(r1〜r4)を利用して有声音の各フレームの振幅スペクトル(包絡線)SMを生成する。なお、振幅特性データRから振幅スペクトルSMを生成する方法については前述の特許第3711880号公報や特開2007−226174号公報に開示されている。
【0024】
素片調整部26は、振幅算定部24が生成した有声音の各フレームの振幅スペクトルSMと素片選択部22から供給される単位データUB(振幅スペクトルSMおよび位相スペクトルSP)とを調整する。具体的には、素片選択部22が選択した各音声素片データDに対応する音声素片の各音素が、合成情報GBの発音期間X2に応じた時間長および音高X3に応じたピッチとなり、かつ、各音声素片の先頭部および末尾部が前後の音声素片と円滑に接続される(すなわち先頭部にて音量が経時的に増加するとともに末尾部にて音量が経時的に減少する)ように、有声音の振幅スペクトルSMと無声音の単位データUBとを調整する。また、例えば音声素片が利用者の所望の音響特性(例えば音色や明瞭度)となるように有声音の振幅スペクトルSMと無声音の単位データUBとを調整することも可能である。素片調整部26による調整後の有声音の振幅スペクトルSMは位相算定部32に供給され、素片調整部26による調整後の無声音の単位データUBは音声合成部34に供給される。
【0025】
図1の位相算定部32は、素片調整部26による調整後の有声音の振幅スペクトルSMから各フレームの位相スペクトルSPを生成する。第1実施形態の位相算定部32は、有声音の各フレームの振幅スペクトルSMから一意に算定される最小位相をそのフレームの位相スペクトルSPとして生成する。なお、例えば男性の低音の音声のスペクトルを逆フーリエ変換した時間領域の信号では、時間軸上の始点付近にエネルギーが集中するという傾向が観察される。振幅スペクトルSMが共通する信号のうちエネルギーが始点付近に集中する最小位相(群遅延特性が最小)は、このような音声の傾向に整合するということもできる。
【0026】
振幅スペクトルの最小位相は一般的に、振幅スペクトルの対数のヒルベルト変換により算定される。そこで、第1実施形態の位相算定部32は、振幅スペクトルSMの対数log(SM)をヒルベルト変換することで位相スペクトルSPを生成する。具体的には、位相算定部32は、第1に、振幅スペクトルSMの対数log(SM)に対して逆フーリエ変換(逆高速フーリエ変換)を実行することで時間領域のサンプル系列を算定し、このサンプル系列のうち時間軸上で負の時刻に相当する部分(後半分)を0に設定したうえでフーリエ変換(例えば高速フーリエ変換)を実行する。そして、位相算定部32は、フーリエ変換の結果のうちの虚数部(最小位相)を位相スペクトルSPとして算定する。位相算定部32は、振幅スペクトルSMとその振幅スペクトルSMから生成した位相スペクトルSPとを含む単位データUCをフレーム毎に順次に音声合成部34に供給する。
【0027】
音声合成部34は、位相算定部32から順次に供給される有声音の単位データUCと素片調整部26から順次に供給される無声音の単位データUBとを利用して音声信号VOUTを生成する。具体的には、音声合成部34は、単位データUCおよび単位データUBの各々の振幅スペクトルSMと位相スペクトルSPとに対する逆フーリエ変換で各フレームの音声の時間波形を算定し、相前後するフレーム間で時間波形を相互に重複させて連結(加算)することで音声信号VOUTを生成する。
【0028】
以上に説明した第1実施形態では、有声音の各フレームの振幅スペクトルSMを利用して位相スペクトルSPが算定されるから、有声音の各フレームについて位相スペクトルSPを記憶装置14に事前に格納する必要はない。したがって、有声音について振幅スペクトルSMおよび位相スペクトルSPの双方を事前に用意して保持する必要がある特許文献1と比較して、音声素片の記憶に必要な記憶容量を削減することが可能である。
【0029】
また、第1実施形態では、有声音の各フレームの振幅スペクトルSMから位相スペクトルSPが算定されるため、振幅スペクトルSMと位相スペクトルSPとの時間的な対応を容易に維持することが可能である。したがって、各フレームの振幅スペクトルSMと各フレームの位相スペクトルSPとを時間的に整合させる特別な仕組を必要とせずに、振幅スペクトルSMと位相スペクトルSPとの時間差に起因した合成音の位相ズレ感を抑制できるという利点がある。
【0030】
なお、振幅スペクトルSMを素片調整部26が調整する構成としては、位相スペクトルSPの算定後に振幅スペクトルSMを調整する構成(以下「態様A」という)も想定され得る。しかし、態様Aでは、例えば調整後に音声合成部34に供給される振幅スペクトルが位相スペクトルSPに対して遅延し、合成音の受聴者が位相ズレ感を知覚する可能性がある。第1実施形態では、素片調整部26による調整後の振幅スペクトルSMを利用して位相スペクトルSPが算定されるから、振幅スペクトルSMと位相スペクトルSPとの時間的な対応を容易かつ確実に維持することで位相ズレ感を抑制できるという効果は、態様Aと比較して各格別に顕著となる。ただし、態様Aも本発明の範囲には包含される。
【0031】
また、態様Aでは、素片調整部26による調整後の振幅スペクトルSMと調整前の振幅スペクトルSMから生成された位相スペクトルSPとで特性が相互に乖離して合成音が不自然な音声となる可能性がある。素片調整部26による調整で振幅スペクトルSMの特性が大きく変化するほど以上の問題は顕著となる。第1実施形態では、素片調整部26による調整後の振幅スペクトルSMの特性に整合した位相スペクトルSPが算定されるから、態様Aと比較して自然な印象の合成音を生成できるという利点がある。
【0032】
<B:第2実施形態>
本発明の第2実施形態を以下に説明する。なお、以下に例示する各態様において作用や機能が第1実施形態と同等である要素については、以上の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
【0033】
図3は、実際の音声の振幅スペクトルWM(包絡線)と位相スペクトルWPとの関係を示すグラフである。図3に例示した音声では、振幅スペクトルWMにて第1フォルマントF1から第4フォルマントF4が存在する各周波数において位相スペクトルWPの位相値が大きく変化するという関連が、振幅スペクトルWMと位相スペクトルWPとの間で確認される。他方、第4フォルマントF4を上回る帯域内では、振幅スペクトルWMと位相スペクトルWPとの明確な関連性は観測されない。他方、振幅スペクトルWMと位相スペクトルWPとの関連性が高域側の帯域内でも過度に維持される音声は聴覚的に不自然な印象になるという傾向がある。すなわち、周波数の高域側にて振幅スペクトルWMと位相スペクトルWPとの関連性が低下するという傾向は、音声の聴感的な自然さに寄与すると推察される。そこで、第2実施形態では、位相算定部32が算定した位相スペクトルSPのうち高域側に位置する所定の帯域(例えば4kHz以上の帯域)内の各周波数の位相値を変動させる。
【0034】
図4は、第2実施形態の音声合成装置100のブロック図である。図4に示すように、第2実施形態の演算処理装置12は、第1実施形態と同様の各要素(素片選択部22,振幅算定部24,素片調整部26,位相算定部32,音声合成部34)に加えて第1位相補正部41として機能する。第1位相補正部41は、位相算定部32が算定した各フレームの位相スペクトルSPの周波数毎の位相値を変化させる。素片調整部26による調整後の振幅スペクトルSMと第1位相補正部41による補正後の位相スペクトルSPとを含む単位データUCがフレーム毎に音声合成部34に供給される。
【0035】
図5の部分(A)は、有声音の単位データUAが示す振幅スペクトルSMである。また、図5の部分(B)は、位相算定部32が算定した位相スペクトル(第1位相補正部41による補正前の位相スペクトル)SPであり、図5の部分(C)は、第1位相補正部41による補正後の位相スペクトルSPである。図5の部分(C)には、図5の部分(B)に例示された補正前の位相スペクトルSPが破線で併記されている。図5の部分(C)に示すように、第1位相補正部41は、位相算定部32が算定した位相スペクトルSP(図5の部分(B))のうち帯域B(例えば4kHz以上の帯域)内の各周波数の位相値を乱数的に変化させる。すなわち、帯域B内の各位相値の系列に揺らぎが付与される。
【0036】
具体的には、第1位相補正部41は、帯域B内の周波数毎に乱数を発生し、位相スペクトルSPのうち帯域B内の各周波数の位相値にその周波数の乱数を加算または減算することで補正後の位相値を算定する。したがって、図6の部分(A)に示すように、補正後の位相スペクトルSPのうち帯域B内の各周波数の位相値は、補正前の位相値を中心値とする所定の変動範囲α1内の任意の数値に設定される。すなわち、第1位相補正部41による補正の結果、図3に例示した音声と同様に、位相スペクトルSPと振幅スペクトルSMとの帯域B内での関連性は低下する。なお、各位相値に適用される乱数は例えばフレーム毎に更新される。
【0037】
第2実施形態においても第1実施形態と同様の効果が実現される。また、第2実施形態では、位相スペクトルSPのうち帯域B内の位相値を変動させることで帯域B内における振幅スペクトルSMと位相スペクトルSPとの関連性が低下するから、第1実施形態と比較して聴感的に自然な印象の合成音を生成できるという利点がある。
【0038】
<C:第3実施形態>
図7は、第3実施形態の音声合成装置100のブロック図である。図7に示すように、第3実施形態における素片群GAの各音声素片データDは、複数の単位データU(UA,UB)の時系列に加えて種別情報Cを含んで構成される。種別情報Cは、音声素片内の各音素の種別を指定する。例えば母音(/a/,/i/,/u/),無声破裂音(/t/,/k/,/p/),有声破裂音(/b/,/d/,/g/),無声破擦音(/ts/),有声破擦音(/j/),無声摩擦音(/s/,/f/),有声摩擦音(/z/),半母音(/w/,/y/)等の種別が種別情報Cで指定される。
【0039】
また、記憶装置14には、音素内の有声/無声の度合(以下「有声度」という)Vの時間的な推移を指定する有声度情報DVが、有声音の音素の種別(母音,有声破裂音,有声破擦音,有声摩擦音)毎に事前に格納される。図8は、有声度情報DVが示す有声度Vの時間変化の模式図である。図8の部分(A)は、有声摩擦音/j/と母音/a/とを連結した音声素片[j-a]の有声度Vであり、図8の部分(B)は、有声破裂音/b/と母音/a/とを連結した音声素片[b-a]の有声度Vである。
【0040】
有声度Vは、有声を意味する数値0と無声を意味する数値1との間で音素の始点から終点にかけて推移する。図8の部分(A)に示すように、有声摩擦音/j/の有声度Vは、音素の始点tsから時点t1までの所定長の区間(例えばフレームの3個分)内で0から1に直線的に変化し、時点t1から時点t2まで1を維持するとともに、時点t2から終点teまでの所定長の区間(例えばフレームの3個分)内で1から0に直線的に変化する。また、図8の部分(B)に示すように、有声破裂音/b/の有声度Vは、音素の始点tsから時点t1までの区間(例えばフレームの4個分)内で0から0.5に変化し、時点t1から時点t2まで0.5を維持するとともに、時点t2から終点teまでの区間(例えばフレームの4個分)内で0.5から0に変化する。他方、母音/a/の有声度Vは、全区間にわたって0(有声)に維持される。
【0041】
図7に示すように、第3実施形態の演算処理装置12は、第1実施形態と同様の各要素(素片選択部22,振幅算定部24,素片調整部26,位相算定部32,音声合成部34)に加えて第2位相補正部42として機能する。第2位相補正部42は、図6の部分(B)に示すように、位相算定部32が算定した位相スペクトルSPの周波数毎の位相値を、その位相値を中心値とする変動範囲α2内で乱数的に変化させる。具体的には、第2位相補正部42は、周波数軸上の全帯域にわたる周波数毎に乱数を発生し、位相スペクトルSPの各周波数の位相値にその周波数の乱数を加算または減算することで補正後の位相値を算定する。各周波数の位相値の補正に適用される乱数はフレーム毎に更新される。
【0042】
ところで、実際の音声では、音声が無声に近いほど振幅スペクトルWMと位相スペクトルWPとの関連性が低下するという傾向がある。したがって、音声が無声に近いフレームでも振幅スペクトルSMと位相スペクトルSPとの関連性が高い場合には、合成音が人工的な音声と知覚される可能性がある。以上の傾向を考慮して、第3実施形態の第2位相補正部42は、各フレームの位相スペクトルSPの各位相値を変化させる変動範囲α2を、有声度情報DVがそのフレームについて指定する有声度Vに応じて可変に制御する。
【0043】
すなわち、第2位相補正部42は、素片選択部22が選択した音声素片データDの種別情報Cに対応する有声度情報DV(すなわち、合成対象の音素に対応する有声度情報DV)を記憶装置14から取得し、各フレームの位相スペクトルSPの位相値を、記憶装置14から取得した有声度情報DVがそのフレームについて指定する有声度Vに応じた変動範囲α2内で乱数的に変動させる。具体的には、有声度Vが無声の数値1に近いフレームほど変動範囲α2が広い範囲となる(すなわち振幅スペクトルSMと補正後の位相スペクトルSPとの関連性が低下する)ように周波数毎の乱数が設定される。
【0044】
例えば図8の部分(A)の有声摩摩擦音/j/や図8の部分(B)の有声破裂音/b/の音素の各フレームにおける位相値の変動範囲α2は、音素の始点tsから時点t1にかけて拡大し、時点t1から時点t2まで一定に維持されるとともに、時点t2から終点teにかけて縮小する。他方、母音/a/の音素の各フレームにおける変動範囲α2は、音素の全区間にわたって一定の狭い範囲に維持される。
【0045】
第3実施形態においても第1実施形態と同様の効果が実現される。また、第3実施形態では、有声音の各フレームの位相スペクトルSPの位相値を第2位相補正部42により変化させる変動範囲α2がそのフレームの有声度Vに応じて制御される。したがって、第1実施形態や第2実施形態と比較して、有声音の音素のうち特に無声に近い区間について人工的な印象を低減した自然な合成音を生成することが可能である。
【0046】
<D:第4実施形態>
第1実施形態では、振幅スペクトルSMに対応する最小位相を位相スペクトルSPとして算定した。第4実施形態では、振幅スペクトルSMに対応する位相スペクトルSPを算定する方法が第1実施形態とは相違する。図9は、第4実施形態の位相算定部32が振幅スペクトルSMに対応する位相スペクトルSPを算定する動作の説明図である。図9の部分(A)には、素片調整部26による調整後の振幅スペクトルSMが図示されている。振幅スペクトルSMは、周波数軸上の相異なる周波数f[k]に対応する複数の振幅値A[k]の系列として表現される。記号kは、周波数軸上の任意の1個の周波数(周波数ビン)を意味する。振幅特性データRから特定される振幅スペクトルSMは包絡線であるから、記号kは調波成分(基音成分および複数の倍音成分)の次数に相当する。すなわち、振幅値A[k]は、振幅スペクトルSMにおける第k次の調波成分の振幅を意味する。第4実施形態の位相算定部32は、以下に例示する処理をフレーム毎に順次に実行する。
【0047】
第1に、位相算定部32は、周波数軸上の周波数f[k]毎に、周波数f[k]の振幅値A[k]と周波数軸上で周波数f[k]に隣接する周波数f[k-1]の振幅値A[k-1]との差分(以下「振幅差」という)δA[k]をフレーム毎に算定する(δA[k]=A[k]−A[k-1])。図9の部分(B)には、周波数軸上の各振幅差δA[k]が図示されている。
【0048】
第2に、位相算定部32は、周波数軸上の各振幅差δA[k]を周波数軸の方向に平滑化することで周波数f[k]毎の振幅差δB[k]を算定する。振幅差δA[k]の平滑化には公知の技術が任意に採用されるが、例えば、各周波数f[k]の振幅差δA[k]を含む複数個の数値の移動平均を平滑化後の振幅差δB[k]として算定する構成が好適である。第3に、位相算定部32は、平滑化後の各振幅差δB[k]の数値を−π以上かつ+π以下の範囲内の数値に変換し、変換後の各数値を周波数f[k]毎の位相値とする位相スペクトルSPを生成する。すなわち、位相算定部32は、振幅スペクトルSMにおいて周波数軸上で相隣接する各周波数(f[k],f[k-1])間の振幅差δA[k]を周波数軸の方向に平滑化することで位相スペクトルSPを算定する要素として機能する。
【0049】
図9の部分(C)には、第4実施形態の位相算定部32が図9の部分(A)の振幅スペクトルSMから算定した位相スペクトルSPが図示されている。また、図9の部分(D)には、第1実施形態の位相算定部32が図9の部分(A)の振幅スペクトルSMから算定した位相スペクトルSP(振幅スペクトルSMに対応する最小位相)が図示されている。図9の部分(C)と部分(D)との対比から、第4実施形態でも第1実施形態と同様の形状(振幅スペクトルSMとの関係が同等)の位相スペクトルSPをフレーム毎に生成できることが理解される。すなわち、第4実施形態においても第1実施形態と同様の効果が実現される。
【0050】
なお、以上の例示では第1実施形態を基礎として第4実施形態を説明したが、第4実施形態の位相算定部32が算定した位相スペクトルSPを第2実施形態の第1位相補正部41および第3実施形態の第2位相補正部42の一方または双方が補正する構成も採用され得る。
【0051】
<E:第5実施形態>
図10は、第5実施形態の音声合成装置100のブロック図である。図10に示すように、第5実施形態の演算処理装置12は、第1実施形態と同様の各要素(素片選択部22,振幅算定部24,素片調整部26,位相算定部32,音声合成部34)に加えて第3位相補正部43として機能する。第3位相補正部43は、位相算定部32がフレーム毎に算定する位相スペクトルSPの各位相値φA[m]を補正することで位相値φB[m]をフレーム毎に算定する。記号mは、時間軸上の任意の1個のフレーム(例えばフレームの番号)を意味する。位相値φB[m]は、振幅スペクトル(包絡線)SMの調波成分毎(周波数ビン毎)に算定される。第3位相補正部43による補正後の各位相値φB[m]の系列が第m番目のフレームの位相スペクトルSPとして音声合成部34の処理に利用される。
【0052】
具体的には、第3位相補正部43は、以下の数式(1)で表現されるように、第m番目のフレームについて位相算定部32が算定した位相スペクトルSPの各位相値φA[m]に予測誤差Δφ[m]を付加することで、補正後の位相スペクトルSPの位相値φB[m]を調波成分毎に算定する。
【数1】

【0053】
数式(1)における第m番目のフレームの予測誤差Δφ[m]は、以下の数式(2)で表現されるように、第m番目のフレームについて予測される位相値(以下「予測位相」という)φE[m]と音声素片の第m番目のフレームの実際の位相値φ[m]との差分(誤差)に相当する。第m番目のフレームの予測位相φE[m]は、直前(第(m-1)番目)のフレームの実際の位相値φ[m-1]から推定される予測値であり、位相値φ[m]は、音声素片データDが表現する音声素片における実際の位相値(実測値)である。
【数2】

数式(2)の記号princarg( )は、括弧内の数値を−π以上かつ+π以下の範囲(すなわち位相の数値範囲)内の数値に変換する演算子を意味する。
【0054】
数式(2)の予測位相φE[m]は、以下の数式(3)の演算により調波成分毎に算定される。
【数3】

数式(3)の記号Δtは、相前後する各フレーム間の時間差を意味し、数式(3)の記号f[m]は、第m番目のフレームにおける1個の調波成分(予測位相φE[m]に対応する調波成分)の周波数を意味する。数式(3)から理解されるように、数式(3)の第2項は、周波数f[m-1]と周波数f[m]との平均周波数((f[m-1]+f[m])/2)の音声の位相が時間Δt内で変動する変動量(すなわち、相前後するフレーム間での位相の変動量の予測値)を意味する。したがって、数式(3)で算定される予測位相φE[m]は、位相が経時的に線形に変化するとの仮定のもとで、直前(第(m-1)番目)のフレームの実際の位相値φ[m-1]から予測される第m番目のフレームの位相値に相当する。
【0055】
第5実施形態では、収録済の音声素片から調波成分毎の位相値φ[m]が各フレームについて事前に算定され、各位相値φ[m]から数式(2)および数式(3)の演算で算定された予測誤差Δφ[m]が音声素片データDの各単位データU内に設定される。すなわち、音声素片の各フレームの予測誤差Δφ[m]が音声素片毎に記憶装置14に事前に記憶される。第3位相補正部43は、位相算定部32が第m番目のフレームについて算定した位相スペクトルSPの各位相値φA[m]に対し、記憶装置14に記憶された第m番目のフレームの予測誤差Δφ[m]を付加することで(数式(1))、補正後の位相値φB[m]を算定する。
【0056】
第5実施形態においても第1実施形態と同様の効果が実現される。また、第5実施形態では、位相算定部32が算定した位相スペクトルSPに予測誤差Δφ[m]が付加されるから、実際の音声における位相の変動に近似した傾向の位相スペクトルSPを算定できる(したがって聴感的に自然な印象の合成音を生成できる)という利点がある。なお、以上の説明では第1実施形態の構成に第3位相補正部43を追加した構成を例示したが、例えば第4実施形態の構成に第3位相補正部43を追加することも可能である。
【0057】
なお、第5実施形態で1個のフレームについて用意される予測誤差Δφ[m]の総数は、音声素片データDの生成に利用された音声素片(以下「原素片」という)における調波成分の総数と同数である。したがって、合成音の音高X3が原素片の音高を上回る場合(予測誤差Δφ[m]の総数が過剰となる場合)には、複数の予測誤差Δφ[m]を適宜に間引いたうえで各位相値φA[m]の補正に適用し、合成音の音高X3が原素片の音高を下回る場合(予測誤差Δφ[m]の総数が不足する場合)には、各予測誤差Δφ[m]を複数の周波数について適宜に重複させたうえで各位相値φA[m]の補正に適用する構成が好適である。なお、1個のフレーム内で複数の周波数にわたる予測誤差Δφ[m]が相等しい場合には合成音が聴感的に不自然な印象になり得るという傾向がある。したがって、1個の予測誤差Δφ[m]を複数の周波数にわたり重複して利用する場合には、予測誤差Δφ[m]を周波数毎に相違させる(例えば各予測誤差Δφ[m]に乱数を付加する)構成が好適である。
【0058】
なお、以上の説明では、各音声素片のフレーム毎の予測誤差Δφ[m]を事前に算定して記憶装置14に格納した構成(以下「構成1」という)を例示したが、第3位相補正部43が位相スペクトルSPの補正に適用する予測誤差Δφ[m]を取得する方法は適宜に変更される。
【0059】
例えば、各音声素片の時間波形を音声素片データDに含ませ、音声信号VOUTの合成時に、第3位相補正部43が、音声素片データD内の時間波形から各フレームの位相値(実測値)φ[m]を算定するとともに、数式(2)および数式(3)の演算で各位相値φ[m]から各フレームの予測誤差Δφ[m]を算定して位相スペクトルSPの各位相値φA[m]の補正に適用する構成(以下「構成2」という)も採用され得る。なお、前述の構成1によれば、音声素片の時間波形を記憶する必要がないから、構成2と比較して記憶装置14に必要な記憶容量が削減されるという利点がある。また、構成1によれば、音声信号VOUTの合成時に時間波形から各位相値φ[m]を算定する必要がないから、第3位相補正部43の処理負荷が構成2と比較して軽減されるという利点もある。
【0060】
また、音声素片の各フレームについて算定された予測誤差Δφ[m]の代表値(例えば平均値)を各調波成分の予測誤差Δφとして音声素片毎に記憶装置14に事前に記憶する構成(以下「構成3」という)も採用され得る。第3位相補正部43は、位相算定部32が各フレームについて算定した位相スペクトルSPの各位相値φA[m]に記憶装置14内の予測誤差Δφを共通に付加することで位相値φB[m]を算定する。なお、複数のフレームにわたり予測誤差Δφが共通する場合には合成音が聴感的に不自然な印象になり得るという傾向がある。したがって、構成3では、予測誤差Δφをフレーム毎に相違させる(例えば各フレームの予測誤差Δφに乱数を付加する)構成が好適である。なお、構成3では、音声素片のフレーム毎の予測誤差Δφ[m]や音声素片の音声波形を保持する必要がないから、構成1や構成2と比較して記憶装置14に必要な記憶容量が削減されるという利点がある。
【0061】
<F:変形例>
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様を適宜に併合することも可能である。
【0062】
(1)第1実施形態では振幅スペクトルSMに対応する最小位相を位相スペクトルSPとして算定し、第4実施形態では周波数f[k]毎の振幅差δA[k]を平滑化した振幅差δB[k]の系列を位相スペクトルSPとして算定したが、振幅スペクトルSMに対応する位相スペクトルSPをフレーム毎に算定する方法は以上の例示に限定されない。例えば、最小位相と同様に振幅スペクトルSMから一意に決定される最大位相を、位相スペクトルSPとして算定することも可能である。なお、最大位相を位相スペクトルSPとして生成される合成音は、1波長内の後方の時点にエネルギーが集中するという傾向がある。したがって、振幅スペクトルSMの最大位相を位相スペクトルSPとして生成する構成は、例えば、音声信号VOUTを逆転再生する場合や、音声素片データDが示す各音素の順序を逆転させた音声素片の音声素片データDを生成する場合に好適である。後者の場合としては、例えば、音声素片[Sil-a]のフレーム毎に振幅スペクトルSMと位相スペクトルSP(振幅スペクトルSMの最大位相)とを算定し、各フレームの順番を逆転させることで音声素片[a-Sil]の音声素片データDを生成する場合が例示される。なお、振幅スペクトルSMの最小位相や最大位相を算定する方法は以上の例示には限定されない。以上の例示から理解されるように、前述の各形態における位相算定部32は、音声素片の各フレームの振幅スペクトルSMに対応する位相スペクトルSPをフレーム毎に算定する要素(位相算定手段)として包括される。
【0063】
(2)第2実施形態の第1位相補正部41と第3実施形態の第2位相補正部42との双方を具備する構成も採用され得る。第1位相補正部41と第2位相補正部42とを具備する構成では、図6の部分(A)および部分(B)に示す通り、第1位相補正部41の補正による各位相値(帯域B内)の変動範囲α1が、第2位相補正部42の補正による各位相値の変動範囲α2と比較して広い範囲に設定される。
【0064】
(3)第3実施形態では、第2位相補正部42が周波数軸上の全帯域の位相値を補正したが、特定の帯域内の位相値のみを第2位相補正部42による補正の対象とすることも可能である。例えば、低域側の所定個(例えば5個)の周波数を除外した帯域内の各位相値を第2位相補正部42が補正する構成が採用され得る。
【0065】
(4)第3実施形態では、有声度Vの時間変化を示す有声度情報DVを記憶装置14に事前に記憶させたが、音声素片内での有声度Vの時間変化を特定する方法は任意である。例えば、音声素片データDから特定される音声の特徴(例えばスペクトルの傾き,フォルマントの位置や強度,ゼロクロス数)を利用して有声度Vの時間変化を算定する構成や、これらの特徴を記憶装置14に事前に格納しておいて有声度Vの時間変化の算定に利用する構成も採用され得る。以上の説明から理解される通り、第2位相補正部42は、音声素片内での有声度Vの時間変化を特定(例えば記憶装置14から取得または所定の方法で算定)し、各フレームの位相スペクトルSPの位相値を、そのフレームについて特定した有声度Vに応じた変動範囲α2内で乱数的に変動させる要素として包括され、有声度Vの時間変化を特定する方法の如何は不問である。
【0066】
(5)音声素片データDの形式は任意である。例えば、前述の各形態では各フレームの振幅特性データRを含む音声素片データDを例示したが、音声素片データDがフレーム毎の振幅スペクトルSM(すなわち周波数毎の振幅値の系列)を直接的に指定する構成も採用される。音声素片データDが振幅スペクトルSMを含む構成では振幅算定部24が算定される。以上の例示から理解される通り、音声素片データDは、音声素片の各フレームの振幅スペクトルSMを示すデータとして包括される。
【0067】
(6)前述の各形態では、位相算定部32が算定した位相スペクトルSPを利用して音声信号VOUTを生成する音声合成装置100を例示したが、音声(音声素片)の各フレームの振幅スペクトルSMに対応する位相スペクトルSPをフレーム毎に算定する音声処理装置(位相算定装置)としても本発明は実施され得る。すなわち、音声合成部34(音声合成手段)は省略され得る。
【符号の説明】
【0068】
100……音声合成装置、12……演算処理装置、14……記憶装置、16……放音装置、22……素片選択部、24……振幅算定部、26……素片調整部、32……位相算定部、34……音声合成部、41……第1位相補正部、42……第2位相補正部、43……第3位相補正部。



【特許請求の範囲】
【請求項1】
音声素片データが音声素片の各フレームについて示す振幅スペクトルに対応する位相スペクトルをフレーム毎に算定する位相算定手段と、
前記音声素片データが示す各フレームの振幅スペクトルと前記位相算定手段による算定後の各フレームの位相スペクトルとを利用して音声信号を生成する音声合成手段と
を具備する音声合成装置。
【請求項2】
前記位相算定手段は、前記音声素片データが示す前記振幅スペクトルに対応する最小位相または最大位相を位相スペクトルとして算定する
請求項1の音声合成装置。
【請求項3】
前記位相算定手段は、前記音声素片データが示す前記振幅スペクトルにおいて周波数軸上で相隣接する各周波数間の振幅値の差分を周波数軸の方向に平滑化することで位相スペクトルを算定する
請求項1の音声合成装置。
【請求項4】
音声素片データが示す各フレームの振幅スペクトルを調整する素片調整手段を具備し、
前記位相算定手段は、前記素片調整手段による調整後の振幅スペクトルに対応する位相スペクトルをフレーム毎に算定し、
前記音声合成手段は、前記素片調整手段による調整後の振幅スペクトルと前記位相算定手段による算定後の各フレームの位相スペクトルとを利用して音声信号を生成する
請求項1から請求項3の何れかの音声合成装置。
【請求項5】
前記位相算定手段が算定した各フレームの位相スペクトルのうち所定の帯域内の各位相値を乱数的に変化させる第1位相補正手段
を具備する請求項1から請求項4の何れかの音声合成装置。
【請求項6】
音声素片内での有声度の時間変化を特定し、前記位相算定手段が算定した各フレームの位相スペクトルの各位相値を、そのフレームの有声度に応じた変動範囲内で乱数的に変化させる第2位相補正手段
を具備する請求項1から請求項5の何れかの音声合成装置。
【請求項7】
前記位相算定手段が各フレームについて算定した位相スペクトルを補正する手段であって、前記位相算定手段が一のフレームについて算定した位相スペクトルの各位相値に、前記一のフレームの直前のフレームから予測される位相値の予測誤差を付加する第3位相補正手段
を具備する請求項1から請求項3の何れかの音声合成装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate


【公開番号】特開2013−15829(P2013−15829A)
【公開日】平成25年1月24日(2013.1.24)
【国際特許分類】
【出願番号】特願2012−129798(P2012−129798)
【出願日】平成24年6月7日(2012.6.7)
【出願人】(000004075)ヤマハ株式会社 (5,930)