音声合成装置

【課題】音声素片の記憶に必要な記憶容量を削減する。
【解決手段】記憶装置１４は、音声素片の各フレームの振幅スペクトルＳMを示す音声素片データＤを記憶する。位相算定部３２は、音声素片データＤが示す振幅スペクトルＳMに対応する最小位相を音声素片の位相スペクトルＳPとしてフレーム毎に算定する。音声合成部３４は、音声素片データＤが示す各フレームの振幅スペクトルＳMと位相算定部３２による算定後の各フレームの位相スペクトルＳPとを利用して音声信号ＶOUTを生成する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、複数の音声素片の連結で発話音や歌唱音等の音声を合成する技術に関する。
【背景技術】
【０００２】
複数の音声素片を相互に連結することで所望の音声を合成する素片接続型の音声合成技術が従来から提案されている。例えば特許文献１の技術では、音声素片の各フレームの振幅スペクトルおよび位相スペクトルが記憶装置に格納され、振幅スペクトルおよび位相スペクトルの各々を個別に処理したうえで時間領域の信号に変換して相互に連結することで音声信号が生成される。
【先行技術文献】
【特許文献】
【０００３】
【特許文献１】特許第４３４９３１６号公報
【発明の概要】
【発明が解決しようとする課題】
【０００４】
しかし、特許文献１の技術では、各音声素片のフレーム毎に振幅スペクトルおよび位相スペクトルの双方を記憶し得る大容量の記憶装置が必要になるという問題がある。また、振幅スペクトルおよび位相スペクトルを時間領域の信号に変換する段階で両者が時間的にずれている場合には合成音の受聴者が位相ズレ感を知覚する原因となるから、各フレームの振幅スペクトルと各フレームの位相スペクトルとを時間的に対応させるための特別な処理が必要である。以上の事情を考慮して、本発明は、振幅スペクトルと位相スペクトルとの時間的な対応を容易に維持するとともに音声素片の保持に必要な記憶容量を削減することを目的とする。
【課題を解決するための手段】
【０００５】
以上の課題を解決するために本発明が採用する手段を説明する。なお、本発明の理解を容易にするために、以下の説明では、本発明の要素と後述の実施形態の要素との対応を括弧書で付記するが、本発明の範囲を実施形態の例示に限定する趣旨ではない。
【０００６】
本発明の音声合成装置は、音声素片データが音声素片の各フレームについて示す振幅スペクトルに対応する位相スペクトルをフレーム毎に算定する位相算定手段（例えば位相算定部３２）と、音声素片データが示す各フレームの振幅スペクトルと位相算定手段による算定後の各フレームの位相スペクトルとを利用して音声信号を生成する音声合成手段（例えば音声合成部３４）とを具備する。以上の構成では、音声素片データが示す振幅スペクトルを利用して位相スペクトルが算定されるから、振幅スペクトルおよび位相スペクトルの双方を保持する構成と比較して素片記憶手段に必要な記憶容量が削減されるという利点がある。また、振幅スペクトルから位相スペクトルが算定されるから、各フレームの振幅スペクトルと位相スペクトルとの時間的な対応を容易に維持できる（ひいては振幅スペクトルと位相スペクトルとの時間差に起因した合成音の位相ズレ感を抑制できる）という利点もある。
【０００７】
本発明の好適な態様において、位相算定手段は、音声素片データが示す振幅スペクトルに対応する最小位相または最大位相を位相スペクトルとして算定する。また、本発明の他の態様（例えば後述の第４実施形態）において、位相算定手段は、音声素片データが示す振幅スペクトルにおいて周波数軸上で相隣接する各周波数間の振幅値の差分を周波数軸の方向に平滑化することで位相スペクトルを算定する。
【０００８】
なお、音声素片データが示す各フレームの振幅スペクトルを調整する素片調整手段（例えば素片調整部２６）を具備する構成では、位相算定手段による位相スペクトルの算定後に素片調整手段が振幅スペクトルを調整する構成（態様Ａ）も採用され得る。ただし、振幅スペクトルと位相スペクトルとの時間差を低減するという観点からすると、素片調整手段による調整後の振幅スペクトルから位相算定手段が位相スペクトルを算定する構成が格別に好適である。
【０００９】
本発明の好適な態様に係る音声合成装置は、位相算定手段が算定した各フレームの位相スペクトルのうち所定の帯域内の各位相値を乱数的に変化させる第１位相補正手段（例えば第１位相補正部４１）を具備する。以上の態様では、振幅スペクトルから算定された位相スペクトルのうち所定の帯域（例えば４ｋＨｚ以上の高域側の帯域）内の各位相値が乱数的に変化する（すなわち複数の位相値の系列に揺らぎが付与される）から、位相算定手段が算定した位相スペクトルをそのまま音声合成手段による音声信号の合成に適用する構成と比較して、聴感的に自然な印象の合成音を生成できるという利点がある。なお、以上の態様の具体例は例えば第２実施形態として後述される。
【００１０】
本発明の好適な態様に係る音声合成装置は、音声素片内での有声度（有声／無声の度合）の時間変化を特定し、位相算定手段が算定した各フレームの位相スペクトルの各位相値を、そのフレームの有声度に応じた変動範囲（例えば変動範囲α2）内で乱数的に変化させる第２位相補正手段（例えば第２位相補正部４２）とを具備する。例えば、有声度が低い（無声度が高い）ほど変動範囲を拡大する構成が好適である。以上の態様では、振幅スペクトルから算定された位相スペクトルの各位相値が乱数的に変化するから、位相算定手段が算定した位相スペクトルをそのまま音声合成手段による音声信号の合成に適用する構成と比較して、聴感的に自然な印象の合成音を生成できるという利点がある。しかも、第２位相補正手段の補正による位相値の変動範囲が各フレームの有声度に応じて可変に制御されるから、聴感的に自然な印象の合成音を生成できるという効果は格別に顕著となる。なお、以上の態様の具体例は例えば第３実施形態として後述される。
【００１１】
本発明の好適な態様に係る音声合成装置は、位相算定手段が各フレームについて算定した位相スペクトルを補正する手段であって、位相算定手段が一のフレームについて算定した位相スペクトルの各位相値に、一のフレームの直前のフレームから予測される位相値の予測誤差を付加する第３位相補正手段を具備する。以上の構成によれば、聴感的に自然な印象の合成音を生成できるという利点がある。なお、以上の態様の具体例は例えば第５実施形態として後述される。
【００１２】
以上の各態様に係る音声合成装置は、音声合成に専用されるＤＳＰ（Digital Signal Processor）などのハードウェア（電子回路）で実現されるほか、ＣＰＵ（Central Processing Unit）などの汎用の演算処理装置とプログラムとの協働でも実現される。本発明のプログラム（例えばプログラムＰGM）は、音声素片データが音声素片の各フレームについて示す振幅スペクトルに対応する位相スペクトルをフレーム毎に算定する位相算定処理と、音声素片データが示す各フレームの振幅スペクトルと位相算定処理後の各フレームの位相スペクトルとを利用して音声信号を生成する音声合成処理とを実行させる。以上のプログラムによれば、本発明の音声合成装置と同様の作用および効果が実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。
【図面の簡単な説明】
【００１３】
【図１】本発明の第１実施形態の音声合成装置のブロック図である。
【図２】記憶装置に格納された素片群の模式図である。
【図３】振幅スペクトルおよび位相スペクトルの模式図である。
【図４】第２実施形態の音声合成装置のブロック図である。
【図５】第１位相補正部の動作の説明図である。
【図６】位相値の変動範囲の説明図である。
【図７】第３実施形態の音声合成装置のブロック図である。
【図８】有声度の時間変化を示すグラフである。
【図９】第４実施形態における位相算定部の動作の説明図である。
【図１０】第５実施形態の音声合成装置のブロック図である。
【発明を実施するための形態】
【００１４】
＜Ａ：第１実施形態＞
図１は、本発明の第１実施形態に係る音声合成装置１００のブロック図である。音声合成装置１００は、発話音や歌唱音等の音声を素片接続型の音声合成処理で生成する信号処理装置であり、図１に示すように、演算処理装置（ＣＰＵ）１２と記憶装置１４と放音装置１６とを具備するコンピュータシステムで実現される。
【００１５】
演算処理装置１２は、記憶装置１４に格納されたプログラムの実行で、合成音の波形を表す音声信号ＶOUTを生成するための複数の機能（素片選択部２２，振幅算定部２４，素片調整部２６，位相算定部３２，音声合成部３４）を実現する。なお、演算処理装置１２の各機能を複数の集積回路に分散した構成や、専用の電子回路（ＤＳＰ）が一部の機能を実行する構成も採用され得る。放音装置１６（例えばヘッドホンやスピーカ）は、演算処理装置１２が生成する音声信号ＶOUTに応じた音波を放射する。
【００１６】
記憶装置１４は、演算処理装置１２が実行するプログラムＰGMや演算処理装置１２が使用する各種のデータ（素片群ＧA，合成情報ＧB）を記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置１４として任意に採用され得る。なお、音声合成装置１００とは別個の外部装置（例えばサーバ装置）に記憶装置１４を設置し、音声合成装置１００が通信網（例えばインターネット）を介して記憶装置１４から情報を取得する構成も採用され得る。すなわち、記憶装置１４は音声合成装置１００の必須の要件ではない。
【００１７】
記憶装置１４に記憶される素片群ＧAは、図２に示すように、相異なる音声素片に対応する複数の音声素片データＤの集合（音声合成ライブラリ）である。音声素片は、音声の言語的な最小単位に相当する１個の音素、または、複数の音素を相互に連結した音素連鎖（例えば２個の音素で構成されるダイフォン）である。
【００１８】
図２に示すように、音声素片データＤは、音声素片を時間軸上で区分した各フレームに対応する複数の単位データＵ（ＵA，ＵB）の時系列を含んで構成される。各単位データＵは、音声素片の各フレームにおける周波数領域でのスペクトルを規定する情報であり、音声素片のうち有声音の音素の各フレームに対応する単位データＵAと、無声音の音素の各フレームに対応する単位データＵBとに区別される。無声音の単位データＵBは、音声のスペクトル（複素スペクトル）を規定するデータであり、具体的には各フレームの振幅スペクトルＳMと位相スペクトルＳPとを指定する。
【００１９】
第１実施形態における有声音の単位データＵAは、振幅特性データＲを含んで構成される。振幅特性データＲは、有声音の振幅スペクトルＳM（包絡線）の形状的な特徴を示す複数の変数の集合である。具体的には、振幅特性データＲは、励起波形エンベロープｒ1と胸部レゾナンスｒ2と声道レゾナンスｒ3と差分スペクトルｒ4とを含むＥｐＲ（Excitation plus Resonance）パラメータであり、公知のＳＭＳ（Spectral Modeling Synthesis）分析で生成される。なお、ＥｐＲパラメータやＳＭＳ分析については、例えば特許第３７１１８８０号公報や特開２００７−２２６１７４号公報にも開示されている。
【００２０】
励起波形エンベロープ（Excitation Curve）ｒ1は、声帯振動のスペクトルの包絡線を近似する変数である。胸部レゾナンス（Chest Resonance）ｒ2は、胸部共鳴特性を近似する所定個のレゾナンス（帯域通過フィルタ）の帯域幅と中心周波数と振幅値とを指定する。声道レゾナンス（Vocal Tract Resonance）ｒ3は、声道共鳴特性を近似する複数のレゾナンスの各々について帯域幅と中心周波数と振幅値とを指定する。差分スペクトルｒ4は、励起波形エンベロープｒ1と胸部レゾナンスｒ2と声道レゾナンスｒ3とで近似されるスペクトルと音声の振幅スペクトルとの差分（誤差）を意味する。
【００２１】
図１に示すように、記憶装置１４には、合成音を時系列に指定する合成情報（スコアデータ）ＧBが記憶される。合成情報ＧBは、合成音の発音文字Ｘ1と発音期間Ｘ2と音高Ｘ3とを例えば音符毎に時系列に指定する。発音文字Ｘ1は、例えば歌唱音を合成する場合の歌詞の文字列であり、発音期間Ｘ2は、例えば発音の開始時刻と継続長とで指定される。合成情報ＧBは、例えば各種の入力機器（図示略）に対する利用者からの指示に応じて生成されて記憶装置１４に格納される。なお、他の通信端末から通信網を介して受信された合成情報ＧBや可搬型の記録媒体から転送された合成情報ＧBを音声信号ＶOUTの生成に使用することも可能である。
【００２２】
図１の素片選択部２２は、合成情報ＧBが時系列に指定する発音文字Ｘ1に対応する音声素片の音声素片データＤを素片群ＧAから順次に選択する。例えば「sakura」という発音文字Ｘ1が指定された場合、素片選択部２２は、［Sil-ｓ］（Sil：無音），［ｓ-ａ］，［ａ-ｋ］，［ｋ-ｕ］，［ｕ-ｒ］，［ｒ-ａ］，［ａ-Sil］という７個の音声素片の音声素片データＤを順番に選択する。素片選択部２２が順次に選択する音声素片データＤのうち有声音の各単位データＵAは振幅算定部２４に供給され、無声音の各単位データＵBは素片調整部２６に供給される。
【００２３】
振幅算定部２４は、素片選択部２２から供給される各単位データＵAが指定する振幅特性データＲ（ｒ1〜ｒ4）を利用して有声音の各フレームの振幅スペクトル（包絡線）ＳMを生成する。なお、振幅特性データＲから振幅スペクトルＳMを生成する方法については前述の特許第３７１１８８０号公報や特開２００７−２２６１７４号公報に開示されている。
【００２４】
素片調整部２６は、振幅算定部２４が生成した有声音の各フレームの振幅スペクトルＳMと素片選択部２２から供給される単位データＵB（振幅スペクトルＳMおよび位相スペクトルＳP）とを調整する。具体的には、素片選択部２２が選択した各音声素片データＤに対応する音声素片の各音素が、合成情報ＧBの発音期間Ｘ2に応じた時間長および音高Ｘ3に応じたピッチとなり、かつ、各音声素片の先頭部および末尾部が前後の音声素片と円滑に接続される（すなわち先頭部にて音量が経時的に増加するとともに末尾部にて音量が経時的に減少する）ように、有声音の振幅スペクトルＳMと無声音の単位データＵBとを調整する。また、例えば音声素片が利用者の所望の音響特性（例えば音色や明瞭度）となるように有声音の振幅スペクトルＳMと無声音の単位データＵBとを調整することも可能である。素片調整部２６による調整後の有声音の振幅スペクトルＳMは位相算定部３２に供給され、素片調整部２６による調整後の無声音の単位データＵBは音声合成部３４に供給される。
【００２５】
図１の位相算定部３２は、素片調整部２６による調整後の有声音の振幅スペクトルＳMから各フレームの位相スペクトルＳPを生成する。第１実施形態の位相算定部３２は、有声音の各フレームの振幅スペクトルＳMから一意に算定される最小位相をそのフレームの位相スペクトルＳPとして生成する。なお、例えば男性の低音の音声のスペクトルを逆フーリエ変換した時間領域の信号では、時間軸上の始点付近にエネルギーが集中するという傾向が観察される。振幅スペクトルＳMが共通する信号のうちエネルギーが始点付近に集中する最小位相（群遅延特性が最小）は、このような音声の傾向に整合するということもできる。
【００２６】
振幅スペクトルの最小位相は一般的に、振幅スペクトルの対数のヒルベルト変換により算定される。そこで、第１実施形態の位相算定部３２は、振幅スペクトルＳMの対数ｌｏｇ(ＳM)をヒルベルト変換することで位相スペクトルＳPを生成する。具体的には、位相算定部３２は、第１に、振幅スペクトルＳMの対数ｌｏｇ(ＳM)に対して逆フーリエ変換（逆高速フーリエ変換）を実行することで時間領域のサンプル系列を算定し、このサンプル系列のうち時間軸上で負の時刻に相当する部分（後半分）を０に設定したうえでフーリエ変換（例えば高速フーリエ変換）を実行する。そして、位相算定部３２は、フーリエ変換の結果のうちの虚数部（最小位相）を位相スペクトルＳPとして算定する。位相算定部３２は、振幅スペクトルＳMとその振幅スペクトルＳMから生成した位相スペクトルＳPとを含む単位データＵCをフレーム毎に順次に音声合成部３４に供給する。
【００２７】
音声合成部３４は、位相算定部３２から順次に供給される有声音の単位データＵCと素片調整部２６から順次に供給される無声音の単位データＵBとを利用して音声信号ＶOUTを生成する。具体的には、音声合成部３４は、単位データＵCおよび単位データＵBの各々の振幅スペクトルＳMと位相スペクトルＳPとに対する逆フーリエ変換で各フレームの音声の時間波形を算定し、相前後するフレーム間で時間波形を相互に重複させて連結（加算）することで音声信号ＶOUTを生成する。
【００２８】
以上に説明した第１実施形態では、有声音の各フレームの振幅スペクトルＳMを利用して位相スペクトルＳPが算定されるから、有声音の各フレームについて位相スペクトルＳPを記憶装置１４に事前に格納する必要はない。したがって、有声音について振幅スペクトルＳMおよび位相スペクトルＳPの双方を事前に用意して保持する必要がある特許文献１と比較して、音声素片の記憶に必要な記憶容量を削減することが可能である。
【００２９】
また、第１実施形態では、有声音の各フレームの振幅スペクトルＳMから位相スペクトルＳPが算定されるため、振幅スペクトルＳMと位相スペクトルＳPとの時間的な対応を容易に維持することが可能である。したがって、各フレームの振幅スペクトルＳMと各フレームの位相スペクトルＳPとを時間的に整合させる特別な仕組を必要とせずに、振幅スペクトルＳMと位相スペクトルＳPとの時間差に起因した合成音の位相ズレ感を抑制できるという利点がある。
【００３０】
なお、振幅スペクトルＳMを素片調整部２６が調整する構成としては、位相スペクトルＳPの算定後に振幅スペクトルＳMを調整する構成（以下「態様Ａ」という）も想定され得る。しかし、態様Ａでは、例えば調整後に音声合成部３４に供給される振幅スペクトルが位相スペクトルＳPに対して遅延し、合成音の受聴者が位相ズレ感を知覚する可能性がある。第１実施形態では、素片調整部２６による調整後の振幅スペクトルＳMを利用して位相スペクトルＳPが算定されるから、振幅スペクトルＳMと位相スペクトルＳPとの時間的な対応を容易かつ確実に維持することで位相ズレ感を抑制できるという効果は、態様Ａと比較して各格別に顕著となる。ただし、態様Ａも本発明の範囲には包含される。
【００３１】
また、態様Ａでは、素片調整部２６による調整後の振幅スペクトルＳMと調整前の振幅スペクトルＳMから生成された位相スペクトルＳPとで特性が相互に乖離して合成音が不自然な音声となる可能性がある。素片調整部２６による調整で振幅スペクトルＳMの特性が大きく変化するほど以上の問題は顕著となる。第１実施形態では、素片調整部２６による調整後の振幅スペクトルＳMの特性に整合した位相スペクトルＳPが算定されるから、態様Ａと比較して自然な印象の合成音を生成できるという利点がある。
【００３２】
＜Ｂ：第２実施形態＞
本発明の第２実施形態を以下に説明する。なお、以下に例示する各態様において作用や機能が第１実施形態と同等である要素については、以上の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
【００３３】
図３は、実際の音声の振幅スペクトルＷM（包絡線）と位相スペクトルＷPとの関係を示すグラフである。図３に例示した音声では、振幅スペクトルＷMにて第１フォルマントＦ1から第４フォルマントＦ4が存在する各周波数において位相スペクトルＷPの位相値が大きく変化するという関連が、振幅スペクトルＷMと位相スペクトルＷPとの間で確認される。他方、第４フォルマントＦ4を上回る帯域内では、振幅スペクトルＷMと位相スペクトルＷPとの明確な関連性は観測されない。他方、振幅スペクトルＷMと位相スペクトルＷPとの関連性が高域側の帯域内でも過度に維持される音声は聴覚的に不自然な印象になるという傾向がある。すなわち、周波数の高域側にて振幅スペクトルＷMと位相スペクトルＷPとの関連性が低下するという傾向は、音声の聴感的な自然さに寄与すると推察される。そこで、第２実施形態では、位相算定部３２が算定した位相スペクトルＳPのうち高域側に位置する所定の帯域（例えば４ｋＨｚ以上の帯域）内の各周波数の位相値を変動させる。
【００３４】
図４は、第２実施形態の音声合成装置１００のブロック図である。図４に示すように、第２実施形態の演算処理装置１２は、第１実施形態と同様の各要素（素片選択部２２，振幅算定部２４，素片調整部２６，位相算定部３２，音声合成部３４）に加えて第１位相補正部４１として機能する。第１位相補正部４１は、位相算定部３２が算定した各フレームの位相スペクトルＳPの周波数毎の位相値を変化させる。素片調整部２６による調整後の振幅スペクトルＳMと第１位相補正部４１による補正後の位相スペクトルＳPとを含む単位データＵCがフレーム毎に音声合成部３４に供給される。
【００３５】
図５の部分(A)は、有声音の単位データＵAが示す振幅スペクトルＳMである。また、図５の部分(B)は、位相算定部３２が算定した位相スペクトル（第１位相補正部４１による補正前の位相スペクトル）ＳPであり、図５の部分(C)は、第１位相補正部４１による補正後の位相スペクトルＳPである。図５の部分(C)には、図５の部分(B)に例示された補正前の位相スペクトルＳPが破線で併記されている。図５の部分(C)に示すように、第１位相補正部４１は、位相算定部３２が算定した位相スペクトルＳP（図５の部分(B)）のうち帯域Ｂ（例えば４ｋＨｚ以上の帯域）内の各周波数の位相値を乱数的に変化させる。すなわち、帯域Ｂ内の各位相値の系列に揺らぎが付与される。
【００３６】
具体的には、第１位相補正部４１は、帯域Ｂ内の周波数毎に乱数を発生し、位相スペクトルＳPのうち帯域Ｂ内の各周波数の位相値にその周波数の乱数を加算または減算することで補正後の位相値を算定する。したがって、図６の部分(A)に示すように、補正後の位相スペクトルＳPのうち帯域Ｂ内の各周波数の位相値は、補正前の位相値を中心値とする所定の変動範囲α1内の任意の数値に設定される。すなわち、第１位相補正部４１による補正の結果、図３に例示した音声と同様に、位相スペクトルＳPと振幅スペクトルＳMとの帯域Ｂ内での関連性は低下する。なお、各位相値に適用される乱数は例えばフレーム毎に更新される。
【００３７】
第２実施形態においても第１実施形態と同様の効果が実現される。また、第２実施形態では、位相スペクトルＳPのうち帯域Ｂ内の位相値を変動させることで帯域Ｂ内における振幅スペクトルＳMと位相スペクトルＳPとの関連性が低下するから、第１実施形態と比較して聴感的に自然な印象の合成音を生成できるという利点がある。
【００３８】
＜Ｃ：第３実施形態＞
図７は、第３実施形態の音声合成装置１００のブロック図である。図７に示すように、第３実施形態における素片群ＧAの各音声素片データＤは、複数の単位データＵ（ＵA，ＵB）の時系列に加えて種別情報Ｃを含んで構成される。種別情報Ｃは、音声素片内の各音素の種別を指定する。例えば母音（/ａ/，/ｉ/，/ｕ/），無声破裂音（/ｔ/，/ｋ/，/ｐ/），有声破裂音（/ｂ/，/ｄ/，/ｇ/），無声破擦音（/ｔｓ/），有声破擦音（/ｊ/），無声摩擦音（/ｓ/，/ｆ/），有声摩擦音（/ｚ/），半母音（/ｗ/，/ｙ/）等の種別が種別情報Ｃで指定される。
【００３９】
また、記憶装置１４には、音素内の有声／無声の度合（以下「有声度」という）Ｖの時間的な推移を指定する有声度情報ＤVが、有声音の音素の種別（母音，有声破裂音，有声破擦音，有声摩擦音）毎に事前に格納される。図８は、有声度情報ＤVが示す有声度Ｖの時間変化の模式図である。図８の部分(A)は、有声摩擦音/ｊ/と母音/ａ/とを連結した音声素片［ｊ-ａ］の有声度Ｖであり、図８の部分(B)は、有声破裂音/ｂ/と母音/ａ/とを連結した音声素片［ｂ-ａ］の有声度Ｖである。
【００４０】
有声度Ｖは、有声を意味する数値０と無声を意味する数値１との間で音素の始点から終点にかけて推移する。図８の部分(A)に示すように、有声摩擦音/ｊ/の有声度Ｖは、音素の始点ｔsから時点ｔ1までの所定長の区間（例えばフレームの３個分）内で０から１に直線的に変化し、時点ｔ1から時点ｔ2まで１を維持するとともに、時点ｔ2から終点ｔeまでの所定長の区間（例えばフレームの３個分）内で１から０に直線的に変化する。また、図８の部分(B)に示すように、有声破裂音/ｂ/の有声度Ｖは、音素の始点ｔsから時点ｔ1までの区間（例えばフレームの４個分）内で０から０.５に変化し、時点ｔ1から時点ｔ2まで０.５を維持するとともに、時点ｔ2から終点ｔeまでの区間（例えばフレームの４個分）内で０.５から０に変化する。他方、母音/ａ/の有声度Ｖは、全区間にわたって０（有声）に維持される。
【００４１】
図７に示すように、第３実施形態の演算処理装置１２は、第１実施形態と同様の各要素（素片選択部２２，振幅算定部２４，素片調整部２６，位相算定部３２，音声合成部３４）に加えて第２位相補正部４２として機能する。第２位相補正部４２は、図６の部分(B)に示すように、位相算定部３２が算定した位相スペクトルＳPの周波数毎の位相値を、その位相値を中心値とする変動範囲α2内で乱数的に変化させる。具体的には、第２位相補正部４２は、周波数軸上の全帯域にわたる周波数毎に乱数を発生し、位相スペクトルＳPの各周波数の位相値にその周波数の乱数を加算または減算することで補正後の位相値を算定する。各周波数の位相値の補正に適用される乱数はフレーム毎に更新される。
【００４２】
ところで、実際の音声では、音声が無声に近いほど振幅スペクトルＷMと位相スペクトルＷPとの関連性が低下するという傾向がある。したがって、音声が無声に近いフレームでも振幅スペクトルＳMと位相スペクトルＳPとの関連性が高い場合には、合成音が人工的な音声と知覚される可能性がある。以上の傾向を考慮して、第３実施形態の第２位相補正部４２は、各フレームの位相スペクトルＳPの各位相値を変化させる変動範囲α2を、有声度情報ＤVがそのフレームについて指定する有声度Ｖに応じて可変に制御する。
【００４３】
すなわち、第２位相補正部４２は、素片選択部２２が選択した音声素片データＤの種別情報Ｃに対応する有声度情報ＤV（すなわち、合成対象の音素に対応する有声度情報ＤV）を記憶装置１４から取得し、各フレームの位相スペクトルＳPの位相値を、記憶装置１４から取得した有声度情報ＤVがそのフレームについて指定する有声度Ｖに応じた変動範囲α2内で乱数的に変動させる。具体的には、有声度Ｖが無声の数値１に近いフレームほど変動範囲α2が広い範囲となる（すなわち振幅スペクトルＳMと補正後の位相スペクトルＳPとの関連性が低下する）ように周波数毎の乱数が設定される。
【００４４】
例えば図８の部分(A)の有声摩摩擦音/ｊ/や図８の部分(B)の有声破裂音/ｂ/の音素の各フレームにおける位相値の変動範囲α2は、音素の始点ｔsから時点ｔ1にかけて拡大し、時点ｔ1から時点ｔ2まで一定に維持されるとともに、時点ｔ2から終点ｔeにかけて縮小する。他方、母音/ａ/の音素の各フレームにおける変動範囲α2は、音素の全区間にわたって一定の狭い範囲に維持される。
【００４５】
第３実施形態においても第１実施形態と同様の効果が実現される。また、第３実施形態では、有声音の各フレームの位相スペクトルＳPの位相値を第２位相補正部４２により変化させる変動範囲α2がそのフレームの有声度Ｖに応じて制御される。したがって、第１実施形態や第２実施形態と比較して、有声音の音素のうち特に無声に近い区間について人工的な印象を低減した自然な合成音を生成することが可能である。
【００４６】
＜Ｄ：第４実施形態＞
第１実施形態では、振幅スペクトルＳMに対応する最小位相を位相スペクトルＳPとして算定した。第４実施形態では、振幅スペクトルＳMに対応する位相スペクトルＳPを算定する方法が第１実施形態とは相違する。図９は、第４実施形態の位相算定部３２が振幅スペクトルＳMに対応する位相スペクトルＳPを算定する動作の説明図である。図９の部分(A)には、素片調整部２６による調整後の振幅スペクトルＳMが図示されている。振幅スペクトルＳMは、周波数軸上の相異なる周波数ｆ[k]に対応する複数の振幅値Ａ[k]の系列として表現される。記号ｋは、周波数軸上の任意の１個の周波数（周波数ビン）を意味する。振幅特性データＲから特定される振幅スペクトルＳMは包絡線であるから、記号ｋは調波成分（基音成分および複数の倍音成分）の次数に相当する。すなわち、振幅値Ａ[k]は、振幅スペクトルＳMにおける第ｋ次の調波成分の振幅を意味する。第４実施形態の位相算定部３２は、以下に例示する処理をフレーム毎に順次に実行する。
【００４７】
第１に、位相算定部３２は、周波数軸上の周波数ｆ[k]毎に、周波数ｆ[k]の振幅値Ａ[k]と周波数軸上で周波数ｆ[k]に隣接する周波数ｆ[k-1]の振幅値Ａ[k-1]との差分（以下「振幅差」という）δA[k]をフレーム毎に算定する（δA[k]＝Ａ[k]−Ａ[k-1]）。図９の部分(B)には、周波数軸上の各振幅差δA[k]が図示されている。
【００４８】
第２に、位相算定部３２は、周波数軸上の各振幅差δA[k]を周波数軸の方向に平滑化することで周波数ｆ[k]毎の振幅差δB[k]を算定する。振幅差δA[k]の平滑化には公知の技術が任意に採用されるが、例えば、各周波数ｆ[k]の振幅差δA[k]を含む複数個の数値の移動平均を平滑化後の振幅差δB[k]として算定する構成が好適である。第３に、位相算定部３２は、平滑化後の各振幅差δB[k]の数値を−π以上かつ＋π以下の範囲内の数値に変換し、変換後の各数値を周波数ｆ[k]毎の位相値とする位相スペクトルＳPを生成する。すなわち、位相算定部３２は、振幅スペクトルＳMにおいて周波数軸上で相隣接する各周波数（ｆ[k]，ｆ[k-1]）間の振幅差δA[k]を周波数軸の方向に平滑化することで位相スペクトルＳPを算定する要素として機能する。
【００４９】
図９の部分(C)には、第４実施形態の位相算定部３２が図９の部分(A)の振幅スペクトルＳMから算定した位相スペクトルＳPが図示されている。また、図９の部分(D)には、第１実施形態の位相算定部３２が図９の部分(A)の振幅スペクトルＳMから算定した位相スペクトルＳP（振幅スペクトルＳMに対応する最小位相）が図示されている。図９の部分(C)と部分(D)との対比から、第４実施形態でも第１実施形態と同様の形状（振幅スペクトルＳMとの関係が同等）の位相スペクトルＳPをフレーム毎に生成できることが理解される。すなわち、第４実施形態においても第１実施形態と同様の効果が実現される。
【００５０】
なお、以上の例示では第１実施形態を基礎として第４実施形態を説明したが、第４実施形態の位相算定部３２が算定した位相スペクトルＳPを第２実施形態の第１位相補正部４１および第３実施形態の第２位相補正部４２の一方または双方が補正する構成も採用され得る。
【００５１】
＜Ｅ：第５実施形態＞
図１０は、第５実施形態の音声合成装置１００のブロック図である。図１０に示すように、第５実施形態の演算処理装置１２は、第１実施形態と同様の各要素（素片選択部２２，振幅算定部２４，素片調整部２６，位相算定部３２，音声合成部３４）に加えて第３位相補正部４３として機能する。第３位相補正部４３は、位相算定部３２がフレーム毎に算定する位相スペクトルＳPの各位相値φA[m]を補正することで位相値φB[m]をフレーム毎に算定する。記号ｍは、時間軸上の任意の１個のフレーム（例えばフレームの番号）を意味する。位相値φB[m]は、振幅スペクトル（包絡線）ＳMの調波成分毎（周波数ビン毎）に算定される。第３位相補正部４３による補正後の各位相値φB[m]の系列が第ｍ番目のフレームの位相スペクトルＳPとして音声合成部３４の処理に利用される。
【００５２】
具体的には、第３位相補正部４３は、以下の数式(1)で表現されるように、第ｍ番目のフレームについて位相算定部３２が算定した位相スペクトルＳPの各位相値φA[m]に予測誤差Δφ[m]を付加することで、補正後の位相スペクトルＳPの位相値φB[m]を調波成分毎に算定する。
【数１】

【００５３】
数式(1)における第ｍ番目のフレームの予測誤差Δφ[m]は、以下の数式(2)で表現されるように、第ｍ番目のフレームについて予測される位相値（以下「予測位相」という）φE[m]と音声素片の第ｍ番目のフレームの実際の位相値φ[m]との差分（誤差）に相当する。第ｍ番目のフレームの予測位相φE[m]は、直前（第(m-1)番目）のフレームの実際の位相値φ[m-1]から推定される予測値であり、位相値φ[m]は、音声素片データＤが表現する音声素片における実際の位相値（実測値）である。
【数２】

数式(2)の記号princarg( )は、括弧内の数値を−π以上かつ＋π以下の範囲（すなわち位相の数値範囲）内の数値に変換する演算子を意味する。
【００５４】
数式(2)の予測位相φE[m]は、以下の数式(3)の演算により調波成分毎に算定される。
【数３】

数式(3)の記号Δtは、相前後する各フレーム間の時間差を意味し、数式(3)の記号ｆ[m]は、第ｍ番目のフレームにおける１個の調波成分（予測位相φE[m]に対応する調波成分）の周波数を意味する。数式(3)から理解されるように、数式(3)の第２項は、周波数ｆ[m-1]と周波数ｆ[m]との平均周波数（（ｆ[m-1]＋ｆ[m]）／２）の音声の位相が時間Δt内で変動する変動量（すなわち、相前後するフレーム間での位相の変動量の予測値）を意味する。したがって、数式(3)で算定される予測位相φE[m]は、位相が経時的に線形に変化するとの仮定のもとで、直前（第(m-1)番目）のフレームの実際の位相値φ[m-1]から予測される第ｍ番目のフレームの位相値に相当する。
【００５５】
第５実施形態では、収録済の音声素片から調波成分毎の位相値φ[m]が各フレームについて事前に算定され、各位相値φ[m]から数式(2)および数式(3)の演算で算定された予測誤差Δφ[m]が音声素片データＤの各単位データＵ内に設定される。すなわち、音声素片の各フレームの予測誤差Δφ[m]が音声素片毎に記憶装置１４に事前に記憶される。第３位相補正部４３は、位相算定部３２が第ｍ番目のフレームについて算定した位相スペクトルＳPの各位相値φA[m]に対し、記憶装置１４に記憶された第ｍ番目のフレームの予測誤差Δφ[m]を付加することで（数式(1)）、補正後の位相値φB[m]を算定する。
【００５６】
第５実施形態においても第１実施形態と同様の効果が実現される。また、第５実施形態では、位相算定部３２が算定した位相スペクトルＳPに予測誤差Δφ[m]が付加されるから、実際の音声における位相の変動に近似した傾向の位相スペクトルＳPを算定できる（したがって聴感的に自然な印象の合成音を生成できる）という利点がある。なお、以上の説明では第１実施形態の構成に第３位相補正部４３を追加した構成を例示したが、例えば第４実施形態の構成に第３位相補正部４３を追加することも可能である。
【００５７】
なお、第５実施形態で１個のフレームについて用意される予測誤差Δφ[m]の総数は、音声素片データＤの生成に利用された音声素片（以下「原素片」という）における調波成分の総数と同数である。したがって、合成音の音高Ｘ3が原素片の音高を上回る場合（予測誤差Δφ[m]の総数が過剰となる場合）には、複数の予測誤差Δφ[m]を適宜に間引いたうえで各位相値φA[m]の補正に適用し、合成音の音高Ｘ3が原素片の音高を下回る場合（予測誤差Δφ[m]の総数が不足する場合）には、各予測誤差Δφ[m]を複数の周波数について適宜に重複させたうえで各位相値φA[m]の補正に適用する構成が好適である。なお、１個のフレーム内で複数の周波数にわたる予測誤差Δφ[m]が相等しい場合には合成音が聴感的に不自然な印象になり得るという傾向がある。したがって、１個の予測誤差Δφ[m]を複数の周波数にわたり重複して利用する場合には、予測誤差Δφ[m]を周波数毎に相違させる（例えば各予測誤差Δφ[m]に乱数を付加する）構成が好適である。
【００５８】
なお、以上の説明では、各音声素片のフレーム毎の予測誤差Δφ[m]を事前に算定して記憶装置１４に格納した構成（以下「構成１」という）を例示したが、第３位相補正部４３が位相スペクトルＳPの補正に適用する予測誤差Δφ[m]を取得する方法は適宜に変更される。
【００５９】
例えば、各音声素片の時間波形を音声素片データＤに含ませ、音声信号ＶOUTの合成時に、第３位相補正部４３が、音声素片データＤ内の時間波形から各フレームの位相値（実測値）φ[m]を算定するとともに、数式(2)および数式(3)の演算で各位相値φ[m]から各フレームの予測誤差Δφ[m]を算定して位相スペクトルＳPの各位相値φA[m]の補正に適用する構成（以下「構成２」という）も採用され得る。なお、前述の構成１によれば、音声素片の時間波形を記憶する必要がないから、構成２と比較して記憶装置１４に必要な記憶容量が削減されるという利点がある。また、構成１によれば、音声信号ＶOUTの合成時に時間波形から各位相値φ[m]を算定する必要がないから、第３位相補正部４３の処理負荷が構成２と比較して軽減されるという利点もある。
【００６０】
また、音声素片の各フレームについて算定された予測誤差Δφ[m]の代表値（例えば平均値）を各調波成分の予測誤差Δφとして音声素片毎に記憶装置１４に事前に記憶する構成（以下「構成３」という）も採用され得る。第３位相補正部４３は、位相算定部３２が各フレームについて算定した位相スペクトルＳPの各位相値φA[m]に記憶装置１４内の予測誤差Δφを共通に付加することで位相値φB[m]を算定する。なお、複数のフレームにわたり予測誤差Δφが共通する場合には合成音が聴感的に不自然な印象になり得るという傾向がある。したがって、構成３では、予測誤差Δφをフレーム毎に相違させる（例えば各フレームの予測誤差Δφに乱数を付加する）構成が好適である。なお、構成３では、音声素片のフレーム毎の予測誤差Δφ[m]や音声素片の音声波形を保持する必要がないから、構成１や構成２と比較して記憶装置１４に必要な記憶容量が削減されるという利点がある。
【００６１】
＜Ｆ：変形例＞
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２以上の態様を適宜に併合することも可能である。
【００６２】
（１）第１実施形態では振幅スペクトルＳMに対応する最小位相を位相スペクトルＳPとして算定し、第４実施形態では周波数ｆ[k]毎の振幅差δA[k]を平滑化した振幅差δB[k]の系列を位相スペクトルＳPとして算定したが、振幅スペクトルＳMに対応する位相スペクトルＳPをフレーム毎に算定する方法は以上の例示に限定されない。例えば、最小位相と同様に振幅スペクトルＳMから一意に決定される最大位相を、位相スペクトルＳPとして算定することも可能である。なお、最大位相を位相スペクトルＳPとして生成される合成音は、１波長内の後方の時点にエネルギーが集中するという傾向がある。したがって、振幅スペクトルＳMの最大位相を位相スペクトルＳPとして生成する構成は、例えば、音声信号ＶOUTを逆転再生する場合や、音声素片データＤが示す各音素の順序を逆転させた音声素片の音声素片データＤを生成する場合に好適である。後者の場合としては、例えば、音声素片［Sil-ａ］のフレーム毎に振幅スペクトルＳMと位相スペクトルＳP（振幅スペクトルＳMの最大位相）とを算定し、各フレームの順番を逆転させることで音声素片［ａ-Sil］の音声素片データＤを生成する場合が例示される。なお、振幅スペクトルＳMの最小位相や最大位相を算定する方法は以上の例示には限定されない。以上の例示から理解されるように、前述の各形態における位相算定部３２は、音声素片の各フレームの振幅スペクトルＳMに対応する位相スペクトルＳPをフレーム毎に算定する要素（位相算定手段）として包括される。
【００６３】
（２）第２実施形態の第１位相補正部４１と第３実施形態の第２位相補正部４２との双方を具備する構成も採用され得る。第１位相補正部４１と第２位相補正部４２とを具備する構成では、図６の部分(A)および部分(B)に示す通り、第１位相補正部４１の補正による各位相値（帯域Ｂ内）の変動範囲α1が、第２位相補正部４２の補正による各位相値の変動範囲α2と比較して広い範囲に設定される。
【００６４】
（３）第３実施形態では、第２位相補正部４２が周波数軸上の全帯域の位相値を補正したが、特定の帯域内の位相値のみを第２位相補正部４２による補正の対象とすることも可能である。例えば、低域側の所定個（例えば５個）の周波数を除外した帯域内の各位相値を第２位相補正部４２が補正する構成が採用され得る。
【００６５】
（４）第３実施形態では、有声度Ｖの時間変化を示す有声度情報ＤVを記憶装置１４に事前に記憶させたが、音声素片内での有声度Ｖの時間変化を特定する方法は任意である。例えば、音声素片データＤから特定される音声の特徴（例えばスペクトルの傾き，フォルマントの位置や強度，ゼロクロス数）を利用して有声度Ｖの時間変化を算定する構成や、これらの特徴を記憶装置１４に事前に格納しておいて有声度Ｖの時間変化の算定に利用する構成も採用され得る。以上の説明から理解される通り、第２位相補正部４２は、音声素片内での有声度Ｖの時間変化を特定（例えば記憶装置１４から取得または所定の方法で算定）し、各フレームの位相スペクトルＳPの位相値を、そのフレームについて特定した有声度Ｖに応じた変動範囲α2内で乱数的に変動させる要素として包括され、有声度Ｖの時間変化を特定する方法の如何は不問である。
【００６６】
（５）音声素片データＤの形式は任意である。例えば、前述の各形態では各フレームの振幅特性データＲを含む音声素片データＤを例示したが、音声素片データＤがフレーム毎の振幅スペクトルＳM（すなわち周波数毎の振幅値の系列）を直接的に指定する構成も採用される。音声素片データＤが振幅スペクトルＳMを含む構成では振幅算定部２４が算定される。以上の例示から理解される通り、音声素片データＤは、音声素片の各フレームの振幅スペクトルＳMを示すデータとして包括される。
【００６７】
（６）前述の各形態では、位相算定部３２が算定した位相スペクトルＳPを利用して音声信号ＶOUTを生成する音声合成装置１００を例示したが、音声（音声素片）の各フレームの振幅スペクトルＳMに対応する位相スペクトルＳPをフレーム毎に算定する音声処理装置（位相算定装置）としても本発明は実施され得る。すなわち、音声合成部３４（音声合成手段）は省略され得る。
【符号の説明】
【００６８】
１００……音声合成装置、１２……演算処理装置、１４……記憶装置、１６……放音装置、２２……素片選択部、２４……振幅算定部、２６……素片調整部、３２……位相算定部、３４……音声合成部、４１……第１位相補正部、４２……第２位相補正部、４３……第３位相補正部。

【特許請求の範囲】
【請求項１】
音声素片データが音声素片の各フレームについて示す振幅スペクトルに対応する位相スペクトルをフレーム毎に算定する位相算定手段と、
前記音声素片データが示す各フレームの振幅スペクトルと前記位相算定手段による算定後の各フレームの位相スペクトルとを利用して音声信号を生成する音声合成手段と
を具備する音声合成装置。
【請求項２】
前記位相算定手段は、前記音声素片データが示す前記振幅スペクトルに対応する最小位相または最大位相を位相スペクトルとして算定する
請求項１の音声合成装置。
【請求項３】
前記位相算定手段は、前記音声素片データが示す前記振幅スペクトルにおいて周波数軸上で相隣接する各周波数間の振幅値の差分を周波数軸の方向に平滑化することで位相スペクトルを算定する
請求項１の音声合成装置。
【請求項４】
音声素片データが示す各フレームの振幅スペクトルを調整する素片調整手段を具備し、
前記位相算定手段は、前記素片調整手段による調整後の振幅スペクトルに対応する位相スペクトルをフレーム毎に算定し、
前記音声合成手段は、前記素片調整手段による調整後の振幅スペクトルと前記位相算定手段による算定後の各フレームの位相スペクトルとを利用して音声信号を生成する
請求項１から請求項３の何れかの音声合成装置。
【請求項５】
前記位相算定手段が算定した各フレームの位相スペクトルのうち所定の帯域内の各位相値を乱数的に変化させる第１位相補正手段
を具備する請求項１から請求項４の何れかの音声合成装置。
【請求項６】
音声素片内での有声度の時間変化を特定し、前記位相算定手段が算定した各フレームの位相スペクトルの各位相値を、そのフレームの有声度に応じた変動範囲内で乱数的に変化させる第２位相補正手段
を具備する請求項１から請求項５の何れかの音声合成装置。
【請求項７】
前記位相算定手段が各フレームについて算定した位相スペクトルを補正する手段であって、前記位相算定手段が一のフレームについて算定した位相スペクトルの各位相値に、前記一のフレームの直前のフレームから予測される位相値の予測誤差を付加する第３位相補正手段
を具備する請求項１から請求項３の何れかの音声合成装置。

【図１】