音声合成装置
【課題】既存の素片データとはピッチが相違する合成音を自然な音色で生成する。
【解決手段】記憶装置14は、音声素片の素片データVをピッチP毎に記憶する。素片データVは、有声音を含む区間内の各フレームについてスペクトル形状の特徴を示す形状パラメータRを含み、無声音を含む区間内の各フレームについてスペクトルデータQを含む。素片補間部24は、素片データV1およびV2の補間で目標ピッチPtの素片データVを生成する。具体的には、素片データV1およびV2の双方が有声音を示すフレームについては形状パラメータRが目標ピッチPtに応じた補間比率αで補間され、素片データV1およびV2の片方または双方が無声音を示すフレームについては、音量Eが補間比率αで補間され、素片データV1のスペクトルデータQが補間後の音量Eに応じて補正される。音声合成部26は、補間後の素片データVを利用して音声信号VOUTを生成する。
【解決手段】記憶装置14は、音声素片の素片データVをピッチP毎に記憶する。素片データVは、有声音を含む区間内の各フレームについてスペクトル形状の特徴を示す形状パラメータRを含み、無声音を含む区間内の各フレームについてスペクトルデータQを含む。素片補間部24は、素片データV1およびV2の補間で目標ピッチPtの素片データVを生成する。具体的には、素片データV1およびV2の双方が有声音を示すフレームについては形状パラメータRが目標ピッチPtに応じた補間比率αで補間され、素片データV1およびV2の片方または双方が無声音を示すフレームについては、音量Eが補間比率αで補間され、素片データV1のスペクトルデータQが補間後の音量Eに応じて補正される。音声合成部26は、補間後の素片データVを利用して音声信号VOUTを生成する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複数の音声素片の連結で発話音や歌唱音等の音声を合成する技術に関する。
【背景技術】
【0002】
音声素片を示す複数の素片データを連結することで所望の音声を合成する素片接続型の音声合成技術が従来から提案されている。所望のピッチ(音高)の音声を合成するにはそのピッチで発声された音声素片の素片データを利用することが望ましいが、全種類のピッチについて素片データを用意することは現実的には困難である。そこで、特許文献1には、代表的な幾つかのピッチについて素片データを用意し、目標ピッチに最も近いピッチの1個の素片データを目標ピッチに調整したうえで音声を合成する構成が開示されている。例えば図12に示すように、ピッチE3とピッチG3とについて素片データが用意された場合を想定すると、ピッチF3の素片データはピッチE3の素片データのピッチを上昇させることで生成され、ピッチF#3の素片データはピッチG3の素片データのピッチを低下させることで生成される。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2010−169889号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、特許文献1のように1個の素片データの調整で目標ピッチの素片データを生成する構成では、相互にピッチが近接する合成音の音色が乖離して不自然な印象になるという問題がある。例えば、ピッチF3の合成音とピッチF#3の合成音とは、ピッチが相互に近接した関係にあり、本来的には音色が類似するのが自然である。しかし、ピッチF3の基礎となる素片データ(ピッチE3)とピッチF#3の基礎となる素片データ(ピッチG3)とは別個に発声および収録された素片データであるから、ピッチF3の合成音とピッチF#3の合成音との間では音色が不自然に乖離する可能性がある。特にピッチF3の合成音とピッチF#3の合成音とを連続に生成する場合には、両者の境界の時点(図12の時点t0)において音色の急激な変化が受聴者に顕著に知覚される。なお、以上の説明では素片データのピッチの調整に言及したが、音量等の他の音声特徴量を調整する場合にも同様の問題が発生し得る。以上の事情を考慮して、本発明は、既存の素片データとはピッチ等の音声特徴量が相違する合成音をその既存の素片データを利用して自然な音色で生成することを目的とする。
【課題を解決するための手段】
【0005】
以上の課題を解決するために本発明が採用する手段を説明する。なお、本発明の理解を容易にするために、以下の説明では、本発明の要素と後述の実施形態の要素との対応を括弧書で付記するが、本発明の範囲を実施形態の例示に限定する趣旨ではない。
【0006】
本発明の第1態様に係る音声合成装置は、音声特徴量が相違する音声素片のフレーム毎のスペクトルを示す複数の素片データの補間により、音声特徴量の目標値(例えば目標ピッチPt)に対応する素片データを生成する素片補間手段(例えば素片補間部24)と、素片補間手段が生成した素片データを利用して音声信号を生成する音声合成手段(例えば音声合成部26)とを具備する。以上の構成では、音声特徴量の数値が相違する複数の素片データの補間により目標値の素片データが生成されるから、1個の素片データから目標値の素片データを生成する構成と比較して自然な音色の合成音を生成できるという利点がある。
【0007】
本発明の好適な態様において、素片補間手段は、第1素片データ(例えば素片データV1)および第2素片データ(例えば素片データV2)の各々が当該フレームについて示すスペクトルを目標値に応じた補間比率(例えば補間比率α)で補間することで前記目標値の素片データを生成する第1補間処理と、第1素片データおよび第2素片データの各々が当該フレームについて示す音声の音量(例えば音量E)を目標値に応じた補間比率で補間し、第1素片データが示すスペクトルを当該補間後の音量に応じて補正することで目標値の素片データを生成する第2補間処理とを選択的に実行する。
【0008】
無声音のスペクトルは強度が不規則に分布するから、無声音についてスペクトルを補間した場合、補間後の音声のスペクトルが補間前の各素片データから乖離した特性となる可能性がある。そこで、有声音のフレームと無声音のフレームとで補間の方法を相違させた構成が好適である。すなわち、本発明の好適な態様において、素片データは、音声素片のフレーム毎のスペクトルを示し、素片補間手段は、補間に適用する第1素片データ(例えば素片データV1)および第2素片データ(例えば素片データV2)の双方が有声音を示すフレームについては(例えば、第1素片データと第2素片データとの間で時間的に対応するフレームの双方が有声音に該当する場合)、第1素片データおよび第2素片データの各々が当該フレームについて示すスペクトルを目標値に応じた補間比率(例えば補間比率α)で補間することで目標値の素片データを生成し、第1素片データおよび第2素片データの双方が無声音を示すフレームについては(例えば、第1素片データと第2素片データとの間で時間的に対応するフレームの片方または双方が無声音に該当する場合)、第1素片データおよび第2素片データの各々が当該フレームについて示す音声の音量(例えば音量E)を目標値に応じた補間比率で補間し、第1素片データが示すスペクトルを当該補間後の音量に応じて補正することで目標値の素片データを生成する。以上の構成では、第1素片データおよび第2素片データの双方が有声音に該当するフレームについてはスペクトルの補間により目標値の素片データが生成され、第1素片データおよび第2素片データの双方が無声音に該当するフレームについては音量の補間により目標値の素片データが生成される。したがって、音声素片が有声音と無声音の双方を含む場合でも目標値の素片データを適切に生成できるという利点がある。なお、第2素片データを音量の補間の対象とすることも可能である。
【0009】
具体的な態様において、素片データは、音声素片のうち有声音を含む区間内の各フレームについては音声のスペクトルの形状の特徴を示す形状パラメータ(例えば形状パラメータR)を含み、無声音を含む区間内の各フレームについては音声のスペクトルを示すスペクトルデータ(例えばスペクトルデータQ)を含み、素片補間手段は、第1素片データおよび第2素片データの双方が有声音を示すフレームについては、第1素片データおよび第2素片データの各々における当該フレームの形状パラメータを目標値に応じた補間比率で補間することで目標値の素片データを生成し、第1素片データおよび第2素片データの双方が無声音を示すフレームについては、第1素片データのスペクトルデータが示すスペクトルを補間後の音量に応じて補正することで目標値の素片データを生成する。以上の態様では、音声素片のうち有声音を含む区間内の各フレームについては素片データに形状パラメータが含まれるから、スペクトル自体を示すスペクトルデータを有声音についても素片データに含ませる構成と比較して素片データのデータ量を削減することが可能である。また、第1素片データおよび第2素片データの双方を反映したスペクトルを形状パラメータの補間により簡易かつ適切に生成できるという利点もある。
【0010】
本発明の好適な態様において、素片補間手段は、第1素片データおよび第2素片データの一方が無声音を示すフレームについては、第1素片データ(または第2素片データ)のスペクトルデータが示すスペクトルを補間後の音量に応じて補正することで目標値の素片データを生成する。以上の態様では、第1素片データおよび第2素片データの双方が無声音を示すフレームに加えて、第1素片データおよび第2素片データの一方が無声音を示すフレーム(第1素片データおよび第2素片データの一方が無声音を示すとともに他方が有声音を示すフレーム)についても、音量の補間により目標値の素片データが生成される。したがって、有声音と無声音との境界が第1素片データと第2素片データとで相違する場合でも目標値の素片データを適切に生成できるという利点がある。なお、第1素片データおよび第2素片データの一方が無声音を示すとともに他方が有声音を示すフレームについて音量の補間により目標値の素片データを生成する構成(第1素片データおよび第2素片データの双方が無声音を示すフレームの補間方法は不問)を採用することも可能である。なお、以上に例示した第1態様の具体例は例えば第1実施形態として後述される。
【0011】
なお、例えば音量やスペクトル包絡や音声波形等の音声特性が第1素片データと第2素片データとの間で大きく相違する場合、第1素片データと第2素片データとの補間で生成された素片データは、第1素片データおよび第2素片データの何れからも乖離した特性となる可能性がある。そこで、本発明の好適な態様において、素片補間手段は、第1素片データと第2素片データとの間で相対応するフレームにて音声特性の相違が大きい場合(例えば両者間の相違を示す指標値が閾値を上回る場合)に、第1素片データおよび前記第2素片データの一方が補間後の素片データに優先的に反映されるように、第1素片データと第2素片データとを補間する。例えば、素片補間手段は、複数の素片データの補間比率を最大値または最小値に近付ける。以上の態様では、第1素片データと第2素片データとの音声特性の相違が大きい場合に、第1素片データおよび第2素片データの一方が優先されるように補間比率が設定されるから、第1素片データまたは第2素片データを適切に反映した素片データを補間により生成できるという利点がある。なお、以上に説明した態様の具体例は、例えば第3実施形態として後述される。
【0012】
本発明のひとつの態様に係る音声合成装置は、音声特徴量が相違する音声素片のフレーム毎のスペクトルを示す複数の素片データの補間により、音声特徴量の目標値に対応する素片データを生成する手段であって、補間に適用する第1素片データおよび第2素片データの双方が有声音を示すフレームについて(例えば、第1素片データと第2素片データとの間で時間的に対応するフレームの双方が有声音に該当する場合)、第1素片データおよび第2素片データの各々が当該フレームについて示すスペクトルを目標値に応じた補間比率で補間することで目標値の素片データを生成する素片補間手段と、素片補間手段が生成した素片データを利用して音声信号を生成する音声合成手段とを具備する。また、他の態様に係る音声合成装置は、音声特徴量が相違する音声素片のフレーム毎のスペクトルを示す複数の素片データの補間により、音声特徴量の目標値に対応する素片データを生成する手段であって、第1素片データおよび第2素片データの少なくとも一方が無声音を示すフレームについて(例えば、第1素片データと第2素片データとの間で時間的に対応するフレームの片方または双方が無声音に該当する場合)、第1素片データおよび第2素片データの各々が当該フレームについて示す音声の音量を目標値に応じた補間比率で補間し、第1素片データが示すスペクトルを当該補間後の音量に応じて補正することで目標値の素片データを生成する素片補間手段と、素片補間手段が生成した素片データを利用して音声信号を生成する音声合成手段とを具備する。
【0013】
本発明の第2態様に係る音声合成装置は、音声素片を示す素片データを音声特徴量(例えばピッチ)の相異なる数値毎に記憶する素片記憶手段(例えば記憶装置14)と、継続音の変動成分を示す定常音データ(例えば定常音データS)を音声特徴量の相異なる数値毎に記憶する定常音記憶手段(例えば記憶装置14)と、定常音記憶手段に記憶された複数の定常音データの補間により、目標値(例えば目標ピッチPt)に対応する定常音データを生成する定常音補間手段(例えば定常音補間部44)と、素片データと定常音補間手段が生成した定常音データとを利用して音声信号を生成する音声合成手段(例えば音声合成部26)とを具備する。以上の構成では、音声特徴量の数値が相違する複数の定常音データの補間により目標値の定常音データが生成されるから、1個の定常音データから目標値の定常音データを生成する構成と比較して自然な音色の合成音を生成できるという利点がある。定常音補間手段は、例えば、第1定常音データから抽出した複数の第1単位区間を配列した第1中間データと、各第1単位区間と同等の時間長となるように第2定常音データから抽出した第2単位区間を配列した第2中間データとを補間する。なお、以上に例示した第2態様の具体例は、例えば第2実施形態として後述される。
【0014】
以上の各態様に係る音声合成装置は、音声合成に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)で実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働でも実現される。本発明の第1態様に係るプログラム(例えばプログラムPGM)は、音声特徴量が相違する音声素片のフレーム毎のスペクトルを示す複数の素片データの補間により、音声特徴量の目標値に対応する素片データを生成する素片補間処理と、素片補間処理で生成した素片データを利用して音声信号を生成する音声合成処理とをコンピュータに実行させる。また、第2態様に係るプログラムは、音声素片を示す素片データを音声特徴量の相異なる数値毎に記憶する素片記憶手段と、継続音の変動成分を示す定常音データを音声特徴量の相異なる数値毎に記憶する定常音記憶手段とを具備するコンピュータに、定常音記憶手段に記憶された複数の定常音データの補間により、目標値に対応する定常音データを生成する定常音補間処理と、素片データと定常音補間処理で生成した定常音データとを利用して音声信号を生成する音声合成処理とを実行させる。以上のプログラムによれば、本発明の音声合成装置と同様の作用および効果が実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。
【図面の簡単な説明】
【0015】
【図1】本発明の第1実施形態に係る音声合成装置のブロック図である。
【図2】素片データ群および各素片データの模式図である。
【図3】素片データを利用した音声合成の説明図である。
【図4】素片補間部のブロック図である。
【図5】補間比率の時間変化を示す模式図である。
【図6】補間処理部の動作のフローチャートである。
【図7】第2実施形態に係る音声合成装置のブロック図である。
【図8】第2実施形態における定常音データ群および定常音データの模式図である。
【図9】定常音データの補間の説明図である。
【図10】定常音補間部のブロック図である。
【図11】第3実施形態における補間比率の時間変化の説明図である。
【図12】背景技術における素片データの調整の説明図である。
【発明を実施するための形態】
【0016】
<A:第1実施形態>
図1は、本発明の第1実施形態に係る音声合成装置100のブロック図である。音声合成装置100は、発話音や歌唱音等の音声を素片接続型の音声合成処理で生成する信号処理装置であり、図1に示すように、演算処理装置12と記憶装置14と放音装置16とを具備するコンピュータシステムで実現される。
【0017】
演算処理装置12(CPU)は、記憶装置14に格納されたプログラムPGMの実行で、合成音の波形を表す音声信号VOUTを生成するための複数の機能(素片選択部22,素片補間部24,音声合成部26)を実現する。なお、演算処理装置12の各機能を複数の集積回路に分散した構成や、専用の電子回路(DSP)が各機能を実現する構成も採用され得る。放音装置16(例えばヘッドホンやスピーカ)は、演算処理装置12が生成した音声信号VOUTに応じた音波を放射する。
【0018】
記憶装置14は、演算処理装置12が実行するプログラムPGMや演算処理装置12が使用する各種のデータ(素片データ群GA,合成情報GB)を記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置14として採用される。
【0019】
素片データ群GAは、図2に示すように、音声信号VOUTの素材として利用される複数の素片データVの集合(音声合成ライブラリ)である。相異なるピッチP(P1,P2,……)に対応する複数の素片データVが音声素片毎に事前に収録されて記憶装置14に記憶される。音声素片は、音声の言語的な最小単位に相当する1個の音素、または、複数の音素を相互に連結した音素連鎖(例えば2個の音素で構成されるダイフォン)である。なお、以下では便宜的に、無音を無声音の1個の音素(記号Sil)として説明する。
【0020】
図2に示すように、複数の音素(/a/,/s/)で構成される1個の音声素片(ダイフォン)の素片データVは、境界情報BおよびピッチPと、音声素片を時間軸上で区分した各フレームに対応する複数の単位データU(UA,UB)の時系列とを含んで構成される。境界情報Bは、音声素片の区間内の境界点tBを指定する。境界点tBは、音声素片を構成する各音素の境界に合致するように、例えば素片データVの作成者が音声素片の時間波形を確認しながら設定する。ピッチPは、音声素片の全体的なピッチ(例えば素片データVの収録時に発声者が意図したピッチ)である。
【0021】
各単位データUは、1個のフレーム内の音声のスペクトルを規定する。素片データVの複数の単位データUは、音声素片のうち有声音を含む区間内の各フレームに対応する複数の単位データUAと、無声音を含む区間内の各フレームに対応する複数の単位データUBとに区別される。境界点tBは、単位データUAの系列と単位データUBの系列との境界に相当する。例えば図2の例示のように無声音の音素/s/が有声音の音素/a/に後続するダイフォンの素片データVは、境界点tBの前方の区間(有声音の音素/a/)の各フレームに対応する単位データUAと、境界点tBの後方の区間(無声音の音素/s/)の各フレームに対応する単位データUBとを含んで構成される。以下に詳述する通り、単位データUAと単位データUBとは内容が相違する。
【0022】
有声音に対応するフレームの1個の単位データUAは、図2に示すように、形状パラメータRとピッチpFと音量(エネルギー)Eとを含んで構成される。ピッチpFは、1個のフレームにおける音声のピッチ(基本周波数)を意味し、音量Eは、1個のフレームでの音声のエネルギーの平均を意味する。
【0023】
形状パラメータRは、音声のスペクトル(音色)を示す情報であり、音声(調和成分)のスペクトル包絡の形状の特徴を示す複数の変数で構成される。第1実施形態の形状パラメータRは、例えば励起波形エンベロープr1と胸部レゾナンスr2と声道レゾナンスr3と差分スペクトルr4とを含むEpR(Excitation plus Resonance)パラメータであり、公知のSMS(Spectral Modeling Synthesis)分析で生成される。なお、EpRパラメータやSMS分析については、例えば特許第3711880号公報や特開2007−226174号公報にも開示されている。
【0024】
励起波形エンベロープ(Excitation Curve)r1は、声帯振動のスペクトルエンベロープを近似する変数である。胸部レゾナンス(Chest Resonance)r2は、胸部共鳴特性を近似する所定個のレゾナンス(帯域通過フィルタ)の帯域幅と中心周波数と振幅値とを指定する。声道レゾナンス(Vocal Tract Resonance)r3は、声道共鳴特性を近似する複数のレゾナンスの各々について帯域幅と中心周波数と振幅値とを指定する。差分スペクトルr4は、励起波形エンベロープr1と胸部レゾナンスr2と声道レゾナンスr3とで近似されるスペクトルと音声のスペクトルとの差分(誤差)を意味する。
【0025】
無声音に対応するフレームの1個の単位データUBは、図2に示すように、スペクトルデータQと音量Eとを含んで構成される。音量Eは、単位データUA内の音量Eと同様に、1個のフレーム内での音声のエネルギーを意味する。スペクトルデータQは、音声(非調和成分)のスペクトルを示すデータであり、具体的には、周波数軸上の複数の周波数の各々における強度(パワー,振幅値)の系列で構成される。すなわち、単位データUA内の形状パラメータRが音声(調和成分)のスペクトルを間接的に表現するのに対して、単位データUB内のスペクトルデータQは音声(非調和成分)のスペクトルを直接的に表現する。
【0026】
記憶装置14に記憶された合成情報(スコアデータ)GBは、合成音の発音文字X1と発音期間X2とピッチの目標値(以下「目標ピッチ」という)Ptとを時系列に指定する。発音文字X1は、例えば歌唱音を合成する場合の歌詞の文字列であり、発音期間X2は、例えば発音開始時刻と継続長とで指定される。合成情報GBは、例えば各種の入力機器に対する利用者による操作に応じて生成されて記憶装置14に格納される。なお、他の通信端末から通信網を介して受信された合成情報GBや可搬型の記録媒体から転送された合成情報GBを音声信号VOUTの生成に使用することも可能である。
【0027】
図1の素片選択部22は、合成情報GBの発音文字X1に対応する各音声素片の素片データVを記憶装置14の素片データ群GAから順次に選択する。1個の音声素片についてピッチP毎に用意された複数の素片データVのうち目標ピッチPtに対応する素片データVが選択される。具体的には、目標ピッチPtに合致するピッチPの素片データVが発音文字X1の音声素片について記憶装置14に格納されている場合、素片選択部22は、その1個の素片データVを素片データ群GAから選択する。他方、目標ピッチPtに合致するピッチPの素片データVが発音文字X1の音声素片について記憶装置14に格納されていない場合、素片選択部22は、ピッチPが目標ピッチPtに近い複数の素片データVを素片データ群GAから選択する。具体的には、素片選択部22は、ピッチPが目標ピッチPtを挟む関係にある2個の素片データV(V1,V2)を選択する。すなわち、目標ピッチPtに最も近いピッチPの素片データV1と、目標ピッチPtを挟んで素片データV1のピッチPとは反対側の範囲内で目標ピッチPtに最も近いピッチPの素片データV2とが選択される。
【0028】
図1の素片補間部24は、目標ピッチPtに合致するピッチPの素片データVが存在しない場合に素片選択部22が選択する2個の素片データV(V1,V2)を補間することで、目標ピッチPtに対応する1個の素片データVを生成する。素片補間部24の具体的な作用については後述する。
【0029】
音声合成部26は、素片選択部22が選択した目標ピッチPtの素片データVと素片補間部24が生成した素片データVとを利用して音声信号VOUTを生成する。具体的には、音声合成部26は、図3に示すように、合成情報GBが指定する発音期間X2(発音開始時刻)に応じて各素片データVの時間軸上の位置を決定し、素片データVの各単位データUが示すスペクトルを時間波形に変換する。具体的には、単位データUAについては形状パラメータRから特定されるスペクトルが時間波形に変換され、単位データUBについてはスペクトルデータQが直接的に示すスペクトルが時間波形に変換される。そして、音声合成部26は、素片データVから生成した時間波形を前後のフレーム間で相互に連結して音声信号VOUTを生成する。図3に示すように、1個の音素(典型的には有声音)が定常的に継続される区間(以下では「定常発音区間」という)Hについては、その定常発音区間の直前の素片データVのうち最後のフレームの単位データUが反復される。
【0030】
図4は、素片補間部24のブロック図である。図4に示すように、第1実施形態の素片補間部24は、補間比率設定部32と素片伸縮部34と補間処理部36とを含んで構成される。補間比率設定部32は、素片データV1と素片データV2との補間に適用される補間比率α(0≦α≦1)を、合成情報GBが時系列に指定する目標ピッチPtに応じてフレーム毎に順次に設定する。具体的には、補間比率設定部32は、図5に示すように目標ピッチPtに連動して0以上1以下の範囲内で変動するように補間比率αをフレーム毎に設定する。例えば目標ピッチPtが素片データV1のピッチPに近付くほど補間比率αは1に近い数値に設定される。
【0031】
素片データ群GAを構成する複数の素片データVの各々の時間長は相違し得る。素片伸縮部34は、素片データV1と素片データV2とで音声素片が相等しい時間長(フレーム数)となるように、素片選択部22が選択した各素片データVを伸縮する。具体的には、素片伸縮部34は、素片データV2を、素片データV1と同等のフレーム数Mに伸縮する。例えば、素片データV2が素片データV1と比較して長い場合、素片データV2の複数の単位データUを所定個毎に間引くことで素片データV2を素片データV1と同等のフレーム数Mに調整する。他方、素片データV2が素片データV1と比較して短い場合、素片データV2の複数の単位データUを所定個毎に反復することで素片データV2を素片データV1と同等のフレーム数Mに調整する。
【0032】
図4の補間処理部36は、素片伸縮部34による処理後の素片データV1と素片データV2とを、補間比率設定部32が設定した補間比率αに応じて補間することで、目標ピッチPtの素片データVを生成する。図6は、補間処理部36の動作のフローチャートである。素片データV1と素片データV2との組毎に図6の処理が実行される。
【0033】
補間処理部36は、素片データV(V1,V2)のM個のフレームから1個のフレーム(以下では「選択フレーム」と表記する)を選択する(SA1)。M個のフレームの各々がステップSA1の処理毎に1個ずつ順番に選択され、目標ピッチPtの単位データU(以下では「補間単位データUi」と表記する)を補間により生成する処理(SA2〜SA6)が選択フレーム毎に実行される。選択フレームを指定すると、補間処理部36は、素片データV1および素片データV2の双方の選択フレームが有声音のフレーム(以下「有声フレーム」という)に該当するか否かを判定する(SA2)。
【0034】
素片データVの境界情報Bで指定される境界点tBが音声素片内の実際の音素の境界に正確に合致する場合(すなわち、有声音/無声音の区別と単位データUA/単位データUBの区別とが正確に対応する場合)、単位データUAが用意されたフレームを有声フレームと判定するとともに単位データUBが用意されたフレームを無声音のフレーム(以下「無声フレーム」という)と判定することが可能である。しかし、単位データUAと単位データUBとの境界点tBは、素片データVの作成者により手動で指定されるから、音声素片内の実際の有声音/無声音の境界とは実際には相違する可能性がある。したがって、実際には無声音に該当するフレームについても有声音用の単位データUAが用意される可能性や、実際には有声音に該当するフレームについても無声音用の単位データUBが用意される可能性がある。そこで、図6のステップSA2において、補間処理部36は、単位データUBが用意されたフレームを無声フレームと判定するほか、単位データUAが用意されたフレームであっても、単位データUAのピッチpFが有意な数値ではないフレーム(すなわち無声音であるために適切な数値のピッチPが検出されなかったフレーム)についても無声フレームと判定する。すなわち、単位データUAが用意されたフレームのうちピッチpFが有意な数値であるフレームが有声フレームと判定され、例えばピッチpFがゼロ(ピッチの非検出を示す数値)であるフレームは無声フレームと判定される。
【0035】
素片データV1および素片データV2の双方の選択フレームが有声フレームに該当する場合(SA2:YES)、補間処理部36は、素片データV1のうち選択フレームの単位データUAが示すスペクトルと素片データV2のうち選択フレームの単位データUAが示すスペクトルとを補間比率αに応じて補間(加重加算)することで補間単位データUiを生成する(SA3)。例えば補間処理部36は、素片データV1のうち選択フレームの形状パラメータRの各変数x1(r1〜r4)と、素片データV2のうち選択フレームの形状パラメータRの各変数x2(r1〜r4)とについて以下の数式(1)の補間演算を実行することで、補間単位データUiにおける形状パラメータRの各変数xiを算定する。
xi=α・x1+(1−α)・x2 ……(1)
すなわち、素片データV1および素片データV2の双方の選択フレームが有声フレームである場合には音声のスペクトル(すなわち音色)同士が補間され、単位データUAと同様に形状パラメータRを含む補間単位データUiが生成される。なお、形状パラメータR(r1〜r4)の一部のみを補間するとともに他の変数については素片データV1および素片データV2の一方の数値を採択することで補間単位データUiを生成することも可能である。例えば、形状パラメータRのうち励起波形エンベロープr1と胸部レゾナンスr2と声道レゾナンスr3との各々については素片データV1と素片データV2との間で補間し、差分スペクトルr4については素片データV1および素片データV2の一方の数値を採択する構成が好適である。
【0036】
他方、無声音のスペクトルは強度が不規則に分布するから、素片データV1および素片データV2の片方または双方の選択フレームが無声フレームである場合には、ステップSA3のようなスペクトル同士の補間は適用できない。そこで、第1実施形態では、素片データV1および素片データV2の片方または双方の選択フレームが無声フレームである場合には、選択フレームについてスペクトルの補間は実行せずに音量Eのみを補間する(SA4,SA5)。
【0037】
例えば、素片データV1および素片データV2の片方または双方の選択フレームが無声フレームである場合(SA2:NO)、補間処理部36は、第1に、素片データV1のうち選択フレームの単位データUが示す音量E1と素片データV2のうち選択フレームの単位データUが示す音量E2とを補間比率αに応じて補間することで補間音量Eiを算定する(SA4)。補間音量Eiは、例えば以下の数式(2)で算定される。
Ei=α・E1+(1−α)・E2) ……(2)
【0038】
第2に、補間処理部36は、素片データV1の選択フレームの単位データUが示すスペクトルを補間音量Eiに応じて補正し、補正後のスペクトルのスペクトルデータQを含む補間単位データUiを生成する(SA5)。具体的には、音量が補間音量Eiとなるように単位データUのスペクトルが補正される。素片データV1の選択フレームの単位データUが形状パラメータRを含む単位データUAである場合には、形状パラメータRから特定されるスペクトルが補間音量Eiに応じた補正対象とされ、素片データV1の選択フレームの単位データUがスペクトルデータQを含む単位データUBである場合には、スペクトルデータQが直接的に表現するスペクトルが補間音量Eiに応じた補正対象とされる。すなわち、素片データV1および素片データV2の片方または双方の選択フレームが無声フレームである場合には、音量Eのみが補間され、単位データUBと同様にスペクトルデータQを含む補間単位データUiが生成される。
【0039】
選択フレームの補間単位データUiを生成すると、補間処理部36は、全部(M個)のフレームについて補間単位データUiを生成したか否かを判定する(SA6)。未処理のフレームが残存する場合(SA6:NO)、補間処理部36は、現段階の選択フレームの直後のフレームを新たな選択フレームとして選択したうえで(SA1)、ステップSA2からステップSA6までの処理を実行する。全部のフレームについて処理が完了した場合(SA6:YES)、補間処理部36は図6の処理を終了する。各フレームについて生成されたM個の補間単位データUiの時系列を含む素片データVが音声合成部26による音声信号VOUTの生成に適用される。
【0040】
以上に説明した通り、第1実施形態では、ピッチPが相違する複数の素片データVの補間(合成)で目標ピッチPtの素片データVが生成されるから、1個の素片データの調整で目標ピッチの素片データを生成する構成と比較して自然な音色の合成音を生成できるという利点がある。例えば図12の例示のようにピッチE3およびピッチG3について素片データVが用意された場合を想定すると、両者間に位置するピッチF3およびピッチF#3の双方の素片データVが、ピッチE3の素片データVとピッチG3の素片データVとの補間(ただし補間比率αは相違する)により生成される。したがって、ピッチF3の合成音とピッチF#3の合成音とで音色が近似した自然な合成音を生成することが可能である。
【0041】
また、素片データV1と素片データV2との間で時間的に対応するフレームの双方が有声音に該当する場合には形状パラメータRの補間により補間単位データUiが生成され、素片データV1と素片データV2との間で時間的に対応するフレームの片方または双方が無声音に該当する場合には音量Eの補間により補間単位データUiが生成される。以上のように有声フレームと無声フレームとで補間の方法を相違させることで、以下に詳述するように、有声音および無声音の双方について聴感的に自然な素片データVを補間により生成できるという利点もある。
【0042】
例えば、素片データV1と素片データV2の双方の選択フレームが有声音である場合にも、選択フレームが無声音である前述の場合と同様に、素片データV1と素片データV2との間の補間音量Eiに応じて素片データV1のスペクトルを補正する構成(対比例1)では、補間後の素片データVが、素片データV1の音色に類似する一方で素片データV2の音色からは乖離して合成音が聴感的に不自然となる可能性がある。第1実施形態では、素片データV1と素片データV2の双方の選択フレームが有声音である場合に、素片データV1と素片データV2との間の形状パラメータRの補間により素片データVが生成されるから、対比例1と比較して自然な合成音を生成できるという利点がある。
【0043】
また、素片データV1と素片データV2の片方または双方の選択フレームが無声音である場合にも、選択フレームが有声音である場合と同様に、素片データV1のスペクトルと素片データV2のスペクトルとを補間する構成(対比例2)では、補間後の素片データVのスペクトルが素片データV1および素片データV2の何れからも乖離する可能性がある。第1実施形態では、素片データV1と素片データV2の片方または双方の選択フレームが無声音である場合に、素片データV1と素片データV2との補間音量Eiに応じて素片データV1のスペクトルが補正されるから、素片データV1を適切に反映した自然な合成音を生成できるという利点がある。
【0044】
<B:第2実施形態>
本発明の第2実施形態を以下に説明する。第1実施形態では、定常的に継続する音声(以下「継続音」という)が合成される定常発音区間Hについて、その定常発音区間Hの直前の素片データVの最後の単位データUを配列した。第2実施形態では、定常発音区間H内の複数の単位データUの時系列に、継続音の変動成分(例えばビブラート成分)が付加される。なお、以下に例示する各態様において作用や機能が第1実施形態と同等である要素については、以上の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
【0045】
図7は、第2実施形態の音声合成装置100のブロック図である。図7に示すように、第2実施形態の記憶装置14は、プログラムPGMと素片データ群GAと合成情報GBとに加えて定常音データ群GCを記憶する。
【0046】
定常音データ群GCは、図8に示すように、継続音の変動成分を示す複数の定常音データSの集合である。変動成分は、音響特性が定常的に維持される音声(継続音)のうち時間的に微細に変動する成分に相当する。図8に示すように、相異なるピッチP(P1,P2,……)に対応する複数の定常音データSが有声音の音声素片毎(音素毎)に事前に収録されて記憶装置14に記憶される。1個の定常音データSは、変動成分の全体的(平均的)なピッチPと、継続音の変動成分を時間軸上で区分した各フレームに対応する複数の形状パラメータRの時系列とを含んで構成される。形状パラメータRは、継続音の変動成分のスペクトル形状の特徴を示す複数の変数(r1〜r4)で構成される。
【0047】
図7に示すように、演算処理装置12は、第1実施形態と同様の要素(素片選択部22,素片補間部24,音声合成部26)に加えて定常音選択部42および定常音補間部44としても機能する。定常音選択部42は、定常発音区間H毎に定常音データSを順次に選択する。具体的には、合成情報GBの目標ピッチPtに合致するピッチPの定常音データSが発音文字X1の音声素片について記憶装置14に格納されている場合、定常音選択部42は、その1個の定常音データSを定常音データ群GCから選択する。他方、目標ピッチPtに合致するピッチPの定常音データSが発音文字X1の音声素片について記憶装置14に格納されていない場合、定常音選択部42は、素片選択部22と同様に、ピッチPが目標ピッチPtを挟む関係にある2個の定常音データS(S1,S2)を選択する。具体的には、目標ピッチPtに最も近いピッチPの定常音データS1と、目標ピッチPtを挟んで定常音データS1のピッチPとは反対側の範囲内で目標ピッチPtに最も近いピッチPの定常音データS2とが選択される。
【0048】
定常音補間部44は、図9に示すように、目標ピッチPtに合致するピッチPの定常音データSが存在しない場合に定常音選択部42が選択する2個の定常音データS(S1,S2)を補間することで、目標ピッチPtに対応する1個の定常音データSを生成する。定常音補間部44が補間により生成する定常音データSは、発音期間X2に応じた定常発音区間H内の各フレームに対応する複数の形状パラメータRで構成される。
【0049】
音声合成部26は、図9に示すように、定常音選択部42が選択した目標ピッチPtの定常音データSまたは定常音補間部44が生成した定常音データSを、定常発音区間H内の複数の単位データUの時系列に対して合成することで音声信号VOUTを生成する。具体的には、音声合成部26は、定常発音区間H内の各単位データUが示すスペクトルの時間波形と、定常音データSの各形状パラメータRが示すスペクトルの時間波形とを相対応するフレーム同士で加算し、前後のフレーム間で連結して音声信号VOUTを生成する。
【0050】
図10は、定常音補間部44のブロック図である。図10に示すように、定常音補間部44は、補間比率設定部52と定常音伸縮部54と補間処理部56とを含んで構成される。補間比率設定部52は、第1実施形態の補間比率設定部32と同様に、目標ピッチPtに応じた補間比率αをフレーム毎に順次に設定する。なお、図10では便宜的に補間比率設定部32と補間比率設定部52とを別個の要素として図示したが、素片補間部24と定常音補間部44とで補間比率設定部32を共用することも可能である。
【0051】
図10の定常音伸縮部54は、定常音選択部42が選択した定常音データS(S1,S2)の伸縮で中間データs(s1,s2)を生成する。図9に示すように、定常音伸縮部54は、定常音データS1の複数の形状パラメータRの時系列からN個の単位区間σ1[1]〜σ1[N]を抽出および連結することで、定常発音区間Hの時間長に相当する個数の形状パラメータRを配列した中間データs1を生成する。N個の単位区間σ1[1]〜σ1[N]は、時間軸上で相互に重複し得るように定常音データS1から抽出され、各々の時間長(フレーム数)はランダムに設定される。
【0052】
また、定常音伸縮部54は、図9に示すように、定常音データS2の複数の形状パラメータRの時系列からN個の単位区間σ2[1]〜σ2[N]を抽出および連結することで中間データs2を生成する。第n番目(n=1〜N)の単位区間σ2[n]の時間長(フレーム数)は、中間データs1の第n番目の単位区間σ1[n]と同等の時間長に設定される。したがって、中間データs2は、中間データs1と同様に、定常発音区間Hの時間長に相当する個数の形状パラメータRで構成される。
【0053】
図10の補間処理部56は、中間データs1と中間データs2との補間により目標ピッチPtの定常音データSを生成する。具体的には、補間処理部56は、中間データs1と中間データs2との間で相対応するフレームの形状パラメータRを、補間比率設定部52が設定した補間比率αに応じて補間することで補間形状パラメータRiを生成し、複数の補間形状パラメータRiを時系列に配列することで目標ピッチPtの定常音データSを生成する。形状パラメータRの補間には前述の数式(1)が適用される。補間処理部56が生成した定常音データSから特定される継続音の変動成分の時間波形が、定常発音区間H内の各単位データUから特定される音声の時間波形に合成されることで音声信号VOUTが生成される。
【0054】
第2実施形態においても第1実施形態と同様の効果が実現される。また、第2実施形態では、既存の定常音データSから目標ピッチPtの定常音データSが生成されるから、目標ピッチPtの全数値について定常音データSを用意する構成と比較して定常音データ群GCのデータ量(記憶装置14の容量)を削減することが可能である。また、複数の定常音データSの補間で目標ピッチPtの定常音データSが生成されるから、第1実施形態における素片データVの補間と同様に、1個の定常音データSから目標ピッチPtの定常音データSを生成する構成と比較して自然な合成音を生成できるという利点もある。
【0055】
なお、定常発音区間Hの時間長に相当する中間データs1を定常音データS1から生成する方法としては、定常音データS1を定常発音区間Hの時間長に伸縮(形状パラメータRの間引や反復)して中間データs1を生成する方法も採用され得る。ただし、定常音データS1を時間軸上で伸縮した場合には、変動成分の周期が伸縮の前後で変化するから、定常発音区間H内の合成音が聴感的に不自然な印象となる可能性がある。定常音データS1から抽出した単位区間σ1[n]の配列で中間データs1を生成する前述の構成では、単位区間σ1[n]内の形状パラメータRの配列自体は定常音データS1と同等であるから、変動成分の周期が維持された自然な合成音を生成できるという利点がある。中間データs2の生成についても同様である。
【0056】
<C:第3実施形態>
素片データV1と素片データV2とを補間する構成では、素片データV1と素片データV2とが示す音声の音量(エネルギー)が過度に相違する場合に、素片データV1および素片データV2の何れからも乖離した音響特性の素片データVが生成され、結果的に合成音が不自然な音響となる可能性がある。以上の事情を考慮して、第3実施形態では、素片データV1と素片データV2との間で音量の相違が大きい場合に、素片データV1および素片データV2の何れかが優先的に補間に反映されるように補間比率αを制御する。
【0057】
図11は、補間比率設定部32が設定する補間比率αの時間変化のグラフである。図11では、素片データV1および素片データV2の各々が示す音声素片の波形図が補間比率αの時間変化と共通の時間軸のもとで併記されている。素片データV2が示す音声素片は音量が略一定に維持されるが、素片データV1が示す音声素片は、音量がゼロに低下する区間を含む。
【0058】
図11に示すように、第3実施形態の補間比率設定部32は、素片データV1および素片データV2の相対応するフレーム間で音量差(エネルギーの相違)が大きい場合に、補間比率αを最大値1または最小値0の一方に近付けるように動作する。例えば、補間比率設定部32は、素片データV1の単位データUで指定される音量E1と素片データV2の単位データUで指定される音量E2との音量差ΔE(例えばΔE=E1−E2)をフレーム毎に算定し、音量差ΔEが所定の閾値を上回るか否かを判定する。そして、補間比率設定部32は、音量差ΔEが閾値を上回るフレームが所定長の期間にわたって連続した場合に、目標ピッチPtとは無関係に、その期間内において補間比率αを経時的に最大値1まで変化させる。したがって、補間処理部36による補間には素片データV1が優先的に適用される(すなわち素片データVの補間が停止される)。また、補間比率設定部32は、音量差ΔEが閾値を下回るフレームが所定の期間にわたって連続した場合に、その期間内で、補間比率αを最大値1から目標ピッチPtに応じた数値まで変化させる。
【0059】
第3実施形態においても第1実施形態と同様の効果が実現される。第3実施形態では、素片データV1と素片データV2との間で音量が過度に相違する場合に、素片データV1および素片データV2の一方が優先的に補間に適用されるように補間比率αが制御される。したがって、補間後の素片データVの音声が素片データV1および素片データV2の何れからも乖離して合成音が不自然となる可能性を低減することが可能である。
【0060】
<D:変形例>
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様を適宜に併合することも可能である。
【0061】
(1)前述の各形態ではピッチPの数値毎に素片データVを用意したが、他の音声特徴量の数値毎に素片データVを用意することも可能である。音声特徴量とは、音声の音響的な特性を示す各種の指標値を包括する概念である。例えば前述の例示におけるピッチPのほか、音声の音量(ダイナミクス)や音声の表情に関する変数が音声特徴量として例示される。音声の表情に関する変数は、例えば、音声の明瞭度や気息性の度合や発声時の口の開き具合等である。以上の例示から理解されるように、素片補間部24は、音声特徴量の相異なる数値に対応する複数の素片データVを補間することで音声特徴量の目標値(例えば目標ピッチPt)に応じた素片データVを生成する要素として包括される。第2実施形態の定常音補間部44についても同様であり、音声特徴量の相異なる数値に対応する複数の定常音データSを補間することで音声特徴量の目標値に応じた定常音データSを生成する要素として包括される。
【0062】
(2)前述の各形態では、単位データUAのピッチpFに応じて選択フレームの有声/無声を判定したが、選択フレームの有声/無声を判定する方法は適宜に変更される。例えば単位データUAと単位データUBとの境界と有声/無声の境界とが高精度に合致する場合や両者の相違が問題とならない場合には、形状パラメータRの有無(単位データUA/単位データUB)に応じて選択フレームの有声/無声を判定することも可能である。すなわち、素片データVのうち形状パラメータRを含む単位データUAに対応する各フレームを有声フレームと判定するとともに形状パラメータRを含まない単位データUBに対応する各フレームを無声フレームと判定することも可能である。
【0063】
また、前述の各形態では、単位データUAが形状パラメータRとピッチpFと音量Eとを含み、単位データUBがスペクトルデータQと音量Eとを含む構成を例示したが、全部の単位データUが形状パラメータRとピッチpFとスペクトルデータQと音量Eとを含む構成も採用され得る。形状パラメータRやピッチpFを適切に検出できない無声フレームについては形状パラメータRやピッチpFが異常値(例えばエラーを示す特定の数値やゼロ)に設定される。以上の構成では、形状パラメータRやピッチpFが有意な数値であるか否かに応じて選択フレームの有声/無声を判定することが可能である。
【0064】
(3)形状パラメータRの補間で補間単位データUiを生成する動作と音量Eの補間で補間単位データUiを生成する動作との実行の条件は前述の例示に限定されない。例えば、特定の種別の音素(例えば有声子音)の各フレームについては、当該フレームが有声音に該当する場合でも音量Eの補間で補間単位データUiを生成する構成が採用される。例えば、事前に用意された参照テーブルに登録された音素の各フレームについては、有声音/無声音に関わらず音量Eの補間で補間単位データUiを生成することも可能である。また、無声子音の音声素片の各フレームは基本的には無声音に該当するが有声音のフレームも混在し得る。したがって、無声子音の音声素片の各フレームについては、当該フレームが有声音に該当する場合でも音量Eの補間で補間単位データUiを生成する構成が好適である。
【0065】
(4)素片データVや定常音データSのデータ構造は任意である。例えば、前述の各形態では、フレーム毎の音量Eを単位データUに含ませたが、単位データUには音量Eを含ませず、単位データU(形状パラメータR,スペクトルデータQ)が示すスペクトルやその時間波形から音量Eを算定することも可能である。また、前述の各形態では、音声信号VOUTの生成時に形状パラメータRやスペクトルデータQから時間波形を生成したが、フレーム毎の時間波形データを形状パラメータRやスペクトルデータQとは別に素片データVに含ませ、音声信号VOUTの生成時に時間波形データを使用することも可能である。素片データVに時間波形データを含ませた構成では、形状パラメータRやスペクトルデータQが示すスペクトルを時間波形に変換する処理が不要となる。また、前述の各形態における形状パラメータRの代わりにLSF(Line Spectral Frequencies)等の他のスペクトル表現方法を利用してスペクトルの形状を表現することも可能である。
【0066】
(5)第3実施形態では、素片データV1と素片データV2との間で音量が過度に相違する場合に素片データV1および素片データV2の一方を優先させたが、素片データV1および素片データV2の一方を優先させる(すなわち補間を停止する)のは両者間の音量差が大きい場合に限定されない。例えば、素片データV1および素片データV2の各々が示す音声のスペクトル包絡の形状(フォルマント構造)が過度に相違する場合に素片データV1および素片データV2の一方を優先させる構成が採用される。具体的には、素片データV1および素片データV2の一方の音声に明確なフォルマント構造が存在するのに対して他方の音声には明確なフォルマント構造が存在しない(例えば無音に近い)場合のように、補間後の音声のフォルマント構造が補間前の各素片データVから大きく乖離するほど素片データV1と素片データV2とでスペクトル包絡の形状が相違する場合に、素片補間部24は、素片データV1および素片データV2の一方を優先させる(すなわち補間を停止する)。また、素片データV1および素片データV2の各々が示す音声波形が過度に相違する場合に素片データV1および素片データV2の一方を優先させることも可能である。以上の例示から理解されるように、第3実施形態の構成は、素片データV1と素片データV2との間で相対応するフレームにて音声の特性の相違が大きい場合(例えば相違の度合を示す指標値が閾値を上回る場合)に補間比率αを最大値または最小値に近付ける(すなわち補間を停止する)構成として包括され、以上に説明した音量やスペクトル包絡形状や音声波形は、判定に適用される音声特性の例示である。
【0067】
(6)前述の各形態では、単位データUの間引または反復により素片伸縮部34が素片データV2を素片データV1と共通のフレーム数Mに調整したが、素片データV2の調整の方法は任意である。例えば、DP(Dynamic Programming)マッチング等の技術を利用して、素片データV2を素片データV1に対応させることも可能である。定常音データSについても同様である。また、素片データV2内で相前後する各単位データUを時間軸上で補間する(例えば素片データV2内の第2番目のフレームと第3番目のフレームとの間で単位データUを補間する)ことにより素片データV2を伸縮し、伸縮後の素片データV2と素片データV1との間でフレーム毎に単位データUを補間する構成も採用され得る。なお、例えば記憶装置14に記憶された各素片データVの時間長が相等しい場合には、各素片データVを伸縮する構成(素片伸縮部34)は省略され得る。
【0068】
また、第2実施形態では、定常音データS1の形状パラメータRの時系列から単位区間σ1[n]を抽出したが、形状パラメータRの時系列を定常発音区間Hの時間長に伸縮することで中間データs1を生成することも可能である。定常音データS2についても同様であり、例えば定常音データS2の時間長が定常音データS1と比較して短い場合には、定常音データS2を時間軸上で伸長することで中間データs2が生成され得る。
【0069】
(7)前述の各形態では、素片データV1と素片データV2との補間に適用される補間比率αを0以上かつ1以下の範囲で変化させたが、素片データV1と素片データV2との補間比率の数値範囲は任意である。例えば、素片データV1および素片データV2の一方の補間比率を1.5に設定するとともに他方の補間比率を−0.5に設定して両者を合成する処理(外挿)も本発明の補間の概念に包含される。
【0070】
(8)前述の各形態では、素片データ群GAを記憶する記憶装置14が音声合成装置100に搭載された構成を例示したが、音声合成装置100とは独立した外部装置(例えばサーバ装置)が素片データ群GAを保持する構成も採用される。音声合成装置100(素片選択部22)は、例えば通信網を介して外部装置から素片データVを取得して音声信号VOUTを生成する。同様に、音声合成装置100から独立した外部装置に合成情報GBを保持することも可能である。以上の説明から理解されるように、素片データVや合成情報GBを記憶する要素(前述の各形態における記憶装置14)は音声合成装置100の必須の要素ではない。
【符号の説明】
【0071】
100……音声合成装置、12……演算処理装置、14……記憶装置、16……放音装置、22……素片選択部、24……素片補間部、26……音声合成部、32……補間比率設定部、34……素片伸縮部、36……補間処理部、42……定常音選択部、44……定常音補間部、52……補間比率設定部、54……定常音伸縮部、56……補間処理部。
【技術分野】
【0001】
本発明は、複数の音声素片の連結で発話音や歌唱音等の音声を合成する技術に関する。
【背景技術】
【0002】
音声素片を示す複数の素片データを連結することで所望の音声を合成する素片接続型の音声合成技術が従来から提案されている。所望のピッチ(音高)の音声を合成するにはそのピッチで発声された音声素片の素片データを利用することが望ましいが、全種類のピッチについて素片データを用意することは現実的には困難である。そこで、特許文献1には、代表的な幾つかのピッチについて素片データを用意し、目標ピッチに最も近いピッチの1個の素片データを目標ピッチに調整したうえで音声を合成する構成が開示されている。例えば図12に示すように、ピッチE3とピッチG3とについて素片データが用意された場合を想定すると、ピッチF3の素片データはピッチE3の素片データのピッチを上昇させることで生成され、ピッチF#3の素片データはピッチG3の素片データのピッチを低下させることで生成される。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2010−169889号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、特許文献1のように1個の素片データの調整で目標ピッチの素片データを生成する構成では、相互にピッチが近接する合成音の音色が乖離して不自然な印象になるという問題がある。例えば、ピッチF3の合成音とピッチF#3の合成音とは、ピッチが相互に近接した関係にあり、本来的には音色が類似するのが自然である。しかし、ピッチF3の基礎となる素片データ(ピッチE3)とピッチF#3の基礎となる素片データ(ピッチG3)とは別個に発声および収録された素片データであるから、ピッチF3の合成音とピッチF#3の合成音との間では音色が不自然に乖離する可能性がある。特にピッチF3の合成音とピッチF#3の合成音とを連続に生成する場合には、両者の境界の時点(図12の時点t0)において音色の急激な変化が受聴者に顕著に知覚される。なお、以上の説明では素片データのピッチの調整に言及したが、音量等の他の音声特徴量を調整する場合にも同様の問題が発生し得る。以上の事情を考慮して、本発明は、既存の素片データとはピッチ等の音声特徴量が相違する合成音をその既存の素片データを利用して自然な音色で生成することを目的とする。
【課題を解決するための手段】
【0005】
以上の課題を解決するために本発明が採用する手段を説明する。なお、本発明の理解を容易にするために、以下の説明では、本発明の要素と後述の実施形態の要素との対応を括弧書で付記するが、本発明の範囲を実施形態の例示に限定する趣旨ではない。
【0006】
本発明の第1態様に係る音声合成装置は、音声特徴量が相違する音声素片のフレーム毎のスペクトルを示す複数の素片データの補間により、音声特徴量の目標値(例えば目標ピッチPt)に対応する素片データを生成する素片補間手段(例えば素片補間部24)と、素片補間手段が生成した素片データを利用して音声信号を生成する音声合成手段(例えば音声合成部26)とを具備する。以上の構成では、音声特徴量の数値が相違する複数の素片データの補間により目標値の素片データが生成されるから、1個の素片データから目標値の素片データを生成する構成と比較して自然な音色の合成音を生成できるという利点がある。
【0007】
本発明の好適な態様において、素片補間手段は、第1素片データ(例えば素片データV1)および第2素片データ(例えば素片データV2)の各々が当該フレームについて示すスペクトルを目標値に応じた補間比率(例えば補間比率α)で補間することで前記目標値の素片データを生成する第1補間処理と、第1素片データおよび第2素片データの各々が当該フレームについて示す音声の音量(例えば音量E)を目標値に応じた補間比率で補間し、第1素片データが示すスペクトルを当該補間後の音量に応じて補正することで目標値の素片データを生成する第2補間処理とを選択的に実行する。
【0008】
無声音のスペクトルは強度が不規則に分布するから、無声音についてスペクトルを補間した場合、補間後の音声のスペクトルが補間前の各素片データから乖離した特性となる可能性がある。そこで、有声音のフレームと無声音のフレームとで補間の方法を相違させた構成が好適である。すなわち、本発明の好適な態様において、素片データは、音声素片のフレーム毎のスペクトルを示し、素片補間手段は、補間に適用する第1素片データ(例えば素片データV1)および第2素片データ(例えば素片データV2)の双方が有声音を示すフレームについては(例えば、第1素片データと第2素片データとの間で時間的に対応するフレームの双方が有声音に該当する場合)、第1素片データおよび第2素片データの各々が当該フレームについて示すスペクトルを目標値に応じた補間比率(例えば補間比率α)で補間することで目標値の素片データを生成し、第1素片データおよび第2素片データの双方が無声音を示すフレームについては(例えば、第1素片データと第2素片データとの間で時間的に対応するフレームの片方または双方が無声音に該当する場合)、第1素片データおよび第2素片データの各々が当該フレームについて示す音声の音量(例えば音量E)を目標値に応じた補間比率で補間し、第1素片データが示すスペクトルを当該補間後の音量に応じて補正することで目標値の素片データを生成する。以上の構成では、第1素片データおよび第2素片データの双方が有声音に該当するフレームについてはスペクトルの補間により目標値の素片データが生成され、第1素片データおよび第2素片データの双方が無声音に該当するフレームについては音量の補間により目標値の素片データが生成される。したがって、音声素片が有声音と無声音の双方を含む場合でも目標値の素片データを適切に生成できるという利点がある。なお、第2素片データを音量の補間の対象とすることも可能である。
【0009】
具体的な態様において、素片データは、音声素片のうち有声音を含む区間内の各フレームについては音声のスペクトルの形状の特徴を示す形状パラメータ(例えば形状パラメータR)を含み、無声音を含む区間内の各フレームについては音声のスペクトルを示すスペクトルデータ(例えばスペクトルデータQ)を含み、素片補間手段は、第1素片データおよび第2素片データの双方が有声音を示すフレームについては、第1素片データおよび第2素片データの各々における当該フレームの形状パラメータを目標値に応じた補間比率で補間することで目標値の素片データを生成し、第1素片データおよび第2素片データの双方が無声音を示すフレームについては、第1素片データのスペクトルデータが示すスペクトルを補間後の音量に応じて補正することで目標値の素片データを生成する。以上の態様では、音声素片のうち有声音を含む区間内の各フレームについては素片データに形状パラメータが含まれるから、スペクトル自体を示すスペクトルデータを有声音についても素片データに含ませる構成と比較して素片データのデータ量を削減することが可能である。また、第1素片データおよび第2素片データの双方を反映したスペクトルを形状パラメータの補間により簡易かつ適切に生成できるという利点もある。
【0010】
本発明の好適な態様において、素片補間手段は、第1素片データおよび第2素片データの一方が無声音を示すフレームについては、第1素片データ(または第2素片データ)のスペクトルデータが示すスペクトルを補間後の音量に応じて補正することで目標値の素片データを生成する。以上の態様では、第1素片データおよび第2素片データの双方が無声音を示すフレームに加えて、第1素片データおよび第2素片データの一方が無声音を示すフレーム(第1素片データおよび第2素片データの一方が無声音を示すとともに他方が有声音を示すフレーム)についても、音量の補間により目標値の素片データが生成される。したがって、有声音と無声音との境界が第1素片データと第2素片データとで相違する場合でも目標値の素片データを適切に生成できるという利点がある。なお、第1素片データおよび第2素片データの一方が無声音を示すとともに他方が有声音を示すフレームについて音量の補間により目標値の素片データを生成する構成(第1素片データおよび第2素片データの双方が無声音を示すフレームの補間方法は不問)を採用することも可能である。なお、以上に例示した第1態様の具体例は例えば第1実施形態として後述される。
【0011】
なお、例えば音量やスペクトル包絡や音声波形等の音声特性が第1素片データと第2素片データとの間で大きく相違する場合、第1素片データと第2素片データとの補間で生成された素片データは、第1素片データおよび第2素片データの何れからも乖離した特性となる可能性がある。そこで、本発明の好適な態様において、素片補間手段は、第1素片データと第2素片データとの間で相対応するフレームにて音声特性の相違が大きい場合(例えば両者間の相違を示す指標値が閾値を上回る場合)に、第1素片データおよび前記第2素片データの一方が補間後の素片データに優先的に反映されるように、第1素片データと第2素片データとを補間する。例えば、素片補間手段は、複数の素片データの補間比率を最大値または最小値に近付ける。以上の態様では、第1素片データと第2素片データとの音声特性の相違が大きい場合に、第1素片データおよび第2素片データの一方が優先されるように補間比率が設定されるから、第1素片データまたは第2素片データを適切に反映した素片データを補間により生成できるという利点がある。なお、以上に説明した態様の具体例は、例えば第3実施形態として後述される。
【0012】
本発明のひとつの態様に係る音声合成装置は、音声特徴量が相違する音声素片のフレーム毎のスペクトルを示す複数の素片データの補間により、音声特徴量の目標値に対応する素片データを生成する手段であって、補間に適用する第1素片データおよび第2素片データの双方が有声音を示すフレームについて(例えば、第1素片データと第2素片データとの間で時間的に対応するフレームの双方が有声音に該当する場合)、第1素片データおよび第2素片データの各々が当該フレームについて示すスペクトルを目標値に応じた補間比率で補間することで目標値の素片データを生成する素片補間手段と、素片補間手段が生成した素片データを利用して音声信号を生成する音声合成手段とを具備する。また、他の態様に係る音声合成装置は、音声特徴量が相違する音声素片のフレーム毎のスペクトルを示す複数の素片データの補間により、音声特徴量の目標値に対応する素片データを生成する手段であって、第1素片データおよび第2素片データの少なくとも一方が無声音を示すフレームについて(例えば、第1素片データと第2素片データとの間で時間的に対応するフレームの片方または双方が無声音に該当する場合)、第1素片データおよび第2素片データの各々が当該フレームについて示す音声の音量を目標値に応じた補間比率で補間し、第1素片データが示すスペクトルを当該補間後の音量に応じて補正することで目標値の素片データを生成する素片補間手段と、素片補間手段が生成した素片データを利用して音声信号を生成する音声合成手段とを具備する。
【0013】
本発明の第2態様に係る音声合成装置は、音声素片を示す素片データを音声特徴量(例えばピッチ)の相異なる数値毎に記憶する素片記憶手段(例えば記憶装置14)と、継続音の変動成分を示す定常音データ(例えば定常音データS)を音声特徴量の相異なる数値毎に記憶する定常音記憶手段(例えば記憶装置14)と、定常音記憶手段に記憶された複数の定常音データの補間により、目標値(例えば目標ピッチPt)に対応する定常音データを生成する定常音補間手段(例えば定常音補間部44)と、素片データと定常音補間手段が生成した定常音データとを利用して音声信号を生成する音声合成手段(例えば音声合成部26)とを具備する。以上の構成では、音声特徴量の数値が相違する複数の定常音データの補間により目標値の定常音データが生成されるから、1個の定常音データから目標値の定常音データを生成する構成と比較して自然な音色の合成音を生成できるという利点がある。定常音補間手段は、例えば、第1定常音データから抽出した複数の第1単位区間を配列した第1中間データと、各第1単位区間と同等の時間長となるように第2定常音データから抽出した第2単位区間を配列した第2中間データとを補間する。なお、以上に例示した第2態様の具体例は、例えば第2実施形態として後述される。
【0014】
以上の各態様に係る音声合成装置は、音声合成に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)で実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働でも実現される。本発明の第1態様に係るプログラム(例えばプログラムPGM)は、音声特徴量が相違する音声素片のフレーム毎のスペクトルを示す複数の素片データの補間により、音声特徴量の目標値に対応する素片データを生成する素片補間処理と、素片補間処理で生成した素片データを利用して音声信号を生成する音声合成処理とをコンピュータに実行させる。また、第2態様に係るプログラムは、音声素片を示す素片データを音声特徴量の相異なる数値毎に記憶する素片記憶手段と、継続音の変動成分を示す定常音データを音声特徴量の相異なる数値毎に記憶する定常音記憶手段とを具備するコンピュータに、定常音記憶手段に記憶された複数の定常音データの補間により、目標値に対応する定常音データを生成する定常音補間処理と、素片データと定常音補間処理で生成した定常音データとを利用して音声信号を生成する音声合成処理とを実行させる。以上のプログラムによれば、本発明の音声合成装置と同様の作用および効果が実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。
【図面の簡単な説明】
【0015】
【図1】本発明の第1実施形態に係る音声合成装置のブロック図である。
【図2】素片データ群および各素片データの模式図である。
【図3】素片データを利用した音声合成の説明図である。
【図4】素片補間部のブロック図である。
【図5】補間比率の時間変化を示す模式図である。
【図6】補間処理部の動作のフローチャートである。
【図7】第2実施形態に係る音声合成装置のブロック図である。
【図8】第2実施形態における定常音データ群および定常音データの模式図である。
【図9】定常音データの補間の説明図である。
【図10】定常音補間部のブロック図である。
【図11】第3実施形態における補間比率の時間変化の説明図である。
【図12】背景技術における素片データの調整の説明図である。
【発明を実施するための形態】
【0016】
<A:第1実施形態>
図1は、本発明の第1実施形態に係る音声合成装置100のブロック図である。音声合成装置100は、発話音や歌唱音等の音声を素片接続型の音声合成処理で生成する信号処理装置であり、図1に示すように、演算処理装置12と記憶装置14と放音装置16とを具備するコンピュータシステムで実現される。
【0017】
演算処理装置12(CPU)は、記憶装置14に格納されたプログラムPGMの実行で、合成音の波形を表す音声信号VOUTを生成するための複数の機能(素片選択部22,素片補間部24,音声合成部26)を実現する。なお、演算処理装置12の各機能を複数の集積回路に分散した構成や、専用の電子回路(DSP)が各機能を実現する構成も採用され得る。放音装置16(例えばヘッドホンやスピーカ)は、演算処理装置12が生成した音声信号VOUTに応じた音波を放射する。
【0018】
記憶装置14は、演算処理装置12が実行するプログラムPGMや演算処理装置12が使用する各種のデータ(素片データ群GA,合成情報GB)を記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置14として採用される。
【0019】
素片データ群GAは、図2に示すように、音声信号VOUTの素材として利用される複数の素片データVの集合(音声合成ライブラリ)である。相異なるピッチP(P1,P2,……)に対応する複数の素片データVが音声素片毎に事前に収録されて記憶装置14に記憶される。音声素片は、音声の言語的な最小単位に相当する1個の音素、または、複数の音素を相互に連結した音素連鎖(例えば2個の音素で構成されるダイフォン)である。なお、以下では便宜的に、無音を無声音の1個の音素(記号Sil)として説明する。
【0020】
図2に示すように、複数の音素(/a/,/s/)で構成される1個の音声素片(ダイフォン)の素片データVは、境界情報BおよびピッチPと、音声素片を時間軸上で区分した各フレームに対応する複数の単位データU(UA,UB)の時系列とを含んで構成される。境界情報Bは、音声素片の区間内の境界点tBを指定する。境界点tBは、音声素片を構成する各音素の境界に合致するように、例えば素片データVの作成者が音声素片の時間波形を確認しながら設定する。ピッチPは、音声素片の全体的なピッチ(例えば素片データVの収録時に発声者が意図したピッチ)である。
【0021】
各単位データUは、1個のフレーム内の音声のスペクトルを規定する。素片データVの複数の単位データUは、音声素片のうち有声音を含む区間内の各フレームに対応する複数の単位データUAと、無声音を含む区間内の各フレームに対応する複数の単位データUBとに区別される。境界点tBは、単位データUAの系列と単位データUBの系列との境界に相当する。例えば図2の例示のように無声音の音素/s/が有声音の音素/a/に後続するダイフォンの素片データVは、境界点tBの前方の区間(有声音の音素/a/)の各フレームに対応する単位データUAと、境界点tBの後方の区間(無声音の音素/s/)の各フレームに対応する単位データUBとを含んで構成される。以下に詳述する通り、単位データUAと単位データUBとは内容が相違する。
【0022】
有声音に対応するフレームの1個の単位データUAは、図2に示すように、形状パラメータRとピッチpFと音量(エネルギー)Eとを含んで構成される。ピッチpFは、1個のフレームにおける音声のピッチ(基本周波数)を意味し、音量Eは、1個のフレームでの音声のエネルギーの平均を意味する。
【0023】
形状パラメータRは、音声のスペクトル(音色)を示す情報であり、音声(調和成分)のスペクトル包絡の形状の特徴を示す複数の変数で構成される。第1実施形態の形状パラメータRは、例えば励起波形エンベロープr1と胸部レゾナンスr2と声道レゾナンスr3と差分スペクトルr4とを含むEpR(Excitation plus Resonance)パラメータであり、公知のSMS(Spectral Modeling Synthesis)分析で生成される。なお、EpRパラメータやSMS分析については、例えば特許第3711880号公報や特開2007−226174号公報にも開示されている。
【0024】
励起波形エンベロープ(Excitation Curve)r1は、声帯振動のスペクトルエンベロープを近似する変数である。胸部レゾナンス(Chest Resonance)r2は、胸部共鳴特性を近似する所定個のレゾナンス(帯域通過フィルタ)の帯域幅と中心周波数と振幅値とを指定する。声道レゾナンス(Vocal Tract Resonance)r3は、声道共鳴特性を近似する複数のレゾナンスの各々について帯域幅と中心周波数と振幅値とを指定する。差分スペクトルr4は、励起波形エンベロープr1と胸部レゾナンスr2と声道レゾナンスr3とで近似されるスペクトルと音声のスペクトルとの差分(誤差)を意味する。
【0025】
無声音に対応するフレームの1個の単位データUBは、図2に示すように、スペクトルデータQと音量Eとを含んで構成される。音量Eは、単位データUA内の音量Eと同様に、1個のフレーム内での音声のエネルギーを意味する。スペクトルデータQは、音声(非調和成分)のスペクトルを示すデータであり、具体的には、周波数軸上の複数の周波数の各々における強度(パワー,振幅値)の系列で構成される。すなわち、単位データUA内の形状パラメータRが音声(調和成分)のスペクトルを間接的に表現するのに対して、単位データUB内のスペクトルデータQは音声(非調和成分)のスペクトルを直接的に表現する。
【0026】
記憶装置14に記憶された合成情報(スコアデータ)GBは、合成音の発音文字X1と発音期間X2とピッチの目標値(以下「目標ピッチ」という)Ptとを時系列に指定する。発音文字X1は、例えば歌唱音を合成する場合の歌詞の文字列であり、発音期間X2は、例えば発音開始時刻と継続長とで指定される。合成情報GBは、例えば各種の入力機器に対する利用者による操作に応じて生成されて記憶装置14に格納される。なお、他の通信端末から通信網を介して受信された合成情報GBや可搬型の記録媒体から転送された合成情報GBを音声信号VOUTの生成に使用することも可能である。
【0027】
図1の素片選択部22は、合成情報GBの発音文字X1に対応する各音声素片の素片データVを記憶装置14の素片データ群GAから順次に選択する。1個の音声素片についてピッチP毎に用意された複数の素片データVのうち目標ピッチPtに対応する素片データVが選択される。具体的には、目標ピッチPtに合致するピッチPの素片データVが発音文字X1の音声素片について記憶装置14に格納されている場合、素片選択部22は、その1個の素片データVを素片データ群GAから選択する。他方、目標ピッチPtに合致するピッチPの素片データVが発音文字X1の音声素片について記憶装置14に格納されていない場合、素片選択部22は、ピッチPが目標ピッチPtに近い複数の素片データVを素片データ群GAから選択する。具体的には、素片選択部22は、ピッチPが目標ピッチPtを挟む関係にある2個の素片データV(V1,V2)を選択する。すなわち、目標ピッチPtに最も近いピッチPの素片データV1と、目標ピッチPtを挟んで素片データV1のピッチPとは反対側の範囲内で目標ピッチPtに最も近いピッチPの素片データV2とが選択される。
【0028】
図1の素片補間部24は、目標ピッチPtに合致するピッチPの素片データVが存在しない場合に素片選択部22が選択する2個の素片データV(V1,V2)を補間することで、目標ピッチPtに対応する1個の素片データVを生成する。素片補間部24の具体的な作用については後述する。
【0029】
音声合成部26は、素片選択部22が選択した目標ピッチPtの素片データVと素片補間部24が生成した素片データVとを利用して音声信号VOUTを生成する。具体的には、音声合成部26は、図3に示すように、合成情報GBが指定する発音期間X2(発音開始時刻)に応じて各素片データVの時間軸上の位置を決定し、素片データVの各単位データUが示すスペクトルを時間波形に変換する。具体的には、単位データUAについては形状パラメータRから特定されるスペクトルが時間波形に変換され、単位データUBについてはスペクトルデータQが直接的に示すスペクトルが時間波形に変換される。そして、音声合成部26は、素片データVから生成した時間波形を前後のフレーム間で相互に連結して音声信号VOUTを生成する。図3に示すように、1個の音素(典型的には有声音)が定常的に継続される区間(以下では「定常発音区間」という)Hについては、その定常発音区間の直前の素片データVのうち最後のフレームの単位データUが反復される。
【0030】
図4は、素片補間部24のブロック図である。図4に示すように、第1実施形態の素片補間部24は、補間比率設定部32と素片伸縮部34と補間処理部36とを含んで構成される。補間比率設定部32は、素片データV1と素片データV2との補間に適用される補間比率α(0≦α≦1)を、合成情報GBが時系列に指定する目標ピッチPtに応じてフレーム毎に順次に設定する。具体的には、補間比率設定部32は、図5に示すように目標ピッチPtに連動して0以上1以下の範囲内で変動するように補間比率αをフレーム毎に設定する。例えば目標ピッチPtが素片データV1のピッチPに近付くほど補間比率αは1に近い数値に設定される。
【0031】
素片データ群GAを構成する複数の素片データVの各々の時間長は相違し得る。素片伸縮部34は、素片データV1と素片データV2とで音声素片が相等しい時間長(フレーム数)となるように、素片選択部22が選択した各素片データVを伸縮する。具体的には、素片伸縮部34は、素片データV2を、素片データV1と同等のフレーム数Mに伸縮する。例えば、素片データV2が素片データV1と比較して長い場合、素片データV2の複数の単位データUを所定個毎に間引くことで素片データV2を素片データV1と同等のフレーム数Mに調整する。他方、素片データV2が素片データV1と比較して短い場合、素片データV2の複数の単位データUを所定個毎に反復することで素片データV2を素片データV1と同等のフレーム数Mに調整する。
【0032】
図4の補間処理部36は、素片伸縮部34による処理後の素片データV1と素片データV2とを、補間比率設定部32が設定した補間比率αに応じて補間することで、目標ピッチPtの素片データVを生成する。図6は、補間処理部36の動作のフローチャートである。素片データV1と素片データV2との組毎に図6の処理が実行される。
【0033】
補間処理部36は、素片データV(V1,V2)のM個のフレームから1個のフレーム(以下では「選択フレーム」と表記する)を選択する(SA1)。M個のフレームの各々がステップSA1の処理毎に1個ずつ順番に選択され、目標ピッチPtの単位データU(以下では「補間単位データUi」と表記する)を補間により生成する処理(SA2〜SA6)が選択フレーム毎に実行される。選択フレームを指定すると、補間処理部36は、素片データV1および素片データV2の双方の選択フレームが有声音のフレーム(以下「有声フレーム」という)に該当するか否かを判定する(SA2)。
【0034】
素片データVの境界情報Bで指定される境界点tBが音声素片内の実際の音素の境界に正確に合致する場合(すなわち、有声音/無声音の区別と単位データUA/単位データUBの区別とが正確に対応する場合)、単位データUAが用意されたフレームを有声フレームと判定するとともに単位データUBが用意されたフレームを無声音のフレーム(以下「無声フレーム」という)と判定することが可能である。しかし、単位データUAと単位データUBとの境界点tBは、素片データVの作成者により手動で指定されるから、音声素片内の実際の有声音/無声音の境界とは実際には相違する可能性がある。したがって、実際には無声音に該当するフレームについても有声音用の単位データUAが用意される可能性や、実際には有声音に該当するフレームについても無声音用の単位データUBが用意される可能性がある。そこで、図6のステップSA2において、補間処理部36は、単位データUBが用意されたフレームを無声フレームと判定するほか、単位データUAが用意されたフレームであっても、単位データUAのピッチpFが有意な数値ではないフレーム(すなわち無声音であるために適切な数値のピッチPが検出されなかったフレーム)についても無声フレームと判定する。すなわち、単位データUAが用意されたフレームのうちピッチpFが有意な数値であるフレームが有声フレームと判定され、例えばピッチpFがゼロ(ピッチの非検出を示す数値)であるフレームは無声フレームと判定される。
【0035】
素片データV1および素片データV2の双方の選択フレームが有声フレームに該当する場合(SA2:YES)、補間処理部36は、素片データV1のうち選択フレームの単位データUAが示すスペクトルと素片データV2のうち選択フレームの単位データUAが示すスペクトルとを補間比率αに応じて補間(加重加算)することで補間単位データUiを生成する(SA3)。例えば補間処理部36は、素片データV1のうち選択フレームの形状パラメータRの各変数x1(r1〜r4)と、素片データV2のうち選択フレームの形状パラメータRの各変数x2(r1〜r4)とについて以下の数式(1)の補間演算を実行することで、補間単位データUiにおける形状パラメータRの各変数xiを算定する。
xi=α・x1+(1−α)・x2 ……(1)
すなわち、素片データV1および素片データV2の双方の選択フレームが有声フレームである場合には音声のスペクトル(すなわち音色)同士が補間され、単位データUAと同様に形状パラメータRを含む補間単位データUiが生成される。なお、形状パラメータR(r1〜r4)の一部のみを補間するとともに他の変数については素片データV1および素片データV2の一方の数値を採択することで補間単位データUiを生成することも可能である。例えば、形状パラメータRのうち励起波形エンベロープr1と胸部レゾナンスr2と声道レゾナンスr3との各々については素片データV1と素片データV2との間で補間し、差分スペクトルr4については素片データV1および素片データV2の一方の数値を採択する構成が好適である。
【0036】
他方、無声音のスペクトルは強度が不規則に分布するから、素片データV1および素片データV2の片方または双方の選択フレームが無声フレームである場合には、ステップSA3のようなスペクトル同士の補間は適用できない。そこで、第1実施形態では、素片データV1および素片データV2の片方または双方の選択フレームが無声フレームである場合には、選択フレームについてスペクトルの補間は実行せずに音量Eのみを補間する(SA4,SA5)。
【0037】
例えば、素片データV1および素片データV2の片方または双方の選択フレームが無声フレームである場合(SA2:NO)、補間処理部36は、第1に、素片データV1のうち選択フレームの単位データUが示す音量E1と素片データV2のうち選択フレームの単位データUが示す音量E2とを補間比率αに応じて補間することで補間音量Eiを算定する(SA4)。補間音量Eiは、例えば以下の数式(2)で算定される。
Ei=α・E1+(1−α)・E2) ……(2)
【0038】
第2に、補間処理部36は、素片データV1の選択フレームの単位データUが示すスペクトルを補間音量Eiに応じて補正し、補正後のスペクトルのスペクトルデータQを含む補間単位データUiを生成する(SA5)。具体的には、音量が補間音量Eiとなるように単位データUのスペクトルが補正される。素片データV1の選択フレームの単位データUが形状パラメータRを含む単位データUAである場合には、形状パラメータRから特定されるスペクトルが補間音量Eiに応じた補正対象とされ、素片データV1の選択フレームの単位データUがスペクトルデータQを含む単位データUBである場合には、スペクトルデータQが直接的に表現するスペクトルが補間音量Eiに応じた補正対象とされる。すなわち、素片データV1および素片データV2の片方または双方の選択フレームが無声フレームである場合には、音量Eのみが補間され、単位データUBと同様にスペクトルデータQを含む補間単位データUiが生成される。
【0039】
選択フレームの補間単位データUiを生成すると、補間処理部36は、全部(M個)のフレームについて補間単位データUiを生成したか否かを判定する(SA6)。未処理のフレームが残存する場合(SA6:NO)、補間処理部36は、現段階の選択フレームの直後のフレームを新たな選択フレームとして選択したうえで(SA1)、ステップSA2からステップSA6までの処理を実行する。全部のフレームについて処理が完了した場合(SA6:YES)、補間処理部36は図6の処理を終了する。各フレームについて生成されたM個の補間単位データUiの時系列を含む素片データVが音声合成部26による音声信号VOUTの生成に適用される。
【0040】
以上に説明した通り、第1実施形態では、ピッチPが相違する複数の素片データVの補間(合成)で目標ピッチPtの素片データVが生成されるから、1個の素片データの調整で目標ピッチの素片データを生成する構成と比較して自然な音色の合成音を生成できるという利点がある。例えば図12の例示のようにピッチE3およびピッチG3について素片データVが用意された場合を想定すると、両者間に位置するピッチF3およびピッチF#3の双方の素片データVが、ピッチE3の素片データVとピッチG3の素片データVとの補間(ただし補間比率αは相違する)により生成される。したがって、ピッチF3の合成音とピッチF#3の合成音とで音色が近似した自然な合成音を生成することが可能である。
【0041】
また、素片データV1と素片データV2との間で時間的に対応するフレームの双方が有声音に該当する場合には形状パラメータRの補間により補間単位データUiが生成され、素片データV1と素片データV2との間で時間的に対応するフレームの片方または双方が無声音に該当する場合には音量Eの補間により補間単位データUiが生成される。以上のように有声フレームと無声フレームとで補間の方法を相違させることで、以下に詳述するように、有声音および無声音の双方について聴感的に自然な素片データVを補間により生成できるという利点もある。
【0042】
例えば、素片データV1と素片データV2の双方の選択フレームが有声音である場合にも、選択フレームが無声音である前述の場合と同様に、素片データV1と素片データV2との間の補間音量Eiに応じて素片データV1のスペクトルを補正する構成(対比例1)では、補間後の素片データVが、素片データV1の音色に類似する一方で素片データV2の音色からは乖離して合成音が聴感的に不自然となる可能性がある。第1実施形態では、素片データV1と素片データV2の双方の選択フレームが有声音である場合に、素片データV1と素片データV2との間の形状パラメータRの補間により素片データVが生成されるから、対比例1と比較して自然な合成音を生成できるという利点がある。
【0043】
また、素片データV1と素片データV2の片方または双方の選択フレームが無声音である場合にも、選択フレームが有声音である場合と同様に、素片データV1のスペクトルと素片データV2のスペクトルとを補間する構成(対比例2)では、補間後の素片データVのスペクトルが素片データV1および素片データV2の何れからも乖離する可能性がある。第1実施形態では、素片データV1と素片データV2の片方または双方の選択フレームが無声音である場合に、素片データV1と素片データV2との補間音量Eiに応じて素片データV1のスペクトルが補正されるから、素片データV1を適切に反映した自然な合成音を生成できるという利点がある。
【0044】
<B:第2実施形態>
本発明の第2実施形態を以下に説明する。第1実施形態では、定常的に継続する音声(以下「継続音」という)が合成される定常発音区間Hについて、その定常発音区間Hの直前の素片データVの最後の単位データUを配列した。第2実施形態では、定常発音区間H内の複数の単位データUの時系列に、継続音の変動成分(例えばビブラート成分)が付加される。なお、以下に例示する各態様において作用や機能が第1実施形態と同等である要素については、以上の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
【0045】
図7は、第2実施形態の音声合成装置100のブロック図である。図7に示すように、第2実施形態の記憶装置14は、プログラムPGMと素片データ群GAと合成情報GBとに加えて定常音データ群GCを記憶する。
【0046】
定常音データ群GCは、図8に示すように、継続音の変動成分を示す複数の定常音データSの集合である。変動成分は、音響特性が定常的に維持される音声(継続音)のうち時間的に微細に変動する成分に相当する。図8に示すように、相異なるピッチP(P1,P2,……)に対応する複数の定常音データSが有声音の音声素片毎(音素毎)に事前に収録されて記憶装置14に記憶される。1個の定常音データSは、変動成分の全体的(平均的)なピッチPと、継続音の変動成分を時間軸上で区分した各フレームに対応する複数の形状パラメータRの時系列とを含んで構成される。形状パラメータRは、継続音の変動成分のスペクトル形状の特徴を示す複数の変数(r1〜r4)で構成される。
【0047】
図7に示すように、演算処理装置12は、第1実施形態と同様の要素(素片選択部22,素片補間部24,音声合成部26)に加えて定常音選択部42および定常音補間部44としても機能する。定常音選択部42は、定常発音区間H毎に定常音データSを順次に選択する。具体的には、合成情報GBの目標ピッチPtに合致するピッチPの定常音データSが発音文字X1の音声素片について記憶装置14に格納されている場合、定常音選択部42は、その1個の定常音データSを定常音データ群GCから選択する。他方、目標ピッチPtに合致するピッチPの定常音データSが発音文字X1の音声素片について記憶装置14に格納されていない場合、定常音選択部42は、素片選択部22と同様に、ピッチPが目標ピッチPtを挟む関係にある2個の定常音データS(S1,S2)を選択する。具体的には、目標ピッチPtに最も近いピッチPの定常音データS1と、目標ピッチPtを挟んで定常音データS1のピッチPとは反対側の範囲内で目標ピッチPtに最も近いピッチPの定常音データS2とが選択される。
【0048】
定常音補間部44は、図9に示すように、目標ピッチPtに合致するピッチPの定常音データSが存在しない場合に定常音選択部42が選択する2個の定常音データS(S1,S2)を補間することで、目標ピッチPtに対応する1個の定常音データSを生成する。定常音補間部44が補間により生成する定常音データSは、発音期間X2に応じた定常発音区間H内の各フレームに対応する複数の形状パラメータRで構成される。
【0049】
音声合成部26は、図9に示すように、定常音選択部42が選択した目標ピッチPtの定常音データSまたは定常音補間部44が生成した定常音データSを、定常発音区間H内の複数の単位データUの時系列に対して合成することで音声信号VOUTを生成する。具体的には、音声合成部26は、定常発音区間H内の各単位データUが示すスペクトルの時間波形と、定常音データSの各形状パラメータRが示すスペクトルの時間波形とを相対応するフレーム同士で加算し、前後のフレーム間で連結して音声信号VOUTを生成する。
【0050】
図10は、定常音補間部44のブロック図である。図10に示すように、定常音補間部44は、補間比率設定部52と定常音伸縮部54と補間処理部56とを含んで構成される。補間比率設定部52は、第1実施形態の補間比率設定部32と同様に、目標ピッチPtに応じた補間比率αをフレーム毎に順次に設定する。なお、図10では便宜的に補間比率設定部32と補間比率設定部52とを別個の要素として図示したが、素片補間部24と定常音補間部44とで補間比率設定部32を共用することも可能である。
【0051】
図10の定常音伸縮部54は、定常音選択部42が選択した定常音データS(S1,S2)の伸縮で中間データs(s1,s2)を生成する。図9に示すように、定常音伸縮部54は、定常音データS1の複数の形状パラメータRの時系列からN個の単位区間σ1[1]〜σ1[N]を抽出および連結することで、定常発音区間Hの時間長に相当する個数の形状パラメータRを配列した中間データs1を生成する。N個の単位区間σ1[1]〜σ1[N]は、時間軸上で相互に重複し得るように定常音データS1から抽出され、各々の時間長(フレーム数)はランダムに設定される。
【0052】
また、定常音伸縮部54は、図9に示すように、定常音データS2の複数の形状パラメータRの時系列からN個の単位区間σ2[1]〜σ2[N]を抽出および連結することで中間データs2を生成する。第n番目(n=1〜N)の単位区間σ2[n]の時間長(フレーム数)は、中間データs1の第n番目の単位区間σ1[n]と同等の時間長に設定される。したがって、中間データs2は、中間データs1と同様に、定常発音区間Hの時間長に相当する個数の形状パラメータRで構成される。
【0053】
図10の補間処理部56は、中間データs1と中間データs2との補間により目標ピッチPtの定常音データSを生成する。具体的には、補間処理部56は、中間データs1と中間データs2との間で相対応するフレームの形状パラメータRを、補間比率設定部52が設定した補間比率αに応じて補間することで補間形状パラメータRiを生成し、複数の補間形状パラメータRiを時系列に配列することで目標ピッチPtの定常音データSを生成する。形状パラメータRの補間には前述の数式(1)が適用される。補間処理部56が生成した定常音データSから特定される継続音の変動成分の時間波形が、定常発音区間H内の各単位データUから特定される音声の時間波形に合成されることで音声信号VOUTが生成される。
【0054】
第2実施形態においても第1実施形態と同様の効果が実現される。また、第2実施形態では、既存の定常音データSから目標ピッチPtの定常音データSが生成されるから、目標ピッチPtの全数値について定常音データSを用意する構成と比較して定常音データ群GCのデータ量(記憶装置14の容量)を削減することが可能である。また、複数の定常音データSの補間で目標ピッチPtの定常音データSが生成されるから、第1実施形態における素片データVの補間と同様に、1個の定常音データSから目標ピッチPtの定常音データSを生成する構成と比較して自然な合成音を生成できるという利点もある。
【0055】
なお、定常発音区間Hの時間長に相当する中間データs1を定常音データS1から生成する方法としては、定常音データS1を定常発音区間Hの時間長に伸縮(形状パラメータRの間引や反復)して中間データs1を生成する方法も採用され得る。ただし、定常音データS1を時間軸上で伸縮した場合には、変動成分の周期が伸縮の前後で変化するから、定常発音区間H内の合成音が聴感的に不自然な印象となる可能性がある。定常音データS1から抽出した単位区間σ1[n]の配列で中間データs1を生成する前述の構成では、単位区間σ1[n]内の形状パラメータRの配列自体は定常音データS1と同等であるから、変動成分の周期が維持された自然な合成音を生成できるという利点がある。中間データs2の生成についても同様である。
【0056】
<C:第3実施形態>
素片データV1と素片データV2とを補間する構成では、素片データV1と素片データV2とが示す音声の音量(エネルギー)が過度に相違する場合に、素片データV1および素片データV2の何れからも乖離した音響特性の素片データVが生成され、結果的に合成音が不自然な音響となる可能性がある。以上の事情を考慮して、第3実施形態では、素片データV1と素片データV2との間で音量の相違が大きい場合に、素片データV1および素片データV2の何れかが優先的に補間に反映されるように補間比率αを制御する。
【0057】
図11は、補間比率設定部32が設定する補間比率αの時間変化のグラフである。図11では、素片データV1および素片データV2の各々が示す音声素片の波形図が補間比率αの時間変化と共通の時間軸のもとで併記されている。素片データV2が示す音声素片は音量が略一定に維持されるが、素片データV1が示す音声素片は、音量がゼロに低下する区間を含む。
【0058】
図11に示すように、第3実施形態の補間比率設定部32は、素片データV1および素片データV2の相対応するフレーム間で音量差(エネルギーの相違)が大きい場合に、補間比率αを最大値1または最小値0の一方に近付けるように動作する。例えば、補間比率設定部32は、素片データV1の単位データUで指定される音量E1と素片データV2の単位データUで指定される音量E2との音量差ΔE(例えばΔE=E1−E2)をフレーム毎に算定し、音量差ΔEが所定の閾値を上回るか否かを判定する。そして、補間比率設定部32は、音量差ΔEが閾値を上回るフレームが所定長の期間にわたって連続した場合に、目標ピッチPtとは無関係に、その期間内において補間比率αを経時的に最大値1まで変化させる。したがって、補間処理部36による補間には素片データV1が優先的に適用される(すなわち素片データVの補間が停止される)。また、補間比率設定部32は、音量差ΔEが閾値を下回るフレームが所定の期間にわたって連続した場合に、その期間内で、補間比率αを最大値1から目標ピッチPtに応じた数値まで変化させる。
【0059】
第3実施形態においても第1実施形態と同様の効果が実現される。第3実施形態では、素片データV1と素片データV2との間で音量が過度に相違する場合に、素片データV1および素片データV2の一方が優先的に補間に適用されるように補間比率αが制御される。したがって、補間後の素片データVの音声が素片データV1および素片データV2の何れからも乖離して合成音が不自然となる可能性を低減することが可能である。
【0060】
<D:変形例>
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様を適宜に併合することも可能である。
【0061】
(1)前述の各形態ではピッチPの数値毎に素片データVを用意したが、他の音声特徴量の数値毎に素片データVを用意することも可能である。音声特徴量とは、音声の音響的な特性を示す各種の指標値を包括する概念である。例えば前述の例示におけるピッチPのほか、音声の音量(ダイナミクス)や音声の表情に関する変数が音声特徴量として例示される。音声の表情に関する変数は、例えば、音声の明瞭度や気息性の度合や発声時の口の開き具合等である。以上の例示から理解されるように、素片補間部24は、音声特徴量の相異なる数値に対応する複数の素片データVを補間することで音声特徴量の目標値(例えば目標ピッチPt)に応じた素片データVを生成する要素として包括される。第2実施形態の定常音補間部44についても同様であり、音声特徴量の相異なる数値に対応する複数の定常音データSを補間することで音声特徴量の目標値に応じた定常音データSを生成する要素として包括される。
【0062】
(2)前述の各形態では、単位データUAのピッチpFに応じて選択フレームの有声/無声を判定したが、選択フレームの有声/無声を判定する方法は適宜に変更される。例えば単位データUAと単位データUBとの境界と有声/無声の境界とが高精度に合致する場合や両者の相違が問題とならない場合には、形状パラメータRの有無(単位データUA/単位データUB)に応じて選択フレームの有声/無声を判定することも可能である。すなわち、素片データVのうち形状パラメータRを含む単位データUAに対応する各フレームを有声フレームと判定するとともに形状パラメータRを含まない単位データUBに対応する各フレームを無声フレームと判定することも可能である。
【0063】
また、前述の各形態では、単位データUAが形状パラメータRとピッチpFと音量Eとを含み、単位データUBがスペクトルデータQと音量Eとを含む構成を例示したが、全部の単位データUが形状パラメータRとピッチpFとスペクトルデータQと音量Eとを含む構成も採用され得る。形状パラメータRやピッチpFを適切に検出できない無声フレームについては形状パラメータRやピッチpFが異常値(例えばエラーを示す特定の数値やゼロ)に設定される。以上の構成では、形状パラメータRやピッチpFが有意な数値であるか否かに応じて選択フレームの有声/無声を判定することが可能である。
【0064】
(3)形状パラメータRの補間で補間単位データUiを生成する動作と音量Eの補間で補間単位データUiを生成する動作との実行の条件は前述の例示に限定されない。例えば、特定の種別の音素(例えば有声子音)の各フレームについては、当該フレームが有声音に該当する場合でも音量Eの補間で補間単位データUiを生成する構成が採用される。例えば、事前に用意された参照テーブルに登録された音素の各フレームについては、有声音/無声音に関わらず音量Eの補間で補間単位データUiを生成することも可能である。また、無声子音の音声素片の各フレームは基本的には無声音に該当するが有声音のフレームも混在し得る。したがって、無声子音の音声素片の各フレームについては、当該フレームが有声音に該当する場合でも音量Eの補間で補間単位データUiを生成する構成が好適である。
【0065】
(4)素片データVや定常音データSのデータ構造は任意である。例えば、前述の各形態では、フレーム毎の音量Eを単位データUに含ませたが、単位データUには音量Eを含ませず、単位データU(形状パラメータR,スペクトルデータQ)が示すスペクトルやその時間波形から音量Eを算定することも可能である。また、前述の各形態では、音声信号VOUTの生成時に形状パラメータRやスペクトルデータQから時間波形を生成したが、フレーム毎の時間波形データを形状パラメータRやスペクトルデータQとは別に素片データVに含ませ、音声信号VOUTの生成時に時間波形データを使用することも可能である。素片データVに時間波形データを含ませた構成では、形状パラメータRやスペクトルデータQが示すスペクトルを時間波形に変換する処理が不要となる。また、前述の各形態における形状パラメータRの代わりにLSF(Line Spectral Frequencies)等の他のスペクトル表現方法を利用してスペクトルの形状を表現することも可能である。
【0066】
(5)第3実施形態では、素片データV1と素片データV2との間で音量が過度に相違する場合に素片データV1および素片データV2の一方を優先させたが、素片データV1および素片データV2の一方を優先させる(すなわち補間を停止する)のは両者間の音量差が大きい場合に限定されない。例えば、素片データV1および素片データV2の各々が示す音声のスペクトル包絡の形状(フォルマント構造)が過度に相違する場合に素片データV1および素片データV2の一方を優先させる構成が採用される。具体的には、素片データV1および素片データV2の一方の音声に明確なフォルマント構造が存在するのに対して他方の音声には明確なフォルマント構造が存在しない(例えば無音に近い)場合のように、補間後の音声のフォルマント構造が補間前の各素片データVから大きく乖離するほど素片データV1と素片データV2とでスペクトル包絡の形状が相違する場合に、素片補間部24は、素片データV1および素片データV2の一方を優先させる(すなわち補間を停止する)。また、素片データV1および素片データV2の各々が示す音声波形が過度に相違する場合に素片データV1および素片データV2の一方を優先させることも可能である。以上の例示から理解されるように、第3実施形態の構成は、素片データV1と素片データV2との間で相対応するフレームにて音声の特性の相違が大きい場合(例えば相違の度合を示す指標値が閾値を上回る場合)に補間比率αを最大値または最小値に近付ける(すなわち補間を停止する)構成として包括され、以上に説明した音量やスペクトル包絡形状や音声波形は、判定に適用される音声特性の例示である。
【0067】
(6)前述の各形態では、単位データUの間引または反復により素片伸縮部34が素片データV2を素片データV1と共通のフレーム数Mに調整したが、素片データV2の調整の方法は任意である。例えば、DP(Dynamic Programming)マッチング等の技術を利用して、素片データV2を素片データV1に対応させることも可能である。定常音データSについても同様である。また、素片データV2内で相前後する各単位データUを時間軸上で補間する(例えば素片データV2内の第2番目のフレームと第3番目のフレームとの間で単位データUを補間する)ことにより素片データV2を伸縮し、伸縮後の素片データV2と素片データV1との間でフレーム毎に単位データUを補間する構成も採用され得る。なお、例えば記憶装置14に記憶された各素片データVの時間長が相等しい場合には、各素片データVを伸縮する構成(素片伸縮部34)は省略され得る。
【0068】
また、第2実施形態では、定常音データS1の形状パラメータRの時系列から単位区間σ1[n]を抽出したが、形状パラメータRの時系列を定常発音区間Hの時間長に伸縮することで中間データs1を生成することも可能である。定常音データS2についても同様であり、例えば定常音データS2の時間長が定常音データS1と比較して短い場合には、定常音データS2を時間軸上で伸長することで中間データs2が生成され得る。
【0069】
(7)前述の各形態では、素片データV1と素片データV2との補間に適用される補間比率αを0以上かつ1以下の範囲で変化させたが、素片データV1と素片データV2との補間比率の数値範囲は任意である。例えば、素片データV1および素片データV2の一方の補間比率を1.5に設定するとともに他方の補間比率を−0.5に設定して両者を合成する処理(外挿)も本発明の補間の概念に包含される。
【0070】
(8)前述の各形態では、素片データ群GAを記憶する記憶装置14が音声合成装置100に搭載された構成を例示したが、音声合成装置100とは独立した外部装置(例えばサーバ装置)が素片データ群GAを保持する構成も採用される。音声合成装置100(素片選択部22)は、例えば通信網を介して外部装置から素片データVを取得して音声信号VOUTを生成する。同様に、音声合成装置100から独立した外部装置に合成情報GBを保持することも可能である。以上の説明から理解されるように、素片データVや合成情報GBを記憶する要素(前述の各形態における記憶装置14)は音声合成装置100の必須の要素ではない。
【符号の説明】
【0071】
100……音声合成装置、12……演算処理装置、14……記憶装置、16……放音装置、22……素片選択部、24……素片補間部、26……音声合成部、32……補間比率設定部、34……素片伸縮部、36……補間処理部、42……定常音選択部、44……定常音補間部、52……補間比率設定部、54……定常音伸縮部、56……補間処理部。
【特許請求の範囲】
【請求項1】
音声特徴量が相違する音声素片のフレーム毎のスペクトルを示す複数の素片データの補間により、前記音声特徴量の目標値に対応する素片データを生成する素片補間手段と、
前記素片補間手段が生成した素片データを利用して音声信号を生成する音声合成手段と
を具備し、
前記素片補間手段は、前記補間に適用する第1素片データおよび第2素片データの双方が有声音を示すフレームについては、前記第1素片データおよび前記第2素片データの各々が当該フレームについて示すスペクトルを前記目標値に応じた補間比率で補間することで前記目標値の素片データを生成し、前記第1素片データおよび前記第2素片データの少なくとも一方が無声音を示すフレームについては、前記第1素片データおよび前記第2素片データの各々が当該フレームについて示す音声の音量を前記目標値に応じた補間比率で補間し、前記第1素片データが示すスペクトルを当該補間後の音量に応じて補正することで前記目標値の素片データを生成する
音声合成装置。
【請求項2】
前記素片データは、前記音声素片のうち有声音を含む区間内の各フレームについては音声のスペクトルの形状の特徴を示す形状パラメータを含み、無声音を含む区間内の各フレームについては音声のスペクトルを示すスペクトルデータを含み、
前記素片補間手段は、前記第1素片データおよび前記第2素片データの双方が有声音を示すフレームについては、前記第1素片データおよび前記第2素片データの各々における当該フレームの形状パラメータを前記目標値に応じた補間比率で補間することで前記目標値の素片データを生成し、前記第1素片データおよび前記第2素片データの少なくとも一方が無声音を示すフレームについては、前記第1素片データのスペクトルデータが示すスペクトルを前記補間後の音量に応じて補正することで前記目標値の素片データを生成する
請求項1の音声合成装置。
【請求項3】
継続音の変動成分を示す定常音データを音声特徴量の相異なる数値毎に記憶する定常音記憶手段と、
前記定常音記憶手段に記憶された複数の定常音データの補間により、前記目標値に対応する定常音データを生成する定常音補間手段とを具備し、
前記音声合成手段は、前記素片補間手段が生成した素片データと前記定常音補間手段が生成した定常音データとを利用して音声信号を生成する
請求項1または請求項2の音声合成装置。
【請求項4】
前記定常音補間手段は、第1定常音データから抽出した複数の第1単位区間を配列した第1中間データと、前記各第1単位区間と同等の時間長となるように前記第2定常音データから抽出した第2単位区間を配列した第2中間データとを補間する
請求項3の音声合成装置。
【請求項5】
前記素片補間手段は、前記第1素片データと前記第2素片データとの間で相対応するフレームにて音声特性の相違が大きい場合に、前記第1素片データおよび前記第2素片データの一方が補間後の素片データに優先的に反映されるように、前記第1素片データと前記第2素片データとを補間する
請求項1から請求項4の何れかの音声合成装置。
【請求項6】
音声特徴量が相違する音声素片のフレーム毎のスペクトルを示す複数の素片データの補間により、前記音声特徴量の目標値に対応する素片データを生成する手段であって、前記補間に適用する第1素片データおよび第2素片データの双方が有声音を示すフレームについて、前記第1素片データおよび前記第2素片データの各々が当該フレームについて示すスペクトルを前記目標値に応じた補間比率で補間することで前記目標値の素片データを生成する素片補間手段と、
前記素片補間手段が生成した素片データを利用して音声信号を生成する音声合成手段と
を具備する音声合成装置。
【請求項7】
音声特徴量が相違する音声素片のフレーム毎のスペクトルを示す複数の素片データの補間により、前記音声特徴量の目標値に対応する素片データを生成する手段であって、前記第1素片データおよび前記第2素片データの少なくとも一方が無声音を示すフレームについて、前記第1素片データおよび前記第2素片データの各々が当該フレームについて示す音声の音量を前記目標値に応じた補間比率で補間し、前記第1素片データが示すスペクトルを当該補間後の音量に応じて補正することで前記目標値の素片データを生成する素片補間手段と、
前記素片補間手段が生成した素片データを利用して音声信号を生成する音声合成手段と
を具備する音声合成装置。
【請求項1】
音声特徴量が相違する音声素片のフレーム毎のスペクトルを示す複数の素片データの補間により、前記音声特徴量の目標値に対応する素片データを生成する素片補間手段と、
前記素片補間手段が生成した素片データを利用して音声信号を生成する音声合成手段と
を具備し、
前記素片補間手段は、前記補間に適用する第1素片データおよび第2素片データの双方が有声音を示すフレームについては、前記第1素片データおよび前記第2素片データの各々が当該フレームについて示すスペクトルを前記目標値に応じた補間比率で補間することで前記目標値の素片データを生成し、前記第1素片データおよび前記第2素片データの少なくとも一方が無声音を示すフレームについては、前記第1素片データおよび前記第2素片データの各々が当該フレームについて示す音声の音量を前記目標値に応じた補間比率で補間し、前記第1素片データが示すスペクトルを当該補間後の音量に応じて補正することで前記目標値の素片データを生成する
音声合成装置。
【請求項2】
前記素片データは、前記音声素片のうち有声音を含む区間内の各フレームについては音声のスペクトルの形状の特徴を示す形状パラメータを含み、無声音を含む区間内の各フレームについては音声のスペクトルを示すスペクトルデータを含み、
前記素片補間手段は、前記第1素片データおよび前記第2素片データの双方が有声音を示すフレームについては、前記第1素片データおよび前記第2素片データの各々における当該フレームの形状パラメータを前記目標値に応じた補間比率で補間することで前記目標値の素片データを生成し、前記第1素片データおよび前記第2素片データの少なくとも一方が無声音を示すフレームについては、前記第1素片データのスペクトルデータが示すスペクトルを前記補間後の音量に応じて補正することで前記目標値の素片データを生成する
請求項1の音声合成装置。
【請求項3】
継続音の変動成分を示す定常音データを音声特徴量の相異なる数値毎に記憶する定常音記憶手段と、
前記定常音記憶手段に記憶された複数の定常音データの補間により、前記目標値に対応する定常音データを生成する定常音補間手段とを具備し、
前記音声合成手段は、前記素片補間手段が生成した素片データと前記定常音補間手段が生成した定常音データとを利用して音声信号を生成する
請求項1または請求項2の音声合成装置。
【請求項4】
前記定常音補間手段は、第1定常音データから抽出した複数の第1単位区間を配列した第1中間データと、前記各第1単位区間と同等の時間長となるように前記第2定常音データから抽出した第2単位区間を配列した第2中間データとを補間する
請求項3の音声合成装置。
【請求項5】
前記素片補間手段は、前記第1素片データと前記第2素片データとの間で相対応するフレームにて音声特性の相違が大きい場合に、前記第1素片データおよび前記第2素片データの一方が補間後の素片データに優先的に反映されるように、前記第1素片データと前記第2素片データとを補間する
請求項1から請求項4の何れかの音声合成装置。
【請求項6】
音声特徴量が相違する音声素片のフレーム毎のスペクトルを示す複数の素片データの補間により、前記音声特徴量の目標値に対応する素片データを生成する手段であって、前記補間に適用する第1素片データおよび第2素片データの双方が有声音を示すフレームについて、前記第1素片データおよび前記第2素片データの各々が当該フレームについて示すスペクトルを前記目標値に応じた補間比率で補間することで前記目標値の素片データを生成する素片補間手段と、
前記素片補間手段が生成した素片データを利用して音声信号を生成する音声合成手段と
を具備する音声合成装置。
【請求項7】
音声特徴量が相違する音声素片のフレーム毎のスペクトルを示す複数の素片データの補間により、前記音声特徴量の目標値に対応する素片データを生成する手段であって、前記第1素片データおよび前記第2素片データの少なくとも一方が無声音を示すフレームについて、前記第1素片データおよび前記第2素片データの各々が当該フレームについて示す音声の音量を前記目標値に応じた補間比率で補間し、前記第1素片データが示すスペクトルを当該補間後の音量に応じて補正することで前記目標値の素片データを生成する素片補間手段と、
前記素片補間手段が生成した素片データを利用して音声信号を生成する音声合成手段と
を具備する音声合成装置。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【公開番号】特開2013−11863(P2013−11863A)
【公開日】平成25年1月17日(2013.1.17)
【国際特許分類】
【出願番号】特願2012−110359(P2012−110359)
【出願日】平成24年5月14日(2012.5.14)
【出願人】(000004075)ヤマハ株式会社 (5,930)
【公開日】平成25年1月17日(2013.1.17)
【国際特許分類】
【出願日】平成24年5月14日(2012.5.14)
【出願人】(000004075)ヤマハ株式会社 (5,930)
[ Back to top ]