説明

音声合成装置

【課題】フレームを反復する場合でも聴感的に自然な合成音を生成する。
【解決手段】記憶装置14は、音声波形が経時的に変化する遷移区間EAを含む複数の音声素片Vを記憶する。変数設定部33は、利用者からの指示に応じて明瞭度変数αを可変に設定する。素片選択部34は、音声素片Vを順次に選択する。境界設定部44は、明瞭度変数αに対して境界時点TBの時間軸上の位置が非線形に変化するように遷移区間EA内に境界時点TBを設定する。合成処理部46は、素片選択部34が選択した音声素片Vのうち境界時点TBの前方の区間を利用して音声信号VOUTを生成する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声素片を利用して発話音や歌唱音等の音声を合成する技術に関する。
【背景技術】
【0002】
複数の音声素片を相互に連結することで所望の音声を合成する素片接続型の音声合成装置が従来から提案されている。特許文献1には、音声素片を部分的に利用することで合成音の明瞭度(仮想的な発声者の口の開き具合)を制御する技術が開示されている。
【0003】
例えば図16に示すように、子音(半母音)の音素/w/の音素区間S1と母音の音素/a/の音素区間S2とを含む音声素片V[w-a]を想定する。音素区間S2は、音素/a/の波形が定常に維持される定常区間EBと、直前の音素区間S1の音素/w/が音素/a/の波形に遷移する遷移区間EAとに区分される。特許文献1の技術では、遷移区間EA内に境界時点(音素セグメンテーション境界)TBが可変に設定され、音声素片Vのうち境界時点TB以前の区間にその区間の最後のフレームを反復的に連結することで所望の時間長の音声信号が生成される。境界時点TBの位置は、利用者から指示された変数(以下「明瞭度変数」という)に応じて可変に設定される。以上の構成によれば、遷移区間EAの全部を適用した場合と比較して明瞭度が低い音声(すなわち発声者が口を充分に開かずに発声した音声)を合成することが可能である。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特許第4265501号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
特許文献1の技術では、遷移区間EA内の境界時点TBを、利用者が指定する明瞭度変数に応じて時間軸上で線形に移動させる構成が想定される。すなわち、遷移区間EAの始点から境界時点TBまでの時間長は、利用者が指定した明瞭度変数に比例する。
【0006】
他方、図16のグラフgは、合成音の受聴者に知覚される音色(発声者の口の開き具合)の時間的な遷移を模式的に図示したグラフである。図16に示すように、音声素片Vの音色は、遷移区間EAの始点から終点にかけて、音素区間S1の音素/w/の音色から音素区間S2の音素/a/の音色に遷移する。グラフgから理解される通り、受聴者が知覚する音色は、経過時間に対して非線形に変化する。すなわち、遷移区間EAの始点の近傍では時間が少し経過しただけで音色が顕著に変化するが、遷移区間EAの終点の近傍では時間が経過しても音色は殆ど変化しない。
【0007】
したがって、前述のように利用者が指定する明瞭度変数に応じて境界時点TBを線形に移動させる場合、境界時点TBが遷移区間EAの始点の近傍に位置する状態では明瞭度変数を少し変化させただけで合成音の音色が顕著に変化するが、境界時点TBが遷移区間EAの終点の近傍に位置する状態では明瞭度変数を同様に変化させても合成音の音色は殆ど変化しない。以上のように明瞭度変数の変化と合成音の音色変化とが感覚的に整合しないから、合成音が所望の音色となるように利用者が明瞭度変数を設定することが困難であるという問題がある。以上の事情を考慮して、本発明は、利用者からの指示に応じた明瞭度変数の変化と合成音の音色変化とを整合させることを目的とする。
【課題を解決するための手段】
【0008】
以上の課題を解決するために本発明が採用する手段を説明する。なお、本発明の理解を容易にするために、以下の説明では、本発明の要素と後述の実施形態の要素との対応を括弧書で付記するが、本発明の範囲を実施形態の例示に限定する趣旨ではない。
【0009】
本発明の音声合成装置は、音声波形が経時的に変化する遷移区間(例えば遷移区間EA)を含む音声素片(例えば音声素片V)を順次に選択する素片選択手段(例えば素片選択部34)と、利用者からの指示に応じて明瞭度変数(例えば明瞭度変数α)を可変に設定する変数設定手段(例えば変数設定部33)と、遷移区間内に境界時点(例えば境界時点TB)を設定する手段であって、明瞭度変数が第1値(例えば数値α1)から所定量だけ変化した場合の境界時点の移動量(例えば変化量Δβ1)と、明瞭度変数が第1値とは相違する第2値(例えば数値α2)から所定量だけ変化した場合の境界時点の移動量(例えば変化量Δβ2)とが相違するように、変数設定手段が設定した明瞭度変数に応じて境界時点の位置を可変に設定する境界設定手段と、素片選択手段が選択した音声素片のうち境界時点の前方の区間(例えば適用区間W)を利用して音声信号を生成する合成処理手段(例えば合成処理部46)とを具備する。以上の構成では、利用者からの指示に応じた明瞭度変数に対して境界時点の位置が非線形に変化する。したがって、受聴者が音声素片から知覚する音色が経過時間に対して非線形に変化する場合でも、利用者からの指示に応じた明瞭度変数の変化と合成音の音色変化とを整合させることが可能である。
【0010】
本発明の好適な態様において、境界設定手段は、明瞭度変数と境界時点の位置との関係が複数の音声素片について共通するように明瞭度変数に応じて境界時点の位置を設定する。以上の態様では、明瞭度変数と境界時点の位置との関係が複数の音声素片について共通するから、境界設定手段による境界時点の設定が簡素化されるという利点がある。なお、以上の態様の具体例は、例えば第1実施形態として後述される。
【0011】
本発明の好適な態様において、複数の音声素片の各々は、相異なる音素に対応する第1音素区間(例えば音素区間S1)と第2音素区間(例えば音素区間S2)とを含み、第2音素区間は遷移区間を含み、境界設定手段は、明瞭度変数と境界時点の位置との関係が、音声素片のうち第1音素区間の音素の種別(例えば種別C)に応じて相違するように、明瞭度変数に応じて境界時点の位置を設定する。以上の態様では、第1音素区間の音素の種別に応じて明瞭度変数と境界時点の位置との関係が個別に設定されるから、音声素片の音色の時間的な遷移が第1音素区間の音素の種別に応じて相違する場合でも、明瞭度変数の変化と合成音の音色変化とを整合させ得るという効果が実現される。なお、以上の態様の具体例は例えば第2実施形態として後述される。
【0012】
本発明の好適な態様の音声合成装置は、基準フレームに対する各フレームの音色の相違を示す音色指標値(例えば音色指標値Y[m])を遷移区間内の複数のフレームの各々について算定する指標算定手段(例えば指標算定部60)を具備し、境界設定手段は、音色指標値の時間的な遷移において音色指標値が明瞭度変数に応じた数値となる時点を境界時点に設定する。以上の態様では、音色指標値が明瞭度変数に応じた数値となる時点が境界時点に設定されるから、各音声素片の特性に関わらず、明瞭度変数の変化と合成音の音色変化とを整合させることが可能である。以上の態様において、音色指標値の時間的な遷移において音色指標値が複数の時点にて明瞭度変数に応じた数値となる場合に、複数の時点のうち最も後方の時点を境界設定手段が境界時点に設定すれば、音声素片の長い区間が音声信号の合成に利用されるから、聴感的に自然な合成音を生成できるという利点がある。なお、以上の態様の具体例は、例えば第6実施形態として後述される。
【0013】
本発明の好適な態様の音声合成装置は、素片選択手段が選択した音声素片の遷移区間内に限界時点を設定する限界設定手段(例えば限界設定部42)を具備し、境界設定手段は、限界設定手段が設定した限界時点から遷移区間の終点までの変動区間(例えば変動区間EC)内に境界時点を設定する。以上の態様では、遷移区間内に設定された限界時点の後方に境界時点が設定される。すなわち、遷移区間のうち第1音素区間の音素の影響が過度に残存する時点は境界時点として設定されない。したがって、境界時点に対応するフレームを反復して音声信号を生成する構成にも関わらず、聴感的に自然な印象の合成音を生成できるという利点がある。
【0014】
限界設定手段を具備する構成の好適例において、複数の音声素片の各々は、相異なる音素に対応する第1音素区間と第2音素区間とを含み、第2音素区間は遷移区間を含み、限界設定手段は、第2音素区間の遷移区間のうち第1音素区間の音素の種別に応じた時点を限界時点として設定する。遷移区間のうち第1音素区間の音素の影響が過度に残存する区間は第1音素区間の音素の種別に応じて相違するという傾向がある。以上の態様では、遷移区間内の限界時点の位置が第1音素区間の音素の種別に応じて可変に設定されるから、第1音素区間の音素の種別に応じた適切な位置を限界時点として設定できるという利点がある。
【0015】
限界設定手段を具備する構成の好適例に係る音声合成装置は、遷移区間内の複数のフレームの各々について当該フレームを反復した場合の音声の自然性の指標値を算定する第2指標算定手段(例えば指標算定部48)を具備し、限界設定手段は、各フレームの指標値に応じて限界時点を設定する。以上の態様では、遷移区間内の各フレームの指標値に応じて限界時点が設定されるから、音声素片の特性に応じた適切な限界時点を設定できるという利点がある。また、遷移区間内の各フレームの音量に応じた第1指標値と、遷移区間内の各フレームの非調和成分の強度に応じた第2指標値とを第2指標算定手段(例えば指標算定部48)が指標値として算定し、遷移区間のうち、第1指標値が示す音量が所定値を上回り、かつ、第2指標値が示す非調和成分の強度が所定値を下回る時点を限界設定手段が限界時点として設定する構成によれば、例えば第1音素区間の音素が無声子音(例えば破裂音や破擦音や摩擦音)である場合に、遷移区間内の適切な位置に限界時点を設定できるという利点がある。
【0016】
以上の各態様に係る音声合成装置は、音声合成に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)で実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働でも実現される。本発明のプログラム(例えばプログラムPGM)は、音声波形が経時的に変化する遷移区間を含む音声素片を順次に選択する素片選択処理と、利用者からの指示に応じて明瞭度変数を可変に設定する変数設定処理と、遷移区間内に境界時点を設定する処理であって、明瞭度変数が第1値から所定量だけ変化した場合の境界時点の移動量と、明瞭度変数が第1値とは相違する第2値から所定量だけ変化した場合の境界時点の移動量とが相違するように、変数設定処理で設定した明瞭度変数に応じて境界時点の位置を可変に設定する境界設定処理と、素片選択処理で選択した音声素片のうち境界時点の前方の区間を利用して音声信号を生成する合成処理とをコンピュータに実行させる。以上のプログラムによれば、本発明の音声合成装置と同様の作用および効果が実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。
【図面の簡単な説明】
【0017】
【図1】本発明の第1実施形態に係る音声合成装置のブロック図である。
【図2】記憶装置に格納された素片群の模式図である。
【図3】音声素片の波形と単位データとの関係の説明図である。
【図4】編集画面の模式図である。
【図5】音声合成部のブロック図である。
【図6】明瞭度変数と境界変数との関係を示すグラフである。
【図7】第2実施形態における素片データの模式図である。
【図8】第3実施形態における音声合成部のブロック図である。
【図9】第3実施形態における音声素片の波形と単位データとの関係の説明図である。
【図10】第3実施形態における境界変数の算定方法の説明図である。
【図11】第5実施形態における音声合成部のブロック図である。
【図12】指標値の説明図である。
【図13】第6実施形態における音声合成部のブロック図である。
【図14】第6実施形態の動作の説明図である。
【図15】第6実施形態の他の動作の説明図である。
【図16】背景技術の説明図である。
【発明を実施するための形態】
【0018】
<第1実施形態>
図1は、本発明の第1実施形態に係る音声合成装置100のブロック図である。音声合成装置100は、発話音や歌唱音等の音声を素片接続型の音声合成処理で生成する信号処理装置であり、図1に示すように、演算処理装置12と記憶装置14と表示装置22と入力装置24と放音装置26とを具備するコンピュータシステムで実現される。
【0019】
演算処理装置12(CPU)は、記憶装置14に格納されたプログラムPGMを実行することで、合成音の波形を表す音声信号VOUTを生成するための複数の機能(表示制御部32,変数設定部33,素片選択部34,音声合成部36)を実現する。なお、演算処理装置12の各機能を複数の集積回路に分散した構成や、専用の電子回路(DSP)が一部の機能を実現する構成も採用され得る。
【0020】
表示装置22(例えば液晶表示装置)は、演算処理装置12から指示された画像を表示する。入力装置24は、利用者からの指示を受付ける機器(例えばマウスやキーボード)である。放音装置26(例えばヘッドホンやスピーカ)は、演算処理装置12が生成した音声信号VOUTに応じた音波を放射する。
【0021】
記憶装置14は、演算処理装置12が実行するプログラムPGMや演算処理装置12が使用する各種のデータ(素片群QA,合成情報QB)を記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置14として採用される。
【0022】
記憶装置14に格納される素片群QAは、図2に示すように、相異なる音声素片Vに対応する複数の素片データDの集合(音声合成ライブラリ)である。第1実施形態では、相異なる音素に対応する2個の音素区間S(S1,S2)を連結したダイフォン(音素連鎖)を音声素片Vとして想定する。音素区間S2は音素区間S1の後方に位置する。なお、以下では便宜的に無音を子音の音素として説明する。
【0023】
図3は、1個の音声素片Vの波形図である。図3では、子音(半母音)の音素/w/の音素区間S1に母音の音素/a/の音素区間S2が後続する音声素片V[w-a]の波形が例示されている。図3の音素境界GAは、音素区間S1と音素区間S2との境界を意味する。母音の音素区間S2は、状態境界GBを挟んで遷移区間EAと定常区間EBとに区分される。
【0024】
図3の定常区間EBは、音素区間S2の音素/a/の波形が定常に維持される区間である。他方、遷移区間EAは、音声素片Vの波形(音色)が、直前の音素区間S1の音素/w/の波形から音素区間S2の音素/a/の波形に遷移する区間である。すなわち、音声素片Vの発声者の口の形状は、音素区間S1の音素/w/に対応する形状から音素境界GAにて変化し始め、音素境界GAから状態境界GBにかけて音素区間S2の音素/a/に対応する形状に経時的に変化し、状態境界GBにて音素/a/に対応する形状に到達して以後は定常に維持される。
【0025】
図3のグラフgは、合成音の受聴者に知覚される音色が遷移区間EAの始点(音素境界GA)から終点(状態境界GB)にかけて音素区間S1の音素/w/から音素区間S2の音素/a/に時間的に変化する様子を模式的に図示したグラフである。グラフgから理解されるように、受聴者が知覚する音色(発声者の口の開き具合)は、経過時間に対して非線形に変化する。すなわち、所定の単位時間に対する音色の変化量が遷移区間EA内の各時点で相違する。具体的には、遷移区間EAの始点(音素境界GA)の近傍では時間が少し経過しただけで音色は顕著に変化するが、遷移区間EAの終点(状態境界GB)の近傍では時間が経過しても音色は殆ど変化しない。
【0026】
図2に示すように、各音声素片Vの素片データDは、区間情報DBと複数の単位データUとを含んで構成される。区間情報DBは、音声素片V内の音素境界GAと状態境界GBとを指定する。複数の単位データUの各々は、音声素片V(音素区間S1および音素区間S2)を時間軸上で区分した各フレームの音声の周波数スペクトルを指定する。
【0027】
記憶装置14に記憶される合成情報(スコアデータ)QBは、図1に示すように、合成音の発音文字X1と発音期間X2と音高(ピッチ)X3と明瞭度変数αとを合成音の音符毎に時系列に指定する。発音文字X1は、例えば歌唱音を合成する場合の歌詞の文字列である。明瞭度変数αは、合成音が聴感的に明確と知覚される程度を示す変数である。発声者が発声時に口を大きく開くほど発声音は聴感的に明瞭と知覚される。したがって、明瞭度変数αは、合成音の仮想的な発声者の口の開き具合を示す変数とも表現され得る。
【0028】
図1の演算処理装置12の表示制御部32は、合成情報QBの生成および編集のために利用者が視認する図4の編集画面50を表示装置22に表示させる。編集画面50は、第1領域51と第2領域52とに区分される。第1領域51には、時間軸(横軸)と音高軸(縦軸)とが設定され、合成音の各音符を表現する音指示子54が入力装置24に対する利用者からの指示に応じて配置される。各音指示子54の音高軸上の位置に応じて合成情報QBの音高X3が設定され、時間軸上の位置およびサイズに応じて発音期間X2が設定される。また、利用者が各音指示子54に指定した文字が合成情報QBの発音文字X1として設定される。
【0029】
第2領域52には、各音指示子54に対応する変数指示子56が第1領域51と共通の時間軸のもとで配置される。各変数指示子56は、縦方向の長さdで明瞭度変数αの大小を表現する画像(棒グラフ)である。利用者は、入力装置24を適宜に操作することで各変数指示子56の長さdを0以上かつ127以下の範囲内で変更することが可能である。
【0030】
図1の変数設定部33は、入力装置24に対する利用者からの指示に応じて合成情報QB内の明瞭度変数αを可変に設定する。具体的には、変数設定部33は、利用者が指定した変数指示子56の長さdに比例するように0以上かつ1以下の範囲内で明瞭度変数αを設定する。すなわち、変数指示子56に対する操作で利用者が設定した数値を、最大値が1となるように正規化(例えば127で除算)することで明瞭度変数αを算定する。
【0031】
図1の素片選択部34は、合成情報QBが時系列に指定する各発音文字X1に対応した音声素片Vを素片群QAから順次に選択する。音声合成部36は、素片選択部34が順次に選択する音声素片Vの素片データDを利用して音声信号VOUTを生成する。概略的には、音声合成部36は、合成情報QBが指定する発音期間X2に応じて素片データDを時間軸上で伸縮し、伸縮後の各単位データUが示す周波数スペクトルを時間波形に変換したうえで合成情報QBの音高X3に調整して相互に連結することで音声信号VOUTを生成する。
【0032】
図5は、音声合成部36のブロック図である。図5に示すように、第1実施形態の音声合成部36は、境界設定部44と合成処理部46とを含んで構成される。境界設定部44は、図3に示すように、素片選択部34が選択した音声素片Vの音素区間S2が母音や摩擦音や鼻音等の時間的に持続可能な音素に対応する場合に、音素区間S2の遷移区間EA内に境界時点TBを設定する。具体的には、境界設定部44は、遷移区間EAのうち境界時点TBの時間軸上の位置を指定する変数(以下「境界変数」という)βを設定する。境界変数βは、遷移区間EAの始点(音素境界GA)を境界時点TBとして指定する最小値0から、遷移区間EAの終点(状態境界GB)を境界時点TBとして指定する最大値1までの範囲内(0≦β≦1)で、合成情報QBが指定する明瞭度変数αに応じて可変に設定される。
【0033】
図6は、明瞭度変数αと境界変数βとの関係を示すグラフである。第1実施形態の境界設定部44は、明瞭度変数αの自乗を境界変数βとして算定する(β=α2)。したがって、図6に示すように、明瞭度変数αが数値α1から所定量δだけ正側に変化した場合の境界変数βの変化量(すなわち境界時点TBの移動量)Δβ1と、明瞭度変数αが数値α2(α2>α1)から同じ所定量δだけ正側に変化した場合の境界変数βの変化量Δβ2とは相違する。具体的には変化量Δβ2は変化量Δβ1を上回る。すなわち、明瞭度変数αが最大値1に近付くほど明瞭度変数αの変化に対する境界時点TBの移動量は増加する。以上の説明から理解されるように、利用者が指定した明瞭度変数αに応じて境界変数β(境界時点TBの位置)は非線形に変化する。なお、第1実施形態では、明瞭度変数αと境界変数βとの関係は全種類の音声素片Vについて共通する。図3に示すように、音声素片Vのうち境界設定部44が設定した境界時点TBの前方の区間(音素区間S1の始点から境界時点TBまでの区間)Wを以下では「適用区間」と表記する。
【0034】
図5の合成処理部46は、素片選択部34が選択した音声素片Vの適用区間Wを利用して音声信号VOUTを生成する。具体的には、合成処理部46は、図3に示すように、素片データDのうち適用区間W内の単位データUで構成される単位データ群Z1に、適用区間W内の最後に位置する1個の単位データU(図3の斜線部)を反復して配置した単位データ群Z2を連結する。単位データ群Z2を構成する単位データUの個数は、単位データ群Z1と単位データ群Z2との合計長が発音期間X2に応じた目標長となるように可変に設定される。
【0035】
合成処理部46は、単位データ群Z1および単位データ群Z2の各単位データUが示す周波数スペクトルを時間波形に変換するとともに合成情報QBが指定する音高X3に調整し、相前後するフレームで相互に連結することで音声信号VOUTを生成する。なお、明瞭度変数αが最大値1に設定され、かつ、発音期間X2に応じた目標長が所定値(例えば音声素片Vの時間長)を下回る場合、合成処理部46は、定常区間EBを含む音声素片Vの複数の単位データUを後方から除去して目標長に調整することで音声信号VOUTを生成する(すなわち、単位データ群Z2の付加は実行しない)。
【0036】
以上のように、音素区間S2のうち音声波形が定常状態に到達する状態境界GBの到来前(すなわち発声者の口が完全に開く以前)に境界時点TBが設定され、音声素片Vのうち境界時点TBの前方の適用区間Wが音声信号VOUTの生成に利用される。したがって、発声者が口を充分に開かずに発声したような合成音を生成することが可能である。
【0037】
また、第1実施形態では、利用者からの指示に応じた明瞭度変数αに対して境界変数β(時間軸上の境界時点TBの位置)が非線形に変化する。具体的には、明瞭度変数αが最大値1に近付くほど境界変数βの変化量は増加する。他方、遷移区間EA内の音声について受聴者が知覚する音色は遷移区間EA内の位置に応じて非線形に変化する。具体的には、遷移区間EAの終点に近い位置ほど音色の変化量は減少する。したがって、第1実施形態によれば、利用者が指示した明瞭度変数αに応じて境界時点TBを線形に移動させる構成と比較して、利用者が指定する明瞭度変数αの変化と合成音の音色変化との不整合感を低減することが可能である。例えば、利用者が明瞭度変数αを最大値1から半分に変化させた場合には、口の開き具合を半分に変化させたように合成音の音色が変化する。
【0038】
<第2実施形態>
本発明の第2実施形態を以下に説明する。第1実施形態では、明瞭度変数αと境界変数βとの関係を全種類の音声素片Vについて共通させた。しかし、遷移区間EA内の音色(口の開き具合)の時間変化は、音声素片Vの種類(特に音素区間S1内の音素の種類)に応じて変化する。以上の傾向を考慮して、第2実施形態では、音声素片Vのうち音素区間S1内の音素の種類に応じて明瞭度変数αと境界変数βとの関係を変化させる。なお、以下に例示する各形態において作用や機能が第1実施形態と同等である要素については、以上の説明で参照した符号を流用した各々の詳細な説明を適宜に省略する。
【0039】
図7は、第2実施形態における素片データDの模式図である。第2実施形態における各音声素片Vの素片データDは、第1実施形態と同様の区間情報DBと複数の単位データUとに加えて分類情報DAを含んで構成される。分類情報DAは、音声素片Vを構成する各音素の分類を指定する。例えば図7に示すように、母音(/a/,/i/,/u/),破裂音(/t/,/k/,/p/),破擦音(/ts/),鼻音(/m/,/n/),流音(/r/),摩擦音(/s/,/f/),半母音(/w/,/y/),無音(/Sil/)等の分類が、音声素片Vの音素区間S1および音素区間S2の各々について分類情報DAで指定される。
【0040】
図7に示すように、各音素は、複数の種別C(C1〜C3)に区分される。具体的には、子音の音素は、有声性の高低に応じて各種別Cに区分される。例えば日本語の音素の場合、半母音(/w/,/y/)や鼻音(/m/,/n/)や流音(/r/)等の調和成分が豊富な音素、または、有声摩擦音(/z/)や有声破裂音(/d/)等の非調和成分が豊富な音素のように、有声性が高い子音(例えば有声子音)は種別C1に分類され、破裂音(/t/,/k/,/p/)や破擦音(/ts/)や摩擦音(/s/,/f/)等の無声子音のように有声性が低い子音は種別C2に分類される。無音(/Sil/)は種別C3に分類される。また、母音(/a/,/i/,/u/)は種別C2に分類される。
【0041】
第2実施形態の境界設定部44は、利用者から指示された明瞭度変数αと境界変数β(境界時点TBの位置)との関係が、音声素片Vのうち音素区間S1の音素の種別Cに応じて相違するように、明瞭度変数αに応じた境界変数βを算定する。具体的には、分類情報DAで指定される音素区間S1の音素の分類が種別C1に属する場合と種別C2に属する場合とで、明瞭度変数αから境界変数βを算定するための関数は相違する。
【0042】
第1実施形態でも第2実施形態と同様の効果が実現される。また、第2実施形態では、音素区間S1の音素の種別C(分類)に応じて明瞭度変数αと境界変数βとの関係が変化するから、遷移区間EA内の音色(口の開き具合)の時間的な遷移が音素区間S1内の音素の種別Cに応じて相違する場合でも、利用者が指定する明瞭度変数αの変化と合成音の音色変化との不整合感を各音声素片Vについて低減することが可能である。
【0043】
<第3実施形態>
音声素片Vの遷移区間EAでは、音素区間S1の音素の波形から音素区間S2の音素の波形に遷移する。すなわち、遷移区間EAのうち音素境界GAの近傍には直前の音素区間S1の音素の影響が残存する。したがって、遷移区間EAのうち音素境界GAに近い位置に境界時点TBが設定されると、本来的ならば音素区間S2の音素のみが反映されるべき単位データ群Z2内で、音素区間S1の音素の影響を含む単位データUが反復され、合成音が不自然な音声となる可能性がある。以上の事情を背景として、第3実施形態では、単位データ群Z2にて反復される単位データU(すなわち適用区間Wのうち境界時点TBに対応する最後の単位データU)にて直前の音素区間S1の音素の影響が充分に低減されるように、遷移区間EA内に設定される境界時点TBの位置を制限する。
【0044】
図8は、第3実施形態における音声合成部36のブロック図である。図8に示すように、第3実施形態の音声合成部36は、第1実施形態の音声合成部36に限界設定部42を追加した構成である。限界設定部42は、図9に示すように、素片選択部34が選択した音声素片Vのうち母音の音素に対応する音素区間S2の遷移区間EA内に限界時点TAを設定する。限界時点TAは、遷移区間EAの割合Rに相当する時間(R×EA)だけ遷移区間EAの終点(状態境界GB)から前方の時点である。割合Rを指定する限界情報QCが記憶装置14に事前に記憶され、限界設定部42は、記憶装置14から取得した限界情報QCに応じて限界時点TAを設定する。遷移区間EAの直前の音素区間S1の音素の影響が限界時点TAにて充分に低下するように、割合Rは0以上かつ1以下の範囲内で選定される。
【0045】
図8の境界設定部44は、遷移区間EA内の境界時点TBの位置を指定する境界変数γを、変数設定部33が設定した明瞭度変数αに応じて可変に設定する。境界変数γは、第1実施形態の境界変数βと同様に、遷移区間EAの始点(音素境界GA)を最小値0として境界時点TBの時間軸上の位置を指定する変数である。境界設定部44は、図9に示すように、音素区間S2内の遷移区間EAのうち限界設定部42が設定した限界時点TAから状態境界GBまでの区間(以下「変動範囲」という)EC内に境界時点TBが位置するように境界変数γを算定する。
【0046】
図10は、境界変数γの説明図である。図10の部分(A)には、明瞭度変数αに対して非線形に変化する第1実施形態の境界変数βで遷移区間EA内に指定される境界時点TBが図示されている。他方、図10の部分(B)には、第3実施形態の限界時点TAで画定される変動区間ECが図示されている。遷移区間EAの全体の時間長を1と仮定すると、図10の部分(B)に示すように、遷移区間EAは、限界時点TAの前方の時間(1−R)にわたる区間と、限界時点TAの後方の時間Rにわたる変動区間ECとに区分される。
【0047】
限界時点TAから時間txだけ後方の時点を、第3実施形態の境界変数γが示す境界時点TBとする。いま、遷移区間EAの全体に対して境界変数βが示す境界時点TBの位置(部分(A))と、遷移区間EAのうちの変動区間ECに対して境界変数γが示す境界時点TBの位置(部分(B))とが同等である(1:β=R:tx)と仮定すると、時間txは、境界変数βと割合Rとの乗算値(βR)として表現される。また、遷移区間EAのうち限界時点TAの前方の区間が前述のように時間(1−R)であることを考慮すると、遷移区間EAの始点GAを最小値0として境界時点TBを指定する境界変数γは、以下の数式(1)で表現される。
γ=(1−R)+βR
=1−(1−β)R ……(1)
【0048】
第3実施形態の境界設定部44は、第1実施形態と同様の方法で明瞭度変数αに応じた境界変数βを算定し(β=α2)、境界変数βと限界情報QCが示す割合Rとについて数式(1)の演算を実行することで境界変数γを算定する。したがって、境界変数γは、第1実施形態の境界変数βと同様に明瞭度変数αに対して非線形に変化する。また、境界変数βは0以上かつ1以下の数値であるから、境界変数γは(1−R)以上かつ1以下の範囲内の数値となる。すなわち、境界変数γは、遷移区間EAの始点GAに対して時間(1−R)だけ後方の限界時点TAから遷移区間EAの終点GBまでの変動区間EC内に、明瞭度変数αに応じて非線形に変化する境界時点TBを指定する変数である。
【0049】
第3実施形態においても第1実施形態と同様の効果が実現される。また、第3実施形態では、境界時点TBの位置が、音素境界GAの後方に位置する限界時点TA以降に制限されるから、音声信号VOUTの生成に使用される単位データ群Z2にて反復される単位データU(すなわち境界時点TBに対応する単位データU)では、直前の音素区間S1の音素の影響は充分に低減される。したがって、聴感的に自然な音声を合成できるという利点がある。
【0050】
<第4実施形態>
音素区間S2の遷移区間EA内で音素区間S1の音素の影響が充分に低減される最初の単位データUの位置(音素区間S2内の複数の単位データUのうち反復させた場合でも合成音が聴感的に不自然な音声とならない最先の単位データUの位置)は、直前の音素区間S1の音素の種別Cに応じて相違するという傾向がある。例えば、音素区間S1の音素が、有声性が高い半母音等の音素の種別C1に属する場合、音素区間S2のうち音素境界GAの近傍の単位データUを反復させたとしても合成音はそれほど不自然な音声にはならない。他方、音素区間S1の音素が、非調和成分(雑音成分)が豊富で振幅が小さい破裂音等の音素の種別C2に属する場合、音素区間S2のうち音素境界GAの近傍の単位データUを反復させると、音素区間S1の音素に由来する合成音の不自然さが顕著に知覚される。以上の傾向を考慮して、第4実施形態では、音素区間S2内の遷移区間EAに対する限界時点TAの位置を直前の音素区間S1の音素の種別Cに応じて変化させる。なお、第4実施形態の構成は第3実施形態と同様である。
【0051】
第4実施形態の記憶装置14には、限界時点TAの位置を規定する限界情報QCが記憶される。限界情報QCは、遷移区間EAに対する変動区間ECの割合R(R1〜R3)を音素の種別C(C1〜C3)毎に指定する。限界設定部42は、素片選択部34が選択した音声素片Vのうち音素区間S1の音素の種別Cについて限界情報QCが示す割合Rに応じてその音声素片Vの遷移区間EA内に限界時点TAを設定する。なお、記憶装置14内の各素片データDは第2実施形態と同様に分類情報DAを含んで構成され、音素区間S1の種別Cは、素片データDの分類情報DAから特定される。
【0052】
具体的には、音素区間S1の音素が種別C1(有声性が高い子音)に属する場合には、遷移区間EAの終点GBから割合R1に応じた時間(R1×EA)だけ前方の時点が限界時点TAとして設定される。同様に、音素区間S1の音素が種別C2(無声子音または母音)に該当する場合には、遷移区間EAの終点GBから割合R2に応じた時間(R2×EA)だけ前方の時点が限界時点TAとして設定され、音素区間S1の音素が種別C3(無音)に該当する場合には、遷移区間EAの終点GBから時間(R3×EA)だけ前方の時点が限界時点TAとして設定される。遷移区間EAのうち限界時点TAから終点GBまでの変動区間EC内に明瞭度変数αに応じた境界時点TBが設定される点は第3実施形態と同様である。
【0053】
音素区間S2内の複数の単位データUのうち、その反復により生成された合成音が音素区間S1の音素に影響された不自然な音声とならない最先の単位データUの位置を指定するように、音素の種別C毎の割合Rは実験的または統計的に選定される。例えば、音素区間S1の音素が種別C1に属する場合には音素区間S2内の音素境界GAの近傍の単位データUを反復させても合成音はそれほど不自然にならないが、音素区間S1の音素が種別C2に属する場合に音素区間S2の音素境界GAの近傍の単位データUを反復させると音素区間S1の音素に由来する合成音の不自然さが顕在化するという傾向を考慮すると、割合R1は割合R2や割合R3を上回る数値に設定される。したがって、遷移区間EAの時間長が共通すると仮定すると、音素区間S1の音素が種別C2や種別C3に属する場合の限界時点TAは、音素区間S1の音素が種別C1に属する場合の限界時点TAよりも時間的に遅い時点となる。具体的には、割合R1は0.8(80%)程度に設定され、割合R2は0.61(61%)程度に設定され、割合R3は0.5(50%)程度に設定される。
【0054】
第4実施形態においても第3実施形態と同様の効果が実現される。なお、音素区間S1の音素に関わらず共通の割合Rに応じて限界時点TAが設定される第3実施形態において、音素区間S1の音素に由来する合成音の不自然さを全部の音素について抑制するためには、限界時点TAを遷移区間EAの後方側に設定する必要がある。したがって、変動区間ECが短い時間に制限され、合成音の明瞭度(口の開き具合)を充分に低下させることができない可能性がある。他方、第3実施形態において合成音の明瞭度を充分に低下させるために、音素境界GAの近傍の時点を限界時点TAとして選定した場合、音素区間S1の音素に起因して合成音が不自然な音声となる。第4実施形態では、遷移区間EAに対する限界時点TAの位置(割合R)が直前の音素区間S1の音素の種別Cに応じて設定されるから、合成音の明瞭度の変化幅を充分に確保すること(明瞭度を充分に低下させること)と音素区間S1の音素に起因した合成音の不自然さを低減することとを両立できるという利点がある。
【0055】
なお、第4実施形態では、遷移区間EAに対する変動区間ECの割合Rを種別C毎に個別に設定したが、限界時点TAを音素区間S1の音素の種別C毎に相違させる方法は適宜に変更される。例えば、記憶装置14に記憶された限界情報QCが、遷移区間EAの始点GAから限界時点TAまでの期間または限界時点TAから終点GBまでの期間の時間長(フレーム数)を音素の種別C毎に指定する構成も採用され得る。
【0056】
<第5実施形態>
第3実施形態および第4実施形態では、記憶装置14に事前に記憶された限界情報QCを利用して限界設定部42が遷移区間EA内に限界時点TAを設定した。第5実施形態では、音声素片Vを解析した結果を利用して限界設定部42が限界時点TAを設定する。
【0057】
図11は、第5実施形態における音声合成部36のブロック図である。図11に示すように、第5実施形態の音声合成部36は、第3実施形態の音声合成部36(図8)に指標算定部48を追加した構成である。指標算定部48は、素片選択部34が選択した音声素片Vの音素区間S2のうち遷移区間EA内の複数のフレームの各々について、そのフレームの1個の単位データUを反復することで生成される合成音の聴感的な自然性の尺度となる指標値Kを算定する。
【0058】
1個の単位データUを反復した場合に合成音が聴感的に不自然な音声となる典型的なフレームは、有声音と比較して音量が小さいフレームや、調和成分(基音成分および各倍音成分)に対する非調和成分の強度が高いフレームである。具体的には、破裂音や破擦音等の音素の音素区間S1の直後に位置する遷移区間EA内の前方のフレームの単位データUを反復した場合に合成音は聴感的に不自然な音声となる。以上の傾向を考慮して、指標算定部48は、各フレームの音量に関する指標値K1と、各フレームの非調和成分の強度に関する指標値K2とを、素片選択部34が選択した音声素片Vの遷移区間EA内のフレーム毎に指標値Kとして算定する。
【0059】
各フレームの指標値K1は、例えば、所定の音量A0に対するそのフレームの音量Aの比(K1=A/A0)として算定される。所定の音量A0は、例えば遷移区間EA内の最後のフレームの音量(遷移区間EA内の最大値である可能性が高い)である。したがって、遷移区間EA内で音量Aが大きいフレーム(すなわち、単位データUを反復した合成音が聴感的に自然な音声となる可能性が高いフレーム)ほど、指標値K1は大きい数値となる。
【0060】
各フレームの指標値K2は、そのフレームの音声成分から非調和成分を低減または除去した場合の平均パワーPSに対するそのフレームの平均パワーPの比(K2=P/PS)として算定される。図12には、遷移区間EA内の1個のフレームの単位データUで指定された周波数スペクトルSP1が図示されている。周波数スペクトルSP1は、各調波周波数Fn(基本周波数および各倍音周波数)にて強度がピークとなる調和成分に加えて各調波周波数の間に存在する非調和成分を含んで構成される。
【0061】
図12には、周波数スペクトルSP1から非調和成分を除去した周波数スペクトルSP2(斜線部)が併記されている。周波数スペクトルSP2は、周波数スペクトルSP1の各調波周波数Fnに所定の調波成分Hを配置し、各調波成分Hの強度を周波数スペクトルSP1の包絡線ENVに合致するように調整したスペクトルである。指標算定部48は、周波数スペクトルSP2の平均パワーPSに対する周波数スペクトルSP1の平均パワーPの比を指標値K2としてフレーム毎に算定する。したがって、調和成分に対する非調和成分の強度が低いフレーム(すなわち、単位データUを反復した合成音が聴感的に自然な音声となる可能性が高いフレーム)ほど、指標値K2は小さい数値となる。
【0062】
第5実施形態の限界設定部42は、遷移区間EA内の各フレームの指標値K(K1,K2)に応じて限界時点TAを設定する。すなわち、限界設定部42は、遷移区間EA内の複数のフレームのうち指標値Kが示す合成音の自然性が目標値を上回る最先のフレームの時点を限界時点TAとして設定する。
【0063】
具体的には、指標算定部48は、遷移区間EAの先頭から順次にフレームを選択してそのフレームの指標値K1と指標値K2とを算定し、限界設定部42は、指標値K1が所定の閾値Kth1を上回るか否か(すなわち音量が目標値を上回るか否か)および指標値K2が所定の閾値Kth2を下回るか否か(すなわち調和成分に対する非調和成分の強度が目標値を下回るか否か)を判定する。限界設定部42は、指標値K1の判定と指標値K2の判定との双方の結果が肯定となる最先のフレームの時点を限界時点TAとして設定する。すなわち、調和成分に対する非調和成分の強度が充分に低くて音量が大きい時点(単位データUの反復で生成される合成音が聴感的に自然な音声となる時点)が限界時点TAとして設定される。したがって、第5実施形態においても結果的には、第4実施形態と同様に、音素区間S1の音素の種別Cに応じた時点が限界時点TAとして設定される。例えば、音素区間S1の音素が種別C2に属する場合の限界時点TAは、音素区間S1の音素が種別C1に属する場合の限界時点TAよりも時間的に遅い時点となる。境界設定部44や合成処理部46の動作は第3実施形態や4実施形態と同様である。
【0064】
第5実施形態においても第3実施形態と同様の効果が実現される。また、第5実施形態では、遷移区間EA内のフレーム毎に算定された指標値K(K1,K2)に応じて限界時点TAが設定されるから、限界時点TAを規定する限界情報QCが事前に用意された第1実施形態や第2実施形態と比較して、各音声素片Vの特性に応じた適切な限界時点TAを設定できるという利点がある。
【0065】
<第6実施形態>
図13は、第6実施形態における音声合成部36のブロック図である。図13に示すように、第6実施形態の音声合成部36は、第1実施形態の音声合成部36に指標算定部60を追加した構成である。指標算定部60は、図14に示すように、素片選択部34が選択した音声素片Vの遷移区間EA内の複数(M個)のフレームの各々について音色指標値Y[m](m=1〜M)を算定する。音色指標値Y[m]は、遷移区間EA内の第m番目のフレームと遷移区間EA内の特定のフレーム(以下「基準フレーム」という)との音色の相違を示す尺度である。以下の説明では、遷移区間EA内の最後(第M番目)に位置する1個のフレームを基準フレームとして選定した場合を例示する。
【0066】
第6実施形態において有声音の音素に対応する1個の単位データUは、図14に示すように、各フレームの周波数スペクトルを示すデータに加えて包絡形状データEを含んで構成される。包絡形状データEは、音声の周波数スペクトルの包絡線の形状的な特徴を示す複数の変数で構成される。第1実施形態の包絡形状データEは、例えば励起波形エンベロープe1と胸部レゾナンスe2と声道レゾナンスe3と差分スペクトルe4とを含むEpR(Excitation plus Resonance)パラメータを要素とするベクトルであり、公知のSMS(Spectral Modeling Synthesis)分析で生成される。なお、EpRパラメータやSMS分析については、例えば特許第3711880号公報や特開2007−226174号公報にも開示されている。
【0067】
励起波形エンベロープ(Excitation Curve)e1は、声帯振動のスペクトルの包絡線を近似する変数である。胸部レゾナンス(Chest Resonance)e2は、胸部共鳴特性を近似する所定個のレゾナンス(帯域通過フィルタ)の帯域幅と中心周波数と振幅値とを指定する。声道レゾナンス(Vocal Tract Resonance)e3は、声道共鳴特性を近似する複数のレゾナンスの各々について帯域幅と中心周波数と振幅値とを指定する。差分スペクトルe4は、励起波形エンベロープe1と胸部レゾナンスe2と声道レゾナンスe3とで近似されるスペクトルと音声のスペクトルとの差分(誤差)を意味する。
【0068】
包絡形状データEは、各フレームの音色を示す変数として利用可能である。そこで、指標算定部60は、各フレームの包絡形状データEと基準フレームの包絡形状データEとに応じて両者間の相違を示す音色指標値Y[m]を算定する。具体的には、指標算定部60は、以下の数式(2)の演算で音色指標値Y[m]を算定する。
Y[m]=D{E(M),E(m)}/D{E(M),E(1)} ……(2)
数式(2)の演算子D{E(m1),E(m2)}は、遷移区間EA内の第m1番目のフレームの包絡形状データE(m1)と第m2番目のフレームの包絡形状データE(m2)との距離(例えば各包絡形状データEが示すベクトル間のユークリッド距離)を意味する。すなわち、数式(2)の分子の距離D{E(M),E(m)}は、基準フレームの包絡形状データE(M)と遷移区間EAの第m番目のフレームの包絡形状データE(m)との距離であり、数式(2)の分母の距離D{E(M),E(1)}は、基準フレームの包絡形状データE(M)と遷移区間EAの最初のフレームの包絡形状データE(1)との距離である。
【0069】
音声素片Vの音色は、遷移区間EAの始点GAから終点GBにかけて音素区間S1の音素の音色から音素区間S2の音素の音色に経時的に変化するから、距離D{E(M),E(m)}は、遷移区間EAの最初のフレームで最大値D{E(M),E(1)}となり、概略的には時間の経過とともに減少して最後のフレーム(基準フレーム)で最小値0となる。数式(2)の距離D{E(M),E(1)}による除算は、音色指標値Y[m]を0以上かつ1以下の範囲内の数値に正規化する演算を意味する。すなわち、音色指標値Y[1]〜Y[M]は、図14に示すように、遷移区間EAの最初のフレームにて最大値1となり、概略的な傾向として時間の経過とともに減少して最後のフレーム(基準フレーム)にて最小値0となる。
【0070】
以上の説明から理解されるように、音色指標値Y[m]は、受聴者が知覚する音色の変化(発声者の口の開き具合の変化)に対して線形に変化する変数として機能する。例えば、遷移区間EAのうち直前の音素区間S1の音素と音素区間S2の音素との中間の音色となるフレーム(例えば発声者が口を半分だけ開いた状態のフレーム)では音色指標値Y[m]は0.5となり、直前の音素区間S1の音素の音色と音素区間S2の音素の音色とを2:8の割合で混合した音色のフレーム(例えば発声者が口を2割だけ開いた状態のフレーム)では音色指標値Y[m]は0.2となる。
【0071】
第6実施形態の境界設定部44は、遷移区間EA内の音色指標値Y[m]の時間的な遷移において、音色指標値Y[m]が、明瞭度変数αに線形に対応した数値となる時点を、境界時点TBとして選定する。具体的には、境界設定部44は、明瞭度変数αに応じて0から1までの範囲内で線形に変化する数値(1−α)を算定し、図14に示すように、遷移区間EA内で音色指標値Y[m]が数値(1−α)に合致する時点tyを境界時点TBとして設定する。例えば明瞭度変数αが0.5である場合には、遷移区間EAのうち音色指標値Y[m]が0.5となる時点(フレーム)が境界時点TBとして設定され、明瞭度変数αが0.2である場合には、遷移区間EAのうち音色指標値Y[m]が0.8となる時点が境界時点TBとして設定される。
【0072】
ところで、図14では音色指標値Y[m]が時間経過とともに単調減少する場合を例示したが、図15に示すように、音声素片Vによっては音色指標値Y[m]が単調減少しない可能性がある。音声素片Vが遷移区間EA内で増加および減少する場合、遷移区間EA内の複数の時点(フレーム)tyにて音色指標値Y[m]が明瞭度変数αに応じた数値(1−α)に合致し得る。以上のように音色指標値Y[m]が複数の時点tyにて明瞭度変数αに応じた数値(1−α)となる場合、境界設定部44は、複数の時点tyのうち最も後方の時点を境界時点TBとして選択する。
【0073】
第6実施形態においても、音声素片Vのうち境界時点TBの前方の適用区間Wが音声信号VOUTの生成に利用されるから、第1実施形態と同様に、発声者が口を充分に開かずに発声したような合成音を生成することが可能である。また、第6実施形態では、遷移区間EA内の音色の変化(発声者の口の開き具合の変化)に対して線形に変化する音色指標値Y[m]が算定され、利用者から指示された明瞭度変数αに応じた数値(1−α)に音色指標値Y[m]が合致する時点が境界時点TBとして設定される。したがって、第1実施形態と同様に、利用者が指定する明瞭度変数αの変化と合成音の音色変化との不整合感を低減することが可能である。具体的には、利用者が明瞭度変数αを最大値1から半分に変化させた場合には、口の開き具合を半分に変化させたように合成音の音色が変化する。
【0074】
しかも、第6実施形態では、音声素片V毎に算定された音色指標値Y[m]の時間遷移に応じて境界時点TBが設定されるから、明瞭度変数αと境界時点TBの位置との関係が事前に確定された第1実施形態から第5実施形態と比較して、利用者が指定する明瞭度変数αの変化と合成音の音色変化との不整合感が低減されるように各音声素片Vの特性に応じた適切な境界時点TBを設定できるという利点がある。また、第6実施形態では、時間軸上の複数の時点tyにて音色指標値Y[m]が明瞭度変数αに応じた数値(1−α)となる場合に、複数の時点tyのうち最も後方の時点が境界時点TBとして選択される。以上の構成では、例えば複数の時点tyのうち最も前方の時点を境界時点TBとして選択する構成と比較して、音声素片V内の多くの単位データUが単位データ群Z1として音声信号VOUTの合成に使用され、1個の単位データUを反復する単位データ群Z2の時間長は相対的に短縮される。したがって、聴感的に自然な合成音を生成できるという利点がある。
【0075】
なお、第3実施形態から第5実施形態の限界設定部42を第6実施形態に追加することも可能である。すなわち、限界設定部42が設定した限界時点TAから遷移区間EAの終点GBまでの変動区間EC内の各フレームについて音色指標値Y[m]が算定され、音色指標値Y[m]が明瞭度変数αに応じた数値(1−α)となる変動区間EC内の時点tyが境界時点TBとして選定される。
【0076】
<変形例>
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様を適宜に併合することも可能である。
【0077】
(1)明瞭度変数αと境界時点TB(境界変数β,γ)との関係を各素片データDにて指定することで音声素片V毎に個別に設定することも可能である。また、限界時点TAを指定する限界情報QCを各素片データDに含ませることで限界時点TAを音声素片V毎に個別に指定することも可能である。
【0078】
(2)第3実施形態および第4実施形態では、遷移区間EAのうち限界時点TAから状態境界GBまでの時間の割合Rを指定したが、遷移区間EAのうち音素境界GAから限界時点TAまでの時間の割合Rを指定することも可能である。
【0079】
(3)前述の各形態では単位データUの反復で伸長音(母音の定常的な伸ばし音)が生成されるから、各音声素片Vの音素区間S2のうち定常区間EBを省略することも可能である。
定常区間EBを省略した構成によれば、素片群QAのデータ量を削減できるという利点がある。ただし、単位データUの反復で生成される伸長音は実際に収録された伸長音と比較して不自然な音声となる場合があるから、定常区間EBを含むように音声素片Vの素片データDを生成し、発音期間X2が短い場合には定常区間EBを含む音声素片Vをそのまま合成音の生成に使用する前述の各形態の構成が好適である。以上の例示から理解されるように、遷移区間EAは、音声素片Vのうち音素区間S2の一部(定常区間EB以外)または全部の区間を意味する。
【0080】
(4)各音素の種別Cは適宜に変更される。例えば、相前後する母音の音素の間に無音区間が介在するように音声素片Vが生成(収録)された場合に母音を種別C1に分類すると、第4実施形態では、無音区間が過度に伸長されて不自然な合成音となり得るため、前述の例示のように母音を種別C2に分類した構成が好適である。しかし、無音区間の伸長が発生しない場合(例えば相前後する母音の音素の間に無音区間が存在しない場合)や特段の問題とならない場合には、母音の音素を種別C1に分類することも可能である。
【0081】
(5)前述の各形態では、利用者からの指示に応じて明瞭度変数αを制御したが、明瞭度変数αの設定の方法は任意である。例えば、合成音に指定されたテンポに応じて明瞭度変数αを制御することも可能である。例えば、合成音に指定されたテンポが所定の基準値(例えば120BPM(Beat Per Minute)等の一般的な数値)に設定された場合に明瞭度変数αを最大値127に設定し、基準値からテンポが離れる(例えば基準値を超えて上昇する)ほど明瞭度変数αを低下させる構成が好適である。また、例えばテンポと発音期間X2とに応じて各合成音の実際の継続長を算定し、継続長が所定の閾値(例えば音声素片Vで収録された音素の継続長の所定倍の時間)を下回る場合に明瞭度変数αを低下させることも可能である。以上のようにテンポや継続長に応じて明瞭度変数αを制御する構成によれば、早口で発音するほど明瞭度が低下するという実際の発音の傾向を合成音にて再現することが可能である。
【0082】
(6)前述の各形態のように単位データUの反復のみで生成された合成音は人工的で不自然な音声と知覚される可能性がある。そこで、実際の発声音から抽出された変動成分(伸長音のうち時間的に微細に変動する揺れ成分)を、単位データUの時系列から生成された音声に付加する構成も好適である。
【0083】
(7)第5実施形態における指標値Kは適宜に変更される。例えば、音量の指標値K1および非調和成分の指標値K2の一方のみを利用して限界時点TAを設定する構成や、指標値K1および指標値K2以外の指標値Kを利用して限界時点TAを設定する構成も採用され得る。また、指標値K1や指標値K2の算定方法も適宜に変更される。例えば、前述の例示では、音量が大きいほど指標値K1が大きい数値となり、非調和成分の強度が低いほど指標値K2が小さい数値となる場合を例示したが、音量が大きいほど指標値K1が小さい数値となり、非調和成分の強度が低いほど指標値K2が大きい数値となるように指標値K1および指標値K2を算定することも可能である。
【0084】
(8)第6実施形態では、単位データUが指定するEpRパラメータを音色の情報として利用して音色指標値Y[m]を算定したが、音声素片Vの音色を示す情報はEpRパラメータに限定されない。例えば、単位データUが示す周波数スペクトルから算定されるケプストラムをEpRの代わりに音色の情報として利用して音色指標値Y[m]を算定することも可能である。
【0085】
(9)前述の各形態では、素片群QAを記憶する記憶装置14が音声合成装置100に搭載された構成を例示したが、音声合成装置100とは独立した外部装置(例えばサーバ装置)が素片群QAを保持する構成も採用される。音声合成装置100(素片選択部34)は、例えば通信網を介して外部装置から音声素片V(素片データD)を取得して音声信号VOUTを生成する。同様に、音声合成装置100から独立した外部装置に合成情報QBを保持することも可能である。以上の説明から理解されるように、素片データDや合成情報QBを記憶する要素(前述の各形態における記憶装置14)は音声合成装置100の必須の要素ではない。
【符号の説明】
【0086】
100……音声合成装置、12……演算処理装置、14……記憶装置、22……表示装置、24……入力装置、26……放音装置、32……表示制御部、33……変数設定部、34……素片選択部、36……音声合成部、42……限界設定部、44……境界設定部、46……合成処理部、48,60……指標算定部。

【特許請求の範囲】
【請求項1】
音声波形が経時的に変化する遷移区間を含む音声素片を順次に選択する素片選択手段と、
利用者からの指示に応じて明瞭度変数を可変に設定する変数設定手段と、
前記遷移区間内に境界時点を設定する手段であって、前記明瞭度変数が第1値から所定量だけ変化した場合の前記境界時点の移動量と、前記明瞭度変数が第1値とは相違する第2値から前記所定量だけ変化した場合の前記境界時点の移動量とが相違するように、前記変数設定手段が設定した前記明瞭度変数に応じて前記境界時点の位置を可変に設定する境界設定手段と、
前記素片選択手段が選択した音声素片のうち前記境界時点の前方の区間を利用して音声信号を生成する合成処理手段と
を具備する音声合成装置。
【請求項2】
前記境界設定手段は、前記明瞭度変数と前記境界時点の位置との関係が複数の音声素片について共通するように前記明瞭度変数に応じて前記境界時点の位置を設定する
請求項1の音声合成装置。
【請求項3】
前記複数の音声素片の各々は、相異なる音素に対応する第1音素区間と第2音素区間とを含み、前記第2音素区間は前記遷移区間を含み、
前記境界設定手段は、前記明瞭度変数と前記境界時点の位置との関係が、前記音声素片のうち前記第1音素区間の音素の種別に応じて相違するように、前記明瞭度変数に応じて前記境界時点の位置を設定する
請求項1の音声合成装置。
【請求項4】
基準フレームに対する各フレームの音色の相違を示す音色指標値を前記遷移区間内の複数のフレームの各々について算定する指標算定手段を具備し、
前記境界設定手段は、前記音色指標値の時間的な遷移において音色指標値が前記明瞭度変数に応じた数値となる時点を前記境界時点に設定する
請求項1の音声合成装置。
【請求項5】
前記境界設定手段は、前記音色指標値の時間的な遷移において音色指標値が複数の時点にて前記明瞭度変数に応じた数値となる場合に、前記複数の時点のうち最も後方の時点を前記境界時点に設定する
請求項4の音声合成装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate


【公開番号】特開2013−50706(P2013−50706A)
【公開日】平成25年3月14日(2013.3.14)
【国際特許分類】
【出願番号】特願2012−148193(P2012−148193)
【出願日】平成24年7月2日(2012.7.2)
【出願人】(000004075)ヤマハ株式会社 (5,930)