音声合成装置
【課題】フレームを反復する場合でも聴感的に自然な合成音を生成する。
【解決手段】記憶装置14は、相異なる音素に対応する音素区間S1と音素区間S2とを含む音声素片Vの素片データDを音声素片V毎に記憶する。限界設定部42は、音声素片Vの音素区間S2のうち音素区間S1の音素から当該音素区間S2の音素に遷移する遷移区間EA内で当該音声素片Vの音素区間S1の音素の種別Cに応じた時点を限界時点TAとして設定する。境界設定部44は、音素区間S2のうち限界時点TAの後方に位置する可変の時点を境界時点TBとして設定する。合成処理部46は、音声素片Vを区分した複数のフレームのうち境界時点TBに対応するフレームの単位データUを反復した単位データ群Z2を、音声素片Vのうち境界時点TBの前方のフレームの各単位データUの単位データ群Z1に後続させて音声信号VOUTを生成する。
【解決手段】記憶装置14は、相異なる音素に対応する音素区間S1と音素区間S2とを含む音声素片Vの素片データDを音声素片V毎に記憶する。限界設定部42は、音声素片Vの音素区間S2のうち音素区間S1の音素から当該音素区間S2の音素に遷移する遷移区間EA内で当該音声素片Vの音素区間S1の音素の種別Cに応じた時点を限界時点TAとして設定する。境界設定部44は、音素区間S2のうち限界時点TAの後方に位置する可変の時点を境界時点TBとして設定する。合成処理部46は、音声素片Vを区分した複数のフレームのうち境界時点TBに対応するフレームの単位データUを反復した単位データ群Z2を、音声素片Vのうち境界時点TBの前方のフレームの各単位データUの単位データ群Z1に後続させて音声信号VOUTを生成する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声素片を利用して発話音や歌唱音等の音声を合成する技術に関する。
【背景技術】
【0002】
複数の音声素片を相互に連結することで所望の音声を合成する素片接続型の音声合成装置が従来から提案されている。例えば特許文献1には、複数の音素区間で構成される音声素片のうち母音の音素区間を部分的に利用することで合成音の明瞭度(口の開き具合)を制御する技術が開示されている。
【0003】
図10は、音声素片V[k−a]の波形図である。音声素片Vは、子音の音素/k/に対応する音素区間S1と母音の音素/a/に対応する音素区間S2とに区分される。音素区間S2は、音素/a/の波形が定常的に維持される定常区間EBと、音素区間S1の音素/k/が音素/a/の定常的な波形に遷移する遷移区間EAとに区分される。特許文献1の技術では、遷移区間EA内の任意の時点(以下「境界時点」という)TBが利用者からの指示に応じて設定され、音声素片Vのうち境界時点TB以前の区間にその区間の最後のフレームを反復的に連結することで所望の時間長の音声信号が生成される。以上の構成によれば、境界時点TBを遷移区間EAの始点の近傍に設定することで、発声者が口を充分に開かずに発生した音声を合成することが可能である。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特許第4265501号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
ところで、音素/a/の音声素片Vのうち音素区間S2の遷移区間EA内の前方のフレームには直前の音素区間S1の音素/k/の影響が残存する。したがって、遷移区間EAの始点の近傍に境界時点TBを設定した場合には、音素/k/の影響を含むフレームが合成音にて反復され、聴感的に不自然な音声となる可能性がある。以上の事情を考慮して、本発明は、フレームを反復する場合でも聴感的に自然な合成音を生成することを目的とする。
【課題を解決するための手段】
【0006】
以上の課題を解決するために本発明が採用する手段を説明する。なお、本発明の理解を容易にするために、以下の説明では、本発明の要素と後述の実施形態の要素との対応を括弧書で付記するが、本発明の範囲を実施形態の例示に限定する趣旨ではない。
【0007】
本発明の音声合成装置は、相異なる音素に対応する第1音素区間(例えば音素区間S1)と第1音素区間の後方の第2音素区間(例えば音素区間S2)とを含む音声素片を順次に選択する素片選択手段(例えば素片選択部34)と、素片選択手段が選択した音声素片の第2音素区間のうち第1音素区間の音素から当該第2音素区間の音素に遷移する遷移区間(例えば遷移区間EA)内で当該音声素片の第1音素区間の音素の種別に応じた時点を限界時点(例えば限界時点TA)として設定する限界設定手段(例えば限界設定部42)と、第2音素区間のうち限界時点の後方に位置する可変の時点を境界時点(例えば境界時点TB)として設定する境界設定手段(例えば境界設定部44)と、音声素片を区分した複数のフレームのうち境界時点に対応するフレームを反復した区間(例えば単位データ群Z2)を、音声素片のうち境界時点の前方の区間(例えば単位データ群Z1)に後続させて音声信号を生成する合成処理手段(例えば合成処理部46)とを具備する。以上の構成では、遷移区間内に設定された限界時点の後方に境界時点が設定される。すなわち、遷移区間のうち第1音素区間の音素の影響が過度に残存する時点は境界時点として設定されない。したがって、境界時点に対応するフレームを反復して音声信号を生成する構成にも関わらず、聴感的に自然な印象の合成音を生成できるという利点がある。また、遷移区間のうち第1音素区間の音素の影響が過度に残存する区間は第1音素区間の音素の種別に応じて相違するという傾向がある。以上の態様の音声合成装置では、遷移区間内の限界時点の位置が第1音素区間の音素の種別に応じて可変に設定されるから、第1音素区間の音素の種別に応じた適切な位置を限界時点として設定できるという利点がある。
【0008】
本発明の好適な態様において、限界設定手段は、遷移区間のうち第1音素区間の音素の種別に応じて設定された割合(例えば割合R)の時間だけ、当該遷移区間の始点から後方または当該遷移区間の終点から前方の時点を、限界時点として設定する。以上の態様では、遷移区間のうち第1音素区間の音素の種別に応じて設定された割合の時間だけ、当該遷移区間の始点から後方または終点から前方の時点が限界時点として設定されるから、各音声素片における遷移区間の時間長の長短に関わらず適切な限界時点を設定できるという利点がある。なお、以上の態様の具体例は、例えば第1実施形態として後述される。
【0009】
本発明の好適な態様において、限界設定手段は、第1音素区間の音素の種別に応じて設定された時間(例えば時間τ)だけ、遷移区間の始点から後方または当該遷移区間の終点から前方の時点を、限界時点として設定する。以上の態様では、遷移区間のうち第1音素区間の音素の種別に応じて設定された割合の時間だけ、当該遷移区間の始点から後方または終点から前方の時点が限界時点として設定されるから、各音声素片における遷移区間内の限界時点を簡易に設定できるという利点がある。なお、以上の態様の具体例は、例えば第2実施形態として後述される。
【0010】
本発明の好適な態様の音声合成装置は、遷移区間内の複数のフレームの各々について当該フレームを反復した場合の音声の自然性の指標値(例えば指標値K)を算定する指標算定手段(例えば指標算定部48)を具備し、限界設定手段は、各フレームの指標値に応じて限界時点を設定する。以上の態様では、遷移区間内の各フレームの指標値に応じて限界時点が設定されるから、音声素片の特性に応じた適切な限界時点を設定できるという利点がある。なお、以上の態様の具体例は、例えば第3実施形態として後述される。
【0011】
具体的には、指標算定手段は、遷移区間内の各フレームの音量に応じた第1指標値(例えば指標値K1)と、遷移区間内の各フレームの非調和成分の強度に応じた第2指標値(例えば指標値K2)とを指標値として算定し、限界設定手段は、遷移区間のうち、第1指標値が示す音量が所定値を上回り、かつ、第2指標値が示す非調和成分の強度が所定値を下回る時点を限界時点として設定する。以上の態様によれば、例えば第1音素区間の音素が無声子音(例えば破裂音や破擦音や摩擦音)である場合に、遷移区間内の適切な位置に限界時点を設定できるという利点がある。
【0012】
以上の各態様に係る音声合成装置は、音声合成に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)で実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働でも実現される。本発明のプログラム(例えばプログラムPGM)は、相異なる音素に対応する第1音素区間と第1音素区間の後方の第2音素区間とを含む音声素片を順次に選択する素片選択処理と、素片選択処理で選択した音声素片の第2音素区間のうち第1音素区間の音素から当該第2音素区間の音素に遷移する遷移区間内で当該音声素片の第1音素区間の音素の種別に応じた時点を限界時点として設定する限界設定処理と、第2音素区間のうち限界時点の後方に位置する可変の時点を境界時点として設定する境界設定処理と、音声素片を区分した複数のフレームのうち境界時点に対応するフレームを反復した区間を、音声素片のうち境界時点の前方の区間に後続させて音声信号を生成する合成処理とをコンピュータに実行させる。以上のプログラムによれば、本発明の音声合成装置と同様の作用および効果が実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。
【図面の簡単な説明】
【0013】
【図1】本発明の第1実施形態に係る音声合成装置のブロック図である。
【図2】記憶装置に格納された素片群の模式図である。
【図3】音素の分類の説明図である。
【図4】音声素片の波形と単位データとの関係の説明図である。
【図5】編集画面の模式図である。
【図6】音声合成部のブロック図である。
【図7】第2実施形態における音声素片の波形と単位データとの関係の説明図である。
【図8】第3実施形態における音声合成部のブロック図である。
【図9】指標値の説明図である。
【図10】背景技術の説明図である。
【発明を実施するための形態】
【0014】
<第1実施形態>
図1は、本発明の第1実施形態に係る音声合成装置100のブロック図である。音声合成装置100は、発話音や歌唱音等の音声を素片接続型の音声合成処理で生成する信号処理装置であり、図1に示すように、演算処理装置12と記憶装置14と表示装置22と入力装置24と放音装置26とを具備するコンピュータシステムで実現される。
【0015】
演算処理装置12(CPU)は、記憶装置14に格納されたプログラムPGMの実行で、合成音の波形を表す音声信号VOUTを生成するための複数の機能(表示制御部32,素片選択部34,音声合成部36)を実現する。なお、演算処理装置12の各機能を複数の集積回路に分散した構成や、専用の電子回路(DSP)が一部の機能を実現する構成も採用され得る。
【0016】
表示装置22(例えば液晶表示装置)は、演算処理装置12から指示された画像を表示する。入力装置24は、利用者からの指示を受付ける機器(例えばマウスやキーボード)である。放音装置26(例えばヘッドホンやスピーカ)は、演算処理装置12が生成した音声信号VOUTに応じた音波を放射する。
【0017】
記憶装置14は、演算処理装置12が実行するプログラムPGMや演算処理装置12が使用する各種のデータ(素片群QA,合成情報QB,限界情報QC)を記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置14として採用される。
【0018】
記憶装置14に格納される素片群QAは、図2に示すように、相異なる音声素片Vに対応する複数の素片データDの集合(音声合成ライブラリ)である。第1実施形態における1個の音声素片Vは、相異なる音素に対応する2個の音素区間S(S1,S2)を連結したダイフォン(音素連鎖)である。音素区間S2は音素区間S1の後方に位置する。なお、以下では便宜的に無音を子音の音素として説明する。
【0019】
図2に示すように、各素片データDは、分類情報DAと区間情報DBと複数の単位データUの時系列とを含んで構成される。複数の単位データUの各々は、音声素片V(音素区間S1および音素区間S2)を時間軸上で区分した各フレームの音声の周波数スペクトルを指定する。なお、各単位データUの形式は任意である。例えば、周波数スペクトルを直接に表現するデータ(周波数毎の強度の系列)のほか、周波数スペクトルから抽出された複数種の特徴量を指定するデータ(周波数スペクトルを近似的に再現可能なデータ)が単位データUとして利用される。
【0020】
分類情報DAは、音声素片Vを構成する各音素の分類を指定する。例えば図3に示すように、母音(/a/,/i/,/u/),破裂音(/t/,/k/,/p/),破擦音(/ts/),鼻音(/m/,/n/),流音(/r/),摩擦音(/s/,/f/),半母音(/w/,/y/),無音(/Sil/)等の分類が、音声素片Vの音素区間S1および音素区間S2の各々について分類情報DAで指定される。
【0021】
図3に示すように、各音素は、複数の種別C(C1〜C3)に区分される。具体的には、子音の音素は、有声性の高低に応じて各種別Cに区分される。例えば日本語の音素の場合、半母音(/w/,/y/)や鼻音(/m/,/n/)や流音(/r/)等の調和成分が豊富な音素、または、有声摩擦音(/z/)や有声破裂音(/d/)等の非調和成分が豊富な音素のように、有声性が高い子音(例えば有声子音)は種別C1に分類され、破裂音(/t/,/k/,/p/)や破擦音(/ts/)や摩擦音(/s/,/f/)等の無声子音のように有声性が低い子音は種別C2に分類される。無音(/Sil/)は種別C3に分類される。また、母音(/a/,/i/,/u/)は種別C2に分類される。
【0022】
図4は、1個の音声素片Vの波形図である。図4では、音素/k/の音素区間S1に音素/a/の音素区間S2が後続する音声素片V[k−a]の波形が例示されている。図4の音素境界GAは、音素区間S1と音素区間S2との境界を意味する。母音の音素区間S2は、状態境界GBを挟んで遷移区間EAと定常区間EBとに区分される。記憶装置14に記憶された素片データDの区間情報DBは、音声素片V内の音素境界GAと状態境界GBとを指定する。
【0023】
図4の定常区間EBは、音素区間S2に対応する音素/a/の波形が定常的に維持される区間である。遷移区間EAは、区間情報DBで指定される音素境界GAから状態境界GBまでの区間(音素区間S1と定常区間EBとの間の区間)であり、音素区間S1の音素/k/から音素区間S2の音素に波形が遷移する区間である。具体的には、発声者の口の形状が、音素区間S1の音素/k/に対応する形状から音素境界GAで変化し始め、遷移区間EAの始点から終点にかけて音素区間S2の音素/a/に対応する形状に経時的に変化し、状態境界GBにて音素/a/に対応する形状に到達して以後は定常に維持される。すなわち、遷移区間EA内では、音素区間S1の音素/k/の影響が経時的に減少するとともに音素区間S2の音素/a/の影響が経時的に増加して定常状態に到達する。以上の説明から理解されるように、遷移区間EAのうち先頭(音素境界GA)の近傍の区間には直前の音素区間S1の音素/k/の影響が残存する。
【0024】
記憶装置14に記憶される合成情報(スコアデータ)QBは、図1に示すように、合成音の発音文字X1と発音期間X2と音高(ピッチ)X3と明瞭度X4とを時系列に指定する。発音文字X1は、例えば歌唱音を合成する場合の歌詞の文字列である。明瞭度X4は、合成音が聴感的に明確と知覚される程度を意味する変数であり、0以上かつ1以下の範囲内で設定される。発声者が発声時に口を大きく開くほど発声音は聴感的に明瞭と知覚される。したがって、明瞭度X4は、合成音の仮想的な発声者の口の開き具合を示す変数とも表現され得る。
【0025】
図1の演算処理装置12の表示制御部32は、合成情報QBの生成および編集のために利用者が視認する図5の編集画面50を表示装置22に表示させる。編集画面50は、第1領域51と第2領域52とに区分される。第1領域51には、時間軸(横軸)と音高軸(縦軸)とが設定され、入力装置24に対する利用者からの指示に応じて音指示子54が配置される。各音指示子54の音高軸上の位置に応じて合成情報QBの音高X3が設定され、時間軸上の位置およびサイズに応じて発音期間X2が設定される。また、利用者が各音指示子54に指定した文字が合成情報QBの発音文字X1として設定される。
【0026】
第2領域52には、第1領域51と共通の時間軸のもとで明瞭度X4の時系列が表示(棒グラフ表示)される。利用者は、入力装置24を適宜に操作することで任意の音指示子54の明瞭度X4を調整する。合成情報QB内の明瞭度X4は第2領域52に対する指示に応じて設定される。
【0027】
図1の素片選択部34は、合成情報QBが時系列に指定する各発音文字X1に対応した音声素片Vを素片群QAから順次に選択する。音声合成部36は、素片選択部34が順次に選択する音声素片Vの素片データDを利用して音声信号VOUTを生成する。概略的には、音声合成部36は、合成情報QBの発音期間X2に応じて素片データDを伸縮し、伸縮後の各単位データUが示す周波数スペクトルを時間波形に変換したうえで合成情報QBの音高X3に調整して相互に連結することで音声信号VOUTを生成する。
【0028】
図6は、音声合成部36のブロック図である。図6に示すように、第1実施形態の音声合成部36は、限界設定部42と境界設定部44と合成処理部46とを含んで構成される。限界設定部42は、素片選択部34が選択した音声素片Vの音素区間S2が母音や摩擦音や鼻音等の時間的に持続可能な音素に該当する場合に、図4に示すように、音声素片Vの音素区間S2のうち区間情報DBが示す音素境界GA(遷移区間EAの始点)から区間情報DBが示す状態境界GB(遷移区間EAの終点)までの途中の時点を限界時点TAとして設定する。限界時点TAは、遷移区間EAのうち直前の音素区間S1の音素の影響が充分に低下すると推定される時点である。
【0029】
図6の境界設定部44は、図4に示すように、素片選択部34が選択した音声素片Vの音素区間S2内の遷移区間EAのうち限界設定部42が設定した限界時点TAから区間情報DBが示す状態境界GBまでの区間内に境界時点TBを設定する。境界時点TBの時間軸上の位置は合成情報QBの明瞭度X4に応じて可変に設定される。具体的には、明瞭度X4が最小値0である場合には限界時点TAが境界時点TBとして設定され、明瞭度X4が大きいほど限界時点TAから後方に離れた時点(状態境界GBに近い時点)が境界時点TBとして設定され、明瞭度X4が最大値1である場合には、区間情報DBが示す状態境界GBが境界時点TBとして設定される。音声素片Vのうち境界設定部44が設定した境界時点TBの前方の区間(音素区間S1の始点から境界時点TBまでの区間)Wを以下では「適用区間」と表記する。
【0030】
図6の合成処理部46は、素片選択部34が選択した音声素片Vの適用区間Wを利用して音声信号VOUTを生成する。具体的には、合成処理部46は、図4に示すように、素片データDのうち適用区間W内の単位データUで構成される単位データ群Z1に、適用区間W内の最後に位置する1個の単位データU(図4の斜線部)を反復して配置した単位データ群Z2を連結する。単位データ群Z2を構成する単位データUの個数は、単位データ群Z1と単位データ群Z2との合計長が発音期間X2に応じた目標長となるように可変に設定される。
【0031】
合成処理部46は、単位データ群Z1および単位データ群Z2の各単位データUが示す周波数スペクトルを時間波形に変換するとともに合成情報QBが指定する音高X3に調整し、相前後するフレームで相互に連結することで音声信号VOUTを生成する。なお、明瞭度X4が最大値1に設定され、かつ、発音期間X2に応じた目標長が所定値(例えば音声素片Vの時間長)を下回る場合、合成処理部46は、素片データDの単位データU(定常区間EBの単位データU)を後方から除去して目標長に調整することで音声信号VOUTを生成する(すなわち、単位データ群Z2の付加は実行しない)。
【0032】
以上のように、音素区間S2のうち音素の波形が定常状態となる定常区間EB以前(すなわち発声者の口が完全に開く以前)の遷移区間EA内で明瞭度X4に応じた位置に境界時点TBが設定されるから、発声者が口を充分に開かずに発声したような合成音を生成することが可能である。
【0033】
前述のように、遷移区間EA内の前方の区間には直前の音素区間S1の音素の影響が残存するから、遷移区間EA内の極端に前方の位置に境界時点TBが設定されると、音素区間S1の音素の影響を含む単位データUが単位データ群Z2にて反復され、合成音が不自然な音声となる可能性がある。第1実施形態では、境界時点TBの位置が、音素境界GAの後方に位置する限界時点TA以降に制約されるから、音素区間S2のうち音素区間S1内の音素の影響が充分に低減された単位データUが単位データ群Z2として反復される。したがって、音素区間S1内の音素の影響を低減した聴感的に自然な音声を合成できるという利点がある。
【0034】
ところで、音素区間S2内の複数の単位データUのうち単位データ群Z2として反復させた場合でも合成音が聴感的に不自然な音声とならない最先の単位データUの位置(すなわち、音素区間S2内で音素区間S1の音素の影響が充分に低減される最初の単位データUの位置)は、音素区間S1の音素の種別Cに応じて相違するという傾向がある。例えば、音素区間S1の音素が、有声性が高い半母音等の音素の種別C1に属する場合、音素区間S2のうち音素境界GAの近傍の単位データUを反復させたとしても合成音はそれほど不自然な音声にはならない。他方、音素区間S1の音素が、非調和成分(雑音成分)が豊富で振幅が小さい破裂音等の音素の種別C2に属する場合、音素区間S2のうち音素境界GAの近傍の単位データUを反復させると、音素区間S1の音素に由来する合成音の不自然さが顕著に知覚される。以上の傾向を考慮して、第1実施形態では、音素区間S2内の遷移区間EAに対する限界時点TAの位置を直前の音素区間S1の音素の種別Cに応じて変化させる。
【0035】
図1に示すように、記憶装置14には、限界時点TAの位置を規定する限界情報QCが記憶される。第1実施形態の限界情報QCは、区間情報DBが示す音素境界GA(遷移区間EAの始点)から限界時点TAまでの時間長が遷移区間EAの全体の時間に占める割合R(R1〜R3)を音素の種別C(C1〜C3)毎に指定する。割合R1〜R3は0以上1以下の範囲内の数値である。限界設定部42は、素片選択部34が選択した音声素片Vのうち音素区間S2の遷移区間EA内で限界情報QCに応じた時点を限界時点TAとして設定する。
【0036】
具体的には、音声素片Vの音素区間S1が種別C1の音素(有声性が高い子音)に該当する場合、限界設定部42は、限界情報QCが種別C1について指定する割合R1に応じて限界時点TAを設定する。すなわち、限界設定部42は、図4に示すように、区間情報DBが指定する音素境界GAから遷移区間EAのR1倍の時間(R1×EA)だけ後方の時点を限界時点TAとして設定する。同様に、音素区間S1が種別C2の音素(無声子音または母音)に該当する場合、限界設定部42は、音素境界GAから遷移区間EAのR2倍の時間(R2×EA)だけ後方の時点を限界時点TAとして設定する。また、音素区間S1が種別C3の音素(無音)に該当する場合、限界設定部42は、音素境界GAから遷移区間EAのR3倍の時間(R3×EA)だけ後方の時点を限界時点TAとして設定する。なお、音素区間S1の種別情報Cは、素片データDの分類情報DAから特定される。
【0037】
音素区間S2内の複数の単位データUのうち、その反復により生成された合成音が音素区間S1の音素に影響された不自然な音声とならない最先の単位データUの位置を指定するように、限界情報QCの各割合Rは音素区間S1の音素の種別C毎に実験的または統計的に選定される。すなわち、音素区間S2内の複数の単位データUのうち音素区間S1の音素の影響が充分に低減される最先の単位データUの位置を指定するように種別C毎の割合Rが選定される。
【0038】
例えば、音素区間S1の音素が種別C1に属する場合には音素区間S2内の音素境界GAの近傍の単位データUを反復させても合成音はそれほど不自然にならないが、音素区間S1の音素が種別C2に属する場合に音素区間S2の音素境界GAの近傍の単位データUを反復させると音素区間S1の音素に由来する合成音の不自然さが顕在化するという傾向を考慮すると、割合R1は割合R2を下回る数値に設定される。したがって、音素区間S2の遷移区間EAの時間長が共通する場合、音素区間S1の音素が種別C2に属する場合の限界時点TAは、音素区間S1の音素が種別C1に属する場合の限界時点TAよりも時間的に遅い時点となる。また、種別C2に対応する割合R2は、種別C3(無音)に対応する割合R3を下回る数値に設定される。具体的には、割合R1は0.2(20%)程度に設定され、割合R2は0.39(39%)程度に設定され、割合R3は0.5(50%)程度に設定される。
【0039】
音素区間S1の音素に由来する合成音の不自然さを抑制するために、全部の音素について、音素境界GAから充分に後方の時点を限界時点TAとして選定した場合、合成音の明瞭度(口の開き具合)を充分に低下させることができない。すなわち、合成音の明瞭度の変化幅を充分に確保できない。他方、合成音の明瞭度を充分に低下させるために、全部の音素について、音素境界GAの近傍の時点を限界時点TAとして選定した場合、音素区間S1の音素に起因して合成音が不自然な音声となる。第1実施形態では、音素区間S2内の遷移区間EAに対する限界時点TAの位置が直前の音素区間S1の音素の種別Cに応じて設定されるから、合成音の明瞭度の変化幅を充分に確保すること(明瞭度を充分に低下させること)と音素区間S1の音素に起因した合成音の不自然さを低減することとを両立できるという利点がある。
【0040】
<第2実施形態>
本発明の第2実施形態を以下に説明する。なお、以下に例示する各態様において作用や機能が第1実施形態と同等である要素については、以上の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
【0041】
第1実施形態の限界情報QC(割合R)は、遷移区間EAに対する限界時点TAの相対的な位置を規定する。他方、第2実施形態の限界情報QCは、遷移区間EAの始点から限界時点TAまでの時間τ(τ1〜τ3)を指定する。例えば、種別C1に対応する時間τ1は種別C2に対応する時間τ2を下回る時間に設定され、種別C2に対応する時間τ2は種別C3に対応する時間τ3以下の時間に設定される。時間τは、例えばフレーム数で規定される。例えば、時間τ1はフレームの2個分程度の時間に設定され、時間τ2および時間τ3はフレームの5個分程度の時間に設定される。
【0042】
図7に示すように、音声素片Vの音素区間S1が種別C1の音素(有声子音)に該当する場合、限界設定部42は、区間情報DBが指定する音素境界GA(遷移区間EA)から、限界情報QCが種別C1について指定する時間τ1だけ後方の時点を限界時点TAとして設定する。同様に、音素区間S1が種別C2の音素(無声子音または母音)に該当する場合には音素境界GAから時間τ2だけ後方の時点が限界時点TAとして設定され、音素区間S1が種別C3の音素(無音)に該当する場合には音素境界GAから時間τ3だけ後方の時点が限界時点TAとして設定される。
【0043】
第2実施形態においても第1実施形態と同様の効果が実現される。なお、第2実施形態の限界情報QCは、音素境界GAから限界時点TAまでの絶対的な時間τを指定するから、遷移区間EA内での限界時点TAの位置が適切か否かは遷移区間EAの時間長に依存する。すなわち、遷移区間EAの時間長によっては限界時点TAが適切な位置でない可能性もある。他方、第1実施形態では、遷移区間EAに対する限界時点TAの相対的な位置が限界情報QCで指定されるから、遷移区間EAの時間長に関わらず、限界時点TAを種別C毎の適切な位置に設定できるという利点がある。もっとも、遷移区間EAの時間長が各種別C内の音声素片Vの間で略同等となるように音声素片Vが収録されることを前提とすれば、第1実施形態によれば、限界時点TAを簡易かつ安定的に設定できるという利点がある。
【0044】
<第3実施形態>
第1実施形態および第2実施形態では、記憶装置14に事前に記憶された限界情報QCを利用して限界設定部42が遷移区間EA内に限界時点TAを設定した。第3実施形態では、音声素片Vの音響特性を解析した結果を利用して限界設定部42が限界時点TAを設定する。
【0045】
図8は、第3実施形態における音声合成部36のブロック図である。図8に示すように、第3実施形態の音声合成部36は、第1実施形態の音声合成部36に指標算定部48を追加した構成である。指標算定部48は、素片選択部34が選択した音声素片Vの音素区間S2のうち遷移区間EA内の複数のフレームの各々について、そのフレームの1個の単位データUを反復することで生成される合成音の聴感的な自然性の尺度となる指標値Kを算定する。
【0046】
1個の単位データUを反復した場合に合成音が聴感的に不自然な音声となる典型的なフレームは、有声音と比較して音量が小さいフレームや、調和成分(基音成分および各倍音成分)に対する非調和成分の強度が高いフレームである。具体的には、破裂音や破擦音等の音素の音素区間S1の直後に位置する遷移区間EA内の前方のフレームの単位データUを反復した場合に合成音は聴感的に不自然な音声となる。以上の傾向を考慮して、指標算定部48は、各フレームの音量に関する指標値K1と、各フレームの非調和成分の強度に関する指標値K2とを、素片選択部34が選択した音声素片Vの遷移区間EA内のフレーム毎に指標値Kとして算定する。
【0047】
各フレームの指標値K1は、例えば、所定の音量A0に対するそのフレームの音量Aの比(K1=A/A0)として算定される。所定の音量A0は、例えば遷移区間EA内の最後のフレームの音量(遷移区間EA内の最大値である可能性が高い)である。したがって、遷移区間EA内で音量Aが大きいフレーム(すなわち、単位データUを反復した合成音が聴感的に自然な音声となる可能性が高いフレーム)ほど、指標値K1は大きい数値となる。
【0048】
各フレームの指標値K2は、そのフレームの音声成分から非調和成分を低減または除去した場合の平均パワーPSに対するそのフレームの平均パワーPの比(K2=P/PS)として算定される。図9には、遷移区間EA内の1個のフレームの単位データUで指定された周波数スペクトルSP1が図示されている。周波数スペクトルSP1は、各調波周波数Fn(基本周波数および各倍音周波数)にて強度がピークとなる調和成分に加えて各調波周波数の間に存在する非調和成分を含んで構成される。
【0049】
図9には、周波数スペクトルSP1から非調和成分を除去した周波数スペクトルSP2(斜線部)が併記されている。周波数スペクトルSP2は、周波数スペクトルSP1の各調波周波数Fnに所定の調波成分Hを配置し、各調波成分Hの強度を周波数スペクトルSP1の包絡線ENVに合致するように調整したスペクトルである。指標算定部48は、周波数スペクトルSP2の平均パワーPSに対する周波数スペクトルSP1の平均パワーPの比を指標値K2としてフレーム毎に算定する。したがって、調和成分に対する非調和成分の強度が低いフレーム(すなわち、単位データUを反復した合成音が聴感的に自然な音声となる可能性が高いフレーム)ほど、指標値K2は小さい数値となる。
【0050】
第3実施形態の限界設定部42は、遷移区間EA内の各フレームの指標値K(K1,K2)に応じて限界時点TAを設定する。すなわち、限界設定部42は、遷移区間EA内の複数のフレームのうち指標値Kが示す合成音の自然性が目標値を上回る最先のフレームの時点を限界時点TAとして設定する。
【0051】
具体的には、指標算定部48は、遷移区間EAの先頭から順次にフレームを選択してそのフレームの指標値K1と指標値K2とを算定し、限界設定部42は、指標値K1が所定の閾値Kth1を上回るか否か(すなわち音量が目標値を上回るか否か)および指標値K2が所定の閾値Kth2を下回るか否か(すなわち調和成分に対する非調和成分の強度が目標値を下回るか否か)を判定する。限界設定部42は、指標値K1の判定と指標値K2の判定との双方の結果が肯定となる最先のフレームの時点を限界時点TAとして設定する。すなわち、調和成分に対する非調和成分の強度が充分に低くて音量が大きい時点(単位データUの反復で生成される合成音が聴感的に自然な音声となる時点)が限界時点TAとして設定される。したがって、第3実施形態においても結果的には、第1実施形態や第2実施形態と同様に、音素区間S1の音素の種別Cに応じた時点が限界時点TAとして設定される。例えば、音素区間S1の音素が種別C2に属する場合の限界時点TAは、音素区間S1の音素が種別C1に属する場合の限界時点TAよりも時間的に遅い時点となる。境界設定部44や合成処理部46の動作は第1実施形態と同様である。
【0052】
第3実施形態においても第1実施形態と同様の効果が実現される。また、第3実施形態では、遷移区間EA内のフレーム毎に算定された指標値K(K1,K2)に応じて限界時点TAが設定されるから、限界時点TAを規定する限界情報QCが事前に用意された第1実施形態や第2実施形態と比較して、素片データDの特性に応じた適切な限界時点TAを設定できるという利点がある。
【0053】
<変形例>
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様を適宜に併合することも可能である。
【0054】
(1)限界時点TAを指定する限界情報QCを各素片データDに含ませることで限界時点TAを音声素片V毎に指定することも可能である。音声素片V毎の適切な限界時点TAは、例えば音声素片Vの音響を聴取するともに音声素片Vの波形を視認しながら例えば素片群QAの作成者が手動で指定する。第1実施形態で例示した割合Rや第2実施形態で例示した時間τが限界情報QCとして好適である。
【0055】
(2)第1実施形態では、音素境界GAから限界時点TAまでの時間が遷移区間EAに占める割合Rを限界情報QCが指定したが、区間情報DBが示す状態境界GB(遷移区間EAの終点)から前方の限界時点TAまでの時間が遷移区間EAに占める割合Rを限界情報QCが種別C毎に指定する構成も採用される。限界設定部42は、遷移区間EAのうち音素区間S1の音素の種別Cについて限界情報QCが指定する割合Rの時間だけ状態境界GBから前方(手前)の時点を限界時点TAとして設定する。同様に、第2実施形態では、状態境界GBから前方の限界時点TAまでの時間τを限界情報QCが種別C毎に指定する構成も採用される。限界設定部42は、音素区間S1の音素の種別Cについて限界情報QCが指定する時間τだけ状態境界GBから前方の時点を限界時点TAとして設定する。
【0056】
(3)前述の各形態では単位データUの反復で伸長音(母音の定常的な伸ばし音)が生成されるから、各音声素片Vの音素区間S2のうち定常区間EBを省略することも可能である。定常区間EBを省略した構成によれば、素片群QAのデータ量を削減できるという利点がある。ただし、単位データUの反復で生成される伸長音は実際に収録された伸長音と比較して不自然な音声となる場合があるから、定常区間EBを含むように音声素片Vの素片データDを生成し、発音期間X2が短い場合には定常区間EBを含む音声素片Vをそのまま合成音の生成に使用する前述の各形態の構成が好適である。以上の例示から理解されるように、遷移区間EAは、音声素片Vのうち音素区間S2の一部(定常区間EB以外)または全部の区間を意味する。
【0057】
(4)各音素の種別Cは適宜に変更される。例えば、相前後する母音の音素の間に無音区間が介在するように音声素片Vが生成(収録)された場合に母音を種別C1に分類すると、無音区間が過度に伸長されて不自然な合成音となり得ることを考慮して、前述の各形態では母音を種別C2に分類した。しかし、無音区間の伸長が発生しない場合(例えば相前後する母音の音素の間に無音区間が存在しない場合)や特段の問題とならない場合には、母音の音素を種別C1に分類することも可能である。
【0058】
(5)前述の各形態のように単位データUの反復のみで生成された合成音は人工的で不自然な音声と知覚される可能性がある。そこで、実際の発声音から抽出された変動成分(伸長音のうち時間的に微細に変動する揺れ成分)を、単位データUの時系列から生成された音声に付加する構成も好適である。
【0059】
(6)第3実施形態における指標値Kは適宜に変更される。例えば、音量の指標値K1および非調和成分の指標値K2の一方のみを利用して限界時点TAを設定する構成や、指標値K1および指標値K2以外の指標値Kを利用して限界時点TAを設定する構成も採用され得る。また、指標値K1や指標値K2の算定方法も適宜に変更される。例えば、前述の例示では、音量が大きいほど指標値K1が大きい数値となり、非調和成分の強度が低いほど指標値K2が小さい数値となる場合を例示したが、音量が大きいほど指標値K1が小さい数値となり、非調和成分の強度が低いほど指標値K2が大きい数値となるように指標値K1および指標値K2を算定することも可能である。
【0060】
(7)第3実施形態は、音声素片Vの限界時点TAを設定する音声処理装置としても実現され得る。音声処理装置は、音声素片Vの遷移区間EA内の複数のフレームの各々について当該フレームを反復した場合の音声の自然性の指標値K(K1,K2)を算定する指標算定部48と、指標算定部48が算定した各フレームの指標値Kに応じて遷移区間EA内の限界時点TAを設定する限界設定部42とを具備する。
【0061】
(8)前述の各形態では、素片群QAを記憶する記憶装置14が音声合成装置100に搭載された構成を例示したが、音声合成装置100とは独立した外部装置(例えばサーバ装置)が素片群QAを保持する構成も採用される。音声合成装置100(素片選択部34)は、例えば通信網を介して外部装置から音声素片V(素片データD)を取得して音声信号VOUTを生成する。同様に、音声合成装置100から独立した外部装置に合成情報QBを保持することも可能である。以上の説明から理解されるように、素片データDや合成情報QBを記憶する要素(前述の各形態における記憶装置14)は音声合成装置100の必須の要素ではない。
【符号の説明】
【0062】
100……音声合成装置、12……演算処理装置、14……記憶装置、22……表示装置、24……入力装置、26……放音装置、32……表示制御部、34……素片選択部、36……音声合成部、42……限界設定部、44……境界設定部、46……合成処理部、48……指標算定部。
【技術分野】
【0001】
本発明は、音声素片を利用して発話音や歌唱音等の音声を合成する技術に関する。
【背景技術】
【0002】
複数の音声素片を相互に連結することで所望の音声を合成する素片接続型の音声合成装置が従来から提案されている。例えば特許文献1には、複数の音素区間で構成される音声素片のうち母音の音素区間を部分的に利用することで合成音の明瞭度(口の開き具合)を制御する技術が開示されている。
【0003】
図10は、音声素片V[k−a]の波形図である。音声素片Vは、子音の音素/k/に対応する音素区間S1と母音の音素/a/に対応する音素区間S2とに区分される。音素区間S2は、音素/a/の波形が定常的に維持される定常区間EBと、音素区間S1の音素/k/が音素/a/の定常的な波形に遷移する遷移区間EAとに区分される。特許文献1の技術では、遷移区間EA内の任意の時点(以下「境界時点」という)TBが利用者からの指示に応じて設定され、音声素片Vのうち境界時点TB以前の区間にその区間の最後のフレームを反復的に連結することで所望の時間長の音声信号が生成される。以上の構成によれば、境界時点TBを遷移区間EAの始点の近傍に設定することで、発声者が口を充分に開かずに発生した音声を合成することが可能である。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特許第4265501号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
ところで、音素/a/の音声素片Vのうち音素区間S2の遷移区間EA内の前方のフレームには直前の音素区間S1の音素/k/の影響が残存する。したがって、遷移区間EAの始点の近傍に境界時点TBを設定した場合には、音素/k/の影響を含むフレームが合成音にて反復され、聴感的に不自然な音声となる可能性がある。以上の事情を考慮して、本発明は、フレームを反復する場合でも聴感的に自然な合成音を生成することを目的とする。
【課題を解決するための手段】
【0006】
以上の課題を解決するために本発明が採用する手段を説明する。なお、本発明の理解を容易にするために、以下の説明では、本発明の要素と後述の実施形態の要素との対応を括弧書で付記するが、本発明の範囲を実施形態の例示に限定する趣旨ではない。
【0007】
本発明の音声合成装置は、相異なる音素に対応する第1音素区間(例えば音素区間S1)と第1音素区間の後方の第2音素区間(例えば音素区間S2)とを含む音声素片を順次に選択する素片選択手段(例えば素片選択部34)と、素片選択手段が選択した音声素片の第2音素区間のうち第1音素区間の音素から当該第2音素区間の音素に遷移する遷移区間(例えば遷移区間EA)内で当該音声素片の第1音素区間の音素の種別に応じた時点を限界時点(例えば限界時点TA)として設定する限界設定手段(例えば限界設定部42)と、第2音素区間のうち限界時点の後方に位置する可変の時点を境界時点(例えば境界時点TB)として設定する境界設定手段(例えば境界設定部44)と、音声素片を区分した複数のフレームのうち境界時点に対応するフレームを反復した区間(例えば単位データ群Z2)を、音声素片のうち境界時点の前方の区間(例えば単位データ群Z1)に後続させて音声信号を生成する合成処理手段(例えば合成処理部46)とを具備する。以上の構成では、遷移区間内に設定された限界時点の後方に境界時点が設定される。すなわち、遷移区間のうち第1音素区間の音素の影響が過度に残存する時点は境界時点として設定されない。したがって、境界時点に対応するフレームを反復して音声信号を生成する構成にも関わらず、聴感的に自然な印象の合成音を生成できるという利点がある。また、遷移区間のうち第1音素区間の音素の影響が過度に残存する区間は第1音素区間の音素の種別に応じて相違するという傾向がある。以上の態様の音声合成装置では、遷移区間内の限界時点の位置が第1音素区間の音素の種別に応じて可変に設定されるから、第1音素区間の音素の種別に応じた適切な位置を限界時点として設定できるという利点がある。
【0008】
本発明の好適な態様において、限界設定手段は、遷移区間のうち第1音素区間の音素の種別に応じて設定された割合(例えば割合R)の時間だけ、当該遷移区間の始点から後方または当該遷移区間の終点から前方の時点を、限界時点として設定する。以上の態様では、遷移区間のうち第1音素区間の音素の種別に応じて設定された割合の時間だけ、当該遷移区間の始点から後方または終点から前方の時点が限界時点として設定されるから、各音声素片における遷移区間の時間長の長短に関わらず適切な限界時点を設定できるという利点がある。なお、以上の態様の具体例は、例えば第1実施形態として後述される。
【0009】
本発明の好適な態様において、限界設定手段は、第1音素区間の音素の種別に応じて設定された時間(例えば時間τ)だけ、遷移区間の始点から後方または当該遷移区間の終点から前方の時点を、限界時点として設定する。以上の態様では、遷移区間のうち第1音素区間の音素の種別に応じて設定された割合の時間だけ、当該遷移区間の始点から後方または終点から前方の時点が限界時点として設定されるから、各音声素片における遷移区間内の限界時点を簡易に設定できるという利点がある。なお、以上の態様の具体例は、例えば第2実施形態として後述される。
【0010】
本発明の好適な態様の音声合成装置は、遷移区間内の複数のフレームの各々について当該フレームを反復した場合の音声の自然性の指標値(例えば指標値K)を算定する指標算定手段(例えば指標算定部48)を具備し、限界設定手段は、各フレームの指標値に応じて限界時点を設定する。以上の態様では、遷移区間内の各フレームの指標値に応じて限界時点が設定されるから、音声素片の特性に応じた適切な限界時点を設定できるという利点がある。なお、以上の態様の具体例は、例えば第3実施形態として後述される。
【0011】
具体的には、指標算定手段は、遷移区間内の各フレームの音量に応じた第1指標値(例えば指標値K1)と、遷移区間内の各フレームの非調和成分の強度に応じた第2指標値(例えば指標値K2)とを指標値として算定し、限界設定手段は、遷移区間のうち、第1指標値が示す音量が所定値を上回り、かつ、第2指標値が示す非調和成分の強度が所定値を下回る時点を限界時点として設定する。以上の態様によれば、例えば第1音素区間の音素が無声子音(例えば破裂音や破擦音や摩擦音)である場合に、遷移区間内の適切な位置に限界時点を設定できるという利点がある。
【0012】
以上の各態様に係る音声合成装置は、音声合成に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)で実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働でも実現される。本発明のプログラム(例えばプログラムPGM)は、相異なる音素に対応する第1音素区間と第1音素区間の後方の第2音素区間とを含む音声素片を順次に選択する素片選択処理と、素片選択処理で選択した音声素片の第2音素区間のうち第1音素区間の音素から当該第2音素区間の音素に遷移する遷移区間内で当該音声素片の第1音素区間の音素の種別に応じた時点を限界時点として設定する限界設定処理と、第2音素区間のうち限界時点の後方に位置する可変の時点を境界時点として設定する境界設定処理と、音声素片を区分した複数のフレームのうち境界時点に対応するフレームを反復した区間を、音声素片のうち境界時点の前方の区間に後続させて音声信号を生成する合成処理とをコンピュータに実行させる。以上のプログラムによれば、本発明の音声合成装置と同様の作用および効果が実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。
【図面の簡単な説明】
【0013】
【図1】本発明の第1実施形態に係る音声合成装置のブロック図である。
【図2】記憶装置に格納された素片群の模式図である。
【図3】音素の分類の説明図である。
【図4】音声素片の波形と単位データとの関係の説明図である。
【図5】編集画面の模式図である。
【図6】音声合成部のブロック図である。
【図7】第2実施形態における音声素片の波形と単位データとの関係の説明図である。
【図8】第3実施形態における音声合成部のブロック図である。
【図9】指標値の説明図である。
【図10】背景技術の説明図である。
【発明を実施するための形態】
【0014】
<第1実施形態>
図1は、本発明の第1実施形態に係る音声合成装置100のブロック図である。音声合成装置100は、発話音や歌唱音等の音声を素片接続型の音声合成処理で生成する信号処理装置であり、図1に示すように、演算処理装置12と記憶装置14と表示装置22と入力装置24と放音装置26とを具備するコンピュータシステムで実現される。
【0015】
演算処理装置12(CPU)は、記憶装置14に格納されたプログラムPGMの実行で、合成音の波形を表す音声信号VOUTを生成するための複数の機能(表示制御部32,素片選択部34,音声合成部36)を実現する。なお、演算処理装置12の各機能を複数の集積回路に分散した構成や、専用の電子回路(DSP)が一部の機能を実現する構成も採用され得る。
【0016】
表示装置22(例えば液晶表示装置)は、演算処理装置12から指示された画像を表示する。入力装置24は、利用者からの指示を受付ける機器(例えばマウスやキーボード)である。放音装置26(例えばヘッドホンやスピーカ)は、演算処理装置12が生成した音声信号VOUTに応じた音波を放射する。
【0017】
記憶装置14は、演算処理装置12が実行するプログラムPGMや演算処理装置12が使用する各種のデータ(素片群QA,合成情報QB,限界情報QC)を記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置14として採用される。
【0018】
記憶装置14に格納される素片群QAは、図2に示すように、相異なる音声素片Vに対応する複数の素片データDの集合(音声合成ライブラリ)である。第1実施形態における1個の音声素片Vは、相異なる音素に対応する2個の音素区間S(S1,S2)を連結したダイフォン(音素連鎖)である。音素区間S2は音素区間S1の後方に位置する。なお、以下では便宜的に無音を子音の音素として説明する。
【0019】
図2に示すように、各素片データDは、分類情報DAと区間情報DBと複数の単位データUの時系列とを含んで構成される。複数の単位データUの各々は、音声素片V(音素区間S1および音素区間S2)を時間軸上で区分した各フレームの音声の周波数スペクトルを指定する。なお、各単位データUの形式は任意である。例えば、周波数スペクトルを直接に表現するデータ(周波数毎の強度の系列)のほか、周波数スペクトルから抽出された複数種の特徴量を指定するデータ(周波数スペクトルを近似的に再現可能なデータ)が単位データUとして利用される。
【0020】
分類情報DAは、音声素片Vを構成する各音素の分類を指定する。例えば図3に示すように、母音(/a/,/i/,/u/),破裂音(/t/,/k/,/p/),破擦音(/ts/),鼻音(/m/,/n/),流音(/r/),摩擦音(/s/,/f/),半母音(/w/,/y/),無音(/Sil/)等の分類が、音声素片Vの音素区間S1および音素区間S2の各々について分類情報DAで指定される。
【0021】
図3に示すように、各音素は、複数の種別C(C1〜C3)に区分される。具体的には、子音の音素は、有声性の高低に応じて各種別Cに区分される。例えば日本語の音素の場合、半母音(/w/,/y/)や鼻音(/m/,/n/)や流音(/r/)等の調和成分が豊富な音素、または、有声摩擦音(/z/)や有声破裂音(/d/)等の非調和成分が豊富な音素のように、有声性が高い子音(例えば有声子音)は種別C1に分類され、破裂音(/t/,/k/,/p/)や破擦音(/ts/)や摩擦音(/s/,/f/)等の無声子音のように有声性が低い子音は種別C2に分類される。無音(/Sil/)は種別C3に分類される。また、母音(/a/,/i/,/u/)は種別C2に分類される。
【0022】
図4は、1個の音声素片Vの波形図である。図4では、音素/k/の音素区間S1に音素/a/の音素区間S2が後続する音声素片V[k−a]の波形が例示されている。図4の音素境界GAは、音素区間S1と音素区間S2との境界を意味する。母音の音素区間S2は、状態境界GBを挟んで遷移区間EAと定常区間EBとに区分される。記憶装置14に記憶された素片データDの区間情報DBは、音声素片V内の音素境界GAと状態境界GBとを指定する。
【0023】
図4の定常区間EBは、音素区間S2に対応する音素/a/の波形が定常的に維持される区間である。遷移区間EAは、区間情報DBで指定される音素境界GAから状態境界GBまでの区間(音素区間S1と定常区間EBとの間の区間)であり、音素区間S1の音素/k/から音素区間S2の音素に波形が遷移する区間である。具体的には、発声者の口の形状が、音素区間S1の音素/k/に対応する形状から音素境界GAで変化し始め、遷移区間EAの始点から終点にかけて音素区間S2の音素/a/に対応する形状に経時的に変化し、状態境界GBにて音素/a/に対応する形状に到達して以後は定常に維持される。すなわち、遷移区間EA内では、音素区間S1の音素/k/の影響が経時的に減少するとともに音素区間S2の音素/a/の影響が経時的に増加して定常状態に到達する。以上の説明から理解されるように、遷移区間EAのうち先頭(音素境界GA)の近傍の区間には直前の音素区間S1の音素/k/の影響が残存する。
【0024】
記憶装置14に記憶される合成情報(スコアデータ)QBは、図1に示すように、合成音の発音文字X1と発音期間X2と音高(ピッチ)X3と明瞭度X4とを時系列に指定する。発音文字X1は、例えば歌唱音を合成する場合の歌詞の文字列である。明瞭度X4は、合成音が聴感的に明確と知覚される程度を意味する変数であり、0以上かつ1以下の範囲内で設定される。発声者が発声時に口を大きく開くほど発声音は聴感的に明瞭と知覚される。したがって、明瞭度X4は、合成音の仮想的な発声者の口の開き具合を示す変数とも表現され得る。
【0025】
図1の演算処理装置12の表示制御部32は、合成情報QBの生成および編集のために利用者が視認する図5の編集画面50を表示装置22に表示させる。編集画面50は、第1領域51と第2領域52とに区分される。第1領域51には、時間軸(横軸)と音高軸(縦軸)とが設定され、入力装置24に対する利用者からの指示に応じて音指示子54が配置される。各音指示子54の音高軸上の位置に応じて合成情報QBの音高X3が設定され、時間軸上の位置およびサイズに応じて発音期間X2が設定される。また、利用者が各音指示子54に指定した文字が合成情報QBの発音文字X1として設定される。
【0026】
第2領域52には、第1領域51と共通の時間軸のもとで明瞭度X4の時系列が表示(棒グラフ表示)される。利用者は、入力装置24を適宜に操作することで任意の音指示子54の明瞭度X4を調整する。合成情報QB内の明瞭度X4は第2領域52に対する指示に応じて設定される。
【0027】
図1の素片選択部34は、合成情報QBが時系列に指定する各発音文字X1に対応した音声素片Vを素片群QAから順次に選択する。音声合成部36は、素片選択部34が順次に選択する音声素片Vの素片データDを利用して音声信号VOUTを生成する。概略的には、音声合成部36は、合成情報QBの発音期間X2に応じて素片データDを伸縮し、伸縮後の各単位データUが示す周波数スペクトルを時間波形に変換したうえで合成情報QBの音高X3に調整して相互に連結することで音声信号VOUTを生成する。
【0028】
図6は、音声合成部36のブロック図である。図6に示すように、第1実施形態の音声合成部36は、限界設定部42と境界設定部44と合成処理部46とを含んで構成される。限界設定部42は、素片選択部34が選択した音声素片Vの音素区間S2が母音や摩擦音や鼻音等の時間的に持続可能な音素に該当する場合に、図4に示すように、音声素片Vの音素区間S2のうち区間情報DBが示す音素境界GA(遷移区間EAの始点)から区間情報DBが示す状態境界GB(遷移区間EAの終点)までの途中の時点を限界時点TAとして設定する。限界時点TAは、遷移区間EAのうち直前の音素区間S1の音素の影響が充分に低下すると推定される時点である。
【0029】
図6の境界設定部44は、図4に示すように、素片選択部34が選択した音声素片Vの音素区間S2内の遷移区間EAのうち限界設定部42が設定した限界時点TAから区間情報DBが示す状態境界GBまでの区間内に境界時点TBを設定する。境界時点TBの時間軸上の位置は合成情報QBの明瞭度X4に応じて可変に設定される。具体的には、明瞭度X4が最小値0である場合には限界時点TAが境界時点TBとして設定され、明瞭度X4が大きいほど限界時点TAから後方に離れた時点(状態境界GBに近い時点)が境界時点TBとして設定され、明瞭度X4が最大値1である場合には、区間情報DBが示す状態境界GBが境界時点TBとして設定される。音声素片Vのうち境界設定部44が設定した境界時点TBの前方の区間(音素区間S1の始点から境界時点TBまでの区間)Wを以下では「適用区間」と表記する。
【0030】
図6の合成処理部46は、素片選択部34が選択した音声素片Vの適用区間Wを利用して音声信号VOUTを生成する。具体的には、合成処理部46は、図4に示すように、素片データDのうち適用区間W内の単位データUで構成される単位データ群Z1に、適用区間W内の最後に位置する1個の単位データU(図4の斜線部)を反復して配置した単位データ群Z2を連結する。単位データ群Z2を構成する単位データUの個数は、単位データ群Z1と単位データ群Z2との合計長が発音期間X2に応じた目標長となるように可変に設定される。
【0031】
合成処理部46は、単位データ群Z1および単位データ群Z2の各単位データUが示す周波数スペクトルを時間波形に変換するとともに合成情報QBが指定する音高X3に調整し、相前後するフレームで相互に連結することで音声信号VOUTを生成する。なお、明瞭度X4が最大値1に設定され、かつ、発音期間X2に応じた目標長が所定値(例えば音声素片Vの時間長)を下回る場合、合成処理部46は、素片データDの単位データU(定常区間EBの単位データU)を後方から除去して目標長に調整することで音声信号VOUTを生成する(すなわち、単位データ群Z2の付加は実行しない)。
【0032】
以上のように、音素区間S2のうち音素の波形が定常状態となる定常区間EB以前(すなわち発声者の口が完全に開く以前)の遷移区間EA内で明瞭度X4に応じた位置に境界時点TBが設定されるから、発声者が口を充分に開かずに発声したような合成音を生成することが可能である。
【0033】
前述のように、遷移区間EA内の前方の区間には直前の音素区間S1の音素の影響が残存するから、遷移区間EA内の極端に前方の位置に境界時点TBが設定されると、音素区間S1の音素の影響を含む単位データUが単位データ群Z2にて反復され、合成音が不自然な音声となる可能性がある。第1実施形態では、境界時点TBの位置が、音素境界GAの後方に位置する限界時点TA以降に制約されるから、音素区間S2のうち音素区間S1内の音素の影響が充分に低減された単位データUが単位データ群Z2として反復される。したがって、音素区間S1内の音素の影響を低減した聴感的に自然な音声を合成できるという利点がある。
【0034】
ところで、音素区間S2内の複数の単位データUのうち単位データ群Z2として反復させた場合でも合成音が聴感的に不自然な音声とならない最先の単位データUの位置(すなわち、音素区間S2内で音素区間S1の音素の影響が充分に低減される最初の単位データUの位置)は、音素区間S1の音素の種別Cに応じて相違するという傾向がある。例えば、音素区間S1の音素が、有声性が高い半母音等の音素の種別C1に属する場合、音素区間S2のうち音素境界GAの近傍の単位データUを反復させたとしても合成音はそれほど不自然な音声にはならない。他方、音素区間S1の音素が、非調和成分(雑音成分)が豊富で振幅が小さい破裂音等の音素の種別C2に属する場合、音素区間S2のうち音素境界GAの近傍の単位データUを反復させると、音素区間S1の音素に由来する合成音の不自然さが顕著に知覚される。以上の傾向を考慮して、第1実施形態では、音素区間S2内の遷移区間EAに対する限界時点TAの位置を直前の音素区間S1の音素の種別Cに応じて変化させる。
【0035】
図1に示すように、記憶装置14には、限界時点TAの位置を規定する限界情報QCが記憶される。第1実施形態の限界情報QCは、区間情報DBが示す音素境界GA(遷移区間EAの始点)から限界時点TAまでの時間長が遷移区間EAの全体の時間に占める割合R(R1〜R3)を音素の種別C(C1〜C3)毎に指定する。割合R1〜R3は0以上1以下の範囲内の数値である。限界設定部42は、素片選択部34が選択した音声素片Vのうち音素区間S2の遷移区間EA内で限界情報QCに応じた時点を限界時点TAとして設定する。
【0036】
具体的には、音声素片Vの音素区間S1が種別C1の音素(有声性が高い子音)に該当する場合、限界設定部42は、限界情報QCが種別C1について指定する割合R1に応じて限界時点TAを設定する。すなわち、限界設定部42は、図4に示すように、区間情報DBが指定する音素境界GAから遷移区間EAのR1倍の時間(R1×EA)だけ後方の時点を限界時点TAとして設定する。同様に、音素区間S1が種別C2の音素(無声子音または母音)に該当する場合、限界設定部42は、音素境界GAから遷移区間EAのR2倍の時間(R2×EA)だけ後方の時点を限界時点TAとして設定する。また、音素区間S1が種別C3の音素(無音)に該当する場合、限界設定部42は、音素境界GAから遷移区間EAのR3倍の時間(R3×EA)だけ後方の時点を限界時点TAとして設定する。なお、音素区間S1の種別情報Cは、素片データDの分類情報DAから特定される。
【0037】
音素区間S2内の複数の単位データUのうち、その反復により生成された合成音が音素区間S1の音素に影響された不自然な音声とならない最先の単位データUの位置を指定するように、限界情報QCの各割合Rは音素区間S1の音素の種別C毎に実験的または統計的に選定される。すなわち、音素区間S2内の複数の単位データUのうち音素区間S1の音素の影響が充分に低減される最先の単位データUの位置を指定するように種別C毎の割合Rが選定される。
【0038】
例えば、音素区間S1の音素が種別C1に属する場合には音素区間S2内の音素境界GAの近傍の単位データUを反復させても合成音はそれほど不自然にならないが、音素区間S1の音素が種別C2に属する場合に音素区間S2の音素境界GAの近傍の単位データUを反復させると音素区間S1の音素に由来する合成音の不自然さが顕在化するという傾向を考慮すると、割合R1は割合R2を下回る数値に設定される。したがって、音素区間S2の遷移区間EAの時間長が共通する場合、音素区間S1の音素が種別C2に属する場合の限界時点TAは、音素区間S1の音素が種別C1に属する場合の限界時点TAよりも時間的に遅い時点となる。また、種別C2に対応する割合R2は、種別C3(無音)に対応する割合R3を下回る数値に設定される。具体的には、割合R1は0.2(20%)程度に設定され、割合R2は0.39(39%)程度に設定され、割合R3は0.5(50%)程度に設定される。
【0039】
音素区間S1の音素に由来する合成音の不自然さを抑制するために、全部の音素について、音素境界GAから充分に後方の時点を限界時点TAとして選定した場合、合成音の明瞭度(口の開き具合)を充分に低下させることができない。すなわち、合成音の明瞭度の変化幅を充分に確保できない。他方、合成音の明瞭度を充分に低下させるために、全部の音素について、音素境界GAの近傍の時点を限界時点TAとして選定した場合、音素区間S1の音素に起因して合成音が不自然な音声となる。第1実施形態では、音素区間S2内の遷移区間EAに対する限界時点TAの位置が直前の音素区間S1の音素の種別Cに応じて設定されるから、合成音の明瞭度の変化幅を充分に確保すること(明瞭度を充分に低下させること)と音素区間S1の音素に起因した合成音の不自然さを低減することとを両立できるという利点がある。
【0040】
<第2実施形態>
本発明の第2実施形態を以下に説明する。なお、以下に例示する各態様において作用や機能が第1実施形態と同等である要素については、以上の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
【0041】
第1実施形態の限界情報QC(割合R)は、遷移区間EAに対する限界時点TAの相対的な位置を規定する。他方、第2実施形態の限界情報QCは、遷移区間EAの始点から限界時点TAまでの時間τ(τ1〜τ3)を指定する。例えば、種別C1に対応する時間τ1は種別C2に対応する時間τ2を下回る時間に設定され、種別C2に対応する時間τ2は種別C3に対応する時間τ3以下の時間に設定される。時間τは、例えばフレーム数で規定される。例えば、時間τ1はフレームの2個分程度の時間に設定され、時間τ2および時間τ3はフレームの5個分程度の時間に設定される。
【0042】
図7に示すように、音声素片Vの音素区間S1が種別C1の音素(有声子音)に該当する場合、限界設定部42は、区間情報DBが指定する音素境界GA(遷移区間EA)から、限界情報QCが種別C1について指定する時間τ1だけ後方の時点を限界時点TAとして設定する。同様に、音素区間S1が種別C2の音素(無声子音または母音)に該当する場合には音素境界GAから時間τ2だけ後方の時点が限界時点TAとして設定され、音素区間S1が種別C3の音素(無音)に該当する場合には音素境界GAから時間τ3だけ後方の時点が限界時点TAとして設定される。
【0043】
第2実施形態においても第1実施形態と同様の効果が実現される。なお、第2実施形態の限界情報QCは、音素境界GAから限界時点TAまでの絶対的な時間τを指定するから、遷移区間EA内での限界時点TAの位置が適切か否かは遷移区間EAの時間長に依存する。すなわち、遷移区間EAの時間長によっては限界時点TAが適切な位置でない可能性もある。他方、第1実施形態では、遷移区間EAに対する限界時点TAの相対的な位置が限界情報QCで指定されるから、遷移区間EAの時間長に関わらず、限界時点TAを種別C毎の適切な位置に設定できるという利点がある。もっとも、遷移区間EAの時間長が各種別C内の音声素片Vの間で略同等となるように音声素片Vが収録されることを前提とすれば、第1実施形態によれば、限界時点TAを簡易かつ安定的に設定できるという利点がある。
【0044】
<第3実施形態>
第1実施形態および第2実施形態では、記憶装置14に事前に記憶された限界情報QCを利用して限界設定部42が遷移区間EA内に限界時点TAを設定した。第3実施形態では、音声素片Vの音響特性を解析した結果を利用して限界設定部42が限界時点TAを設定する。
【0045】
図8は、第3実施形態における音声合成部36のブロック図である。図8に示すように、第3実施形態の音声合成部36は、第1実施形態の音声合成部36に指標算定部48を追加した構成である。指標算定部48は、素片選択部34が選択した音声素片Vの音素区間S2のうち遷移区間EA内の複数のフレームの各々について、そのフレームの1個の単位データUを反復することで生成される合成音の聴感的な自然性の尺度となる指標値Kを算定する。
【0046】
1個の単位データUを反復した場合に合成音が聴感的に不自然な音声となる典型的なフレームは、有声音と比較して音量が小さいフレームや、調和成分(基音成分および各倍音成分)に対する非調和成分の強度が高いフレームである。具体的には、破裂音や破擦音等の音素の音素区間S1の直後に位置する遷移区間EA内の前方のフレームの単位データUを反復した場合に合成音は聴感的に不自然な音声となる。以上の傾向を考慮して、指標算定部48は、各フレームの音量に関する指標値K1と、各フレームの非調和成分の強度に関する指標値K2とを、素片選択部34が選択した音声素片Vの遷移区間EA内のフレーム毎に指標値Kとして算定する。
【0047】
各フレームの指標値K1は、例えば、所定の音量A0に対するそのフレームの音量Aの比(K1=A/A0)として算定される。所定の音量A0は、例えば遷移区間EA内の最後のフレームの音量(遷移区間EA内の最大値である可能性が高い)である。したがって、遷移区間EA内で音量Aが大きいフレーム(すなわち、単位データUを反復した合成音が聴感的に自然な音声となる可能性が高いフレーム)ほど、指標値K1は大きい数値となる。
【0048】
各フレームの指標値K2は、そのフレームの音声成分から非調和成分を低減または除去した場合の平均パワーPSに対するそのフレームの平均パワーPの比(K2=P/PS)として算定される。図9には、遷移区間EA内の1個のフレームの単位データUで指定された周波数スペクトルSP1が図示されている。周波数スペクトルSP1は、各調波周波数Fn(基本周波数および各倍音周波数)にて強度がピークとなる調和成分に加えて各調波周波数の間に存在する非調和成分を含んで構成される。
【0049】
図9には、周波数スペクトルSP1から非調和成分を除去した周波数スペクトルSP2(斜線部)が併記されている。周波数スペクトルSP2は、周波数スペクトルSP1の各調波周波数Fnに所定の調波成分Hを配置し、各調波成分Hの強度を周波数スペクトルSP1の包絡線ENVに合致するように調整したスペクトルである。指標算定部48は、周波数スペクトルSP2の平均パワーPSに対する周波数スペクトルSP1の平均パワーPの比を指標値K2としてフレーム毎に算定する。したがって、調和成分に対する非調和成分の強度が低いフレーム(すなわち、単位データUを反復した合成音が聴感的に自然な音声となる可能性が高いフレーム)ほど、指標値K2は小さい数値となる。
【0050】
第3実施形態の限界設定部42は、遷移区間EA内の各フレームの指標値K(K1,K2)に応じて限界時点TAを設定する。すなわち、限界設定部42は、遷移区間EA内の複数のフレームのうち指標値Kが示す合成音の自然性が目標値を上回る最先のフレームの時点を限界時点TAとして設定する。
【0051】
具体的には、指標算定部48は、遷移区間EAの先頭から順次にフレームを選択してそのフレームの指標値K1と指標値K2とを算定し、限界設定部42は、指標値K1が所定の閾値Kth1を上回るか否か(すなわち音量が目標値を上回るか否か)および指標値K2が所定の閾値Kth2を下回るか否か(すなわち調和成分に対する非調和成分の強度が目標値を下回るか否か)を判定する。限界設定部42は、指標値K1の判定と指標値K2の判定との双方の結果が肯定となる最先のフレームの時点を限界時点TAとして設定する。すなわち、調和成分に対する非調和成分の強度が充分に低くて音量が大きい時点(単位データUの反復で生成される合成音が聴感的に自然な音声となる時点)が限界時点TAとして設定される。したがって、第3実施形態においても結果的には、第1実施形態や第2実施形態と同様に、音素区間S1の音素の種別Cに応じた時点が限界時点TAとして設定される。例えば、音素区間S1の音素が種別C2に属する場合の限界時点TAは、音素区間S1の音素が種別C1に属する場合の限界時点TAよりも時間的に遅い時点となる。境界設定部44や合成処理部46の動作は第1実施形態と同様である。
【0052】
第3実施形態においても第1実施形態と同様の効果が実現される。また、第3実施形態では、遷移区間EA内のフレーム毎に算定された指標値K(K1,K2)に応じて限界時点TAが設定されるから、限界時点TAを規定する限界情報QCが事前に用意された第1実施形態や第2実施形態と比較して、素片データDの特性に応じた適切な限界時点TAを設定できるという利点がある。
【0053】
<変形例>
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様を適宜に併合することも可能である。
【0054】
(1)限界時点TAを指定する限界情報QCを各素片データDに含ませることで限界時点TAを音声素片V毎に指定することも可能である。音声素片V毎の適切な限界時点TAは、例えば音声素片Vの音響を聴取するともに音声素片Vの波形を視認しながら例えば素片群QAの作成者が手動で指定する。第1実施形態で例示した割合Rや第2実施形態で例示した時間τが限界情報QCとして好適である。
【0055】
(2)第1実施形態では、音素境界GAから限界時点TAまでの時間が遷移区間EAに占める割合Rを限界情報QCが指定したが、区間情報DBが示す状態境界GB(遷移区間EAの終点)から前方の限界時点TAまでの時間が遷移区間EAに占める割合Rを限界情報QCが種別C毎に指定する構成も採用される。限界設定部42は、遷移区間EAのうち音素区間S1の音素の種別Cについて限界情報QCが指定する割合Rの時間だけ状態境界GBから前方(手前)の時点を限界時点TAとして設定する。同様に、第2実施形態では、状態境界GBから前方の限界時点TAまでの時間τを限界情報QCが種別C毎に指定する構成も採用される。限界設定部42は、音素区間S1の音素の種別Cについて限界情報QCが指定する時間τだけ状態境界GBから前方の時点を限界時点TAとして設定する。
【0056】
(3)前述の各形態では単位データUの反復で伸長音(母音の定常的な伸ばし音)が生成されるから、各音声素片Vの音素区間S2のうち定常区間EBを省略することも可能である。定常区間EBを省略した構成によれば、素片群QAのデータ量を削減できるという利点がある。ただし、単位データUの反復で生成される伸長音は実際に収録された伸長音と比較して不自然な音声となる場合があるから、定常区間EBを含むように音声素片Vの素片データDを生成し、発音期間X2が短い場合には定常区間EBを含む音声素片Vをそのまま合成音の生成に使用する前述の各形態の構成が好適である。以上の例示から理解されるように、遷移区間EAは、音声素片Vのうち音素区間S2の一部(定常区間EB以外)または全部の区間を意味する。
【0057】
(4)各音素の種別Cは適宜に変更される。例えば、相前後する母音の音素の間に無音区間が介在するように音声素片Vが生成(収録)された場合に母音を種別C1に分類すると、無音区間が過度に伸長されて不自然な合成音となり得ることを考慮して、前述の各形態では母音を種別C2に分類した。しかし、無音区間の伸長が発生しない場合(例えば相前後する母音の音素の間に無音区間が存在しない場合)や特段の問題とならない場合には、母音の音素を種別C1に分類することも可能である。
【0058】
(5)前述の各形態のように単位データUの反復のみで生成された合成音は人工的で不自然な音声と知覚される可能性がある。そこで、実際の発声音から抽出された変動成分(伸長音のうち時間的に微細に変動する揺れ成分)を、単位データUの時系列から生成された音声に付加する構成も好適である。
【0059】
(6)第3実施形態における指標値Kは適宜に変更される。例えば、音量の指標値K1および非調和成分の指標値K2の一方のみを利用して限界時点TAを設定する構成や、指標値K1および指標値K2以外の指標値Kを利用して限界時点TAを設定する構成も採用され得る。また、指標値K1や指標値K2の算定方法も適宜に変更される。例えば、前述の例示では、音量が大きいほど指標値K1が大きい数値となり、非調和成分の強度が低いほど指標値K2が小さい数値となる場合を例示したが、音量が大きいほど指標値K1が小さい数値となり、非調和成分の強度が低いほど指標値K2が大きい数値となるように指標値K1および指標値K2を算定することも可能である。
【0060】
(7)第3実施形態は、音声素片Vの限界時点TAを設定する音声処理装置としても実現され得る。音声処理装置は、音声素片Vの遷移区間EA内の複数のフレームの各々について当該フレームを反復した場合の音声の自然性の指標値K(K1,K2)を算定する指標算定部48と、指標算定部48が算定した各フレームの指標値Kに応じて遷移区間EA内の限界時点TAを設定する限界設定部42とを具備する。
【0061】
(8)前述の各形態では、素片群QAを記憶する記憶装置14が音声合成装置100に搭載された構成を例示したが、音声合成装置100とは独立した外部装置(例えばサーバ装置)が素片群QAを保持する構成も採用される。音声合成装置100(素片選択部34)は、例えば通信網を介して外部装置から音声素片V(素片データD)を取得して音声信号VOUTを生成する。同様に、音声合成装置100から独立した外部装置に合成情報QBを保持することも可能である。以上の説明から理解されるように、素片データDや合成情報QBを記憶する要素(前述の各形態における記憶装置14)は音声合成装置100の必須の要素ではない。
【符号の説明】
【0062】
100……音声合成装置、12……演算処理装置、14……記憶装置、22……表示装置、24……入力装置、26……放音装置、32……表示制御部、34……素片選択部、36……音声合成部、42……限界設定部、44……境界設定部、46……合成処理部、48……指標算定部。
【特許請求の範囲】
【請求項1】
相異なる音素に対応する第1音素区間と前記第1音素区間の後方の第2音素区間とを含む音声素片を順次に選択する素片選択手段と、
前記素片選択手段が選択した音声素片の第2音素区間のうち前記第1音素区間の音素から当該第2音素区間の音素に遷移する遷移区間内で当該音声素片の前記第1音素区間の音素の種別に応じた時点を限界時点として設定する限界設定手段と、
前記第2音素区間のうち前記限界時点の後方に位置する可変の時点を境界時点として設定する境界設定手段と、
前記音声素片を区分した複数のフレームのうち前記境界時点に対応するフレームを反復した区間を、前記音声素片のうち前記境界時点の前方の区間に後続させて音声信号を生成する合成処理手段と
を具備する音声合成装置。
【請求項2】
前記限界設定手段は、前記遷移区間のうち前記第1音素区間の音素の種別に応じて設定された割合の時間だけ、当該遷移区間の始点から後方または当該遷移区間の終点から前方の時点を、限界時点として設定する
請求項1の音声合成装置。
【請求項3】
前記限界設定手段は、前記第1音素区間の音素の種別に応じて設定された時間だけ、前記遷移区間の始点から後方または当該遷移区間の終点から前方の時点を、限界時点として設定する
請求項1の音声合成装置。
【請求項4】
前記遷移区間内の複数のフレームの各々について当該フレームを反復した場合の音声の自然性の指標値を算定する指標算定手段を具備し、
前記限界設定手段は、前記各フレームの指標値に応じて前記限界時点を設定する
請求項1の音声合成装置。
【請求項5】
前記指標算定手段は、前記遷移区間内の各フレームの音量に応じた第1指標値と、前記遷移区間内の各フレームの非調和成分の強度に応じた第2指標値とを前記指標値として算定し、
前記限界設定手段は、前記遷移区間のうち、前記第1指標値が示す音量が所定値を上回り、かつ、前記第2指標値が示す非調和成分の強度が所定値を下回る時点を前記限界時点として設定する
請求項4の音声合成装置。
【請求項1】
相異なる音素に対応する第1音素区間と前記第1音素区間の後方の第2音素区間とを含む音声素片を順次に選択する素片選択手段と、
前記素片選択手段が選択した音声素片の第2音素区間のうち前記第1音素区間の音素から当該第2音素区間の音素に遷移する遷移区間内で当該音声素片の前記第1音素区間の音素の種別に応じた時点を限界時点として設定する限界設定手段と、
前記第2音素区間のうち前記限界時点の後方に位置する可変の時点を境界時点として設定する境界設定手段と、
前記音声素片を区分した複数のフレームのうち前記境界時点に対応するフレームを反復した区間を、前記音声素片のうち前記境界時点の前方の区間に後続させて音声信号を生成する合成処理手段と
を具備する音声合成装置。
【請求項2】
前記限界設定手段は、前記遷移区間のうち前記第1音素区間の音素の種別に応じて設定された割合の時間だけ、当該遷移区間の始点から後方または当該遷移区間の終点から前方の時点を、限界時点として設定する
請求項1の音声合成装置。
【請求項3】
前記限界設定手段は、前記第1音素区間の音素の種別に応じて設定された時間だけ、前記遷移区間の始点から後方または当該遷移区間の終点から前方の時点を、限界時点として設定する
請求項1の音声合成装置。
【請求項4】
前記遷移区間内の複数のフレームの各々について当該フレームを反復した場合の音声の自然性の指標値を算定する指標算定手段を具備し、
前記限界設定手段は、前記各フレームの指標値に応じて前記限界時点を設定する
請求項1の音声合成装置。
【請求項5】
前記指標算定手段は、前記遷移区間内の各フレームの音量に応じた第1指標値と、前記遷移区間内の各フレームの非調和成分の強度に応じた第2指標値とを前記指標値として算定し、
前記限界設定手段は、前記遷移区間のうち、前記第1指標値が示す音量が所定値を上回り、かつ、前記第2指標値が示す非調和成分の強度が所定値を下回る時点を前記限界時点として設定する
請求項4の音声合成装置。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【公開番号】特開2013−50705(P2013−50705A)
【公開日】平成25年3月14日(2013.3.14)
【国際特許分類】
【出願番号】特願2012−148192(P2012−148192)
【出願日】平成24年7月2日(2012.7.2)
【出願人】(000004075)ヤマハ株式会社 (5,930)
【公開日】平成25年3月14日(2013.3.14)
【国際特許分類】
【出願日】平成24年7月2日(2012.7.2)
【出願人】(000004075)ヤマハ株式会社 (5,930)
[ Back to top ]