説明

話速調整装置、音声合成システム、およびプログラム

【課題】複数の音声データベースから合成された合成音声データに対して、1回の話速変換で合成音声データ全体の話速を均一に揃え、かつ、合成音声データ全体の時間長と番組放送時間とを一致させることができる話速調整装置およびプログラムを提供する。
【解決手段】複数の音声データベースから合成された合成音声データの話速の平均値を、識別番号jに基づいて合成音声データの生成源の音声データベースごとに算出する話速平均値算出手段11と、合成音声データの時間長の累計値を、合成音声データの生成源の音声データベースごとに算出する時間長累計値算出手段12と、該平均値、該累計値、および、番組放送時間に基づいて、合成音声データの時間長の伸縮倍率を、合成音声データの生成源の音声データベースごとに算出する伸縮倍率算出手段14と、該倍率で前記合成音声データの話速を変換する話速変換手段15と、を含む。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、話速調整装置、音声合成システム、およびプログラムに関し、特に、放送番組に用いられる音声の話速を変換し、音声全体の時間長を既定の番組放送時間内に収めるための話速調整装置、音声合成システム、およびプログラムに関する。
【背景技術】
【0002】
近年、放送番組用の原稿を自動的に音声に変換して放送する自動音声放送が注目されている。例えば、天気予報番組など同じ定型文を繰り返し用いる放送を自動音声放送とすることが徐々に実用段階に至っている。
【0003】
一般に、自動音声化の方法としてコンピュータが発生した単語音声を合成する方法があるが、この方法では放送番組で使用できる品質の合成音声を得ることが容易ではない。このため、予めアナウンサが発話した音声を収録して音声データベースを作成しておき、該音声データベースから放送番組用の原稿に対応した音声データを切り出して音声合成を行うことが現実的である。
【0004】
このように放送番組用の原稿に含まれ得る音声データを予め取得し、それらを接続することにより音声合成を行う録音編集方式による音声合成装置は、例えば特許文献1、2に開示されている。
【0005】
特許文献1に開示された装置は、複数の項目シナリオファイルからなる台本ファイルに従って複数の音声データを繋ぎ合わせることにより、合成音声データを生成するようになっている。
【0006】
さらに、特許文献1に開示された装置は、番組全体の放送時間(以下、番組放送時間と記す)と合成音声データ全体の再生時間とが一致するように、台本ファイルの項目シナリオファイルごとに合成音声データの再生時間を伸縮する話速変換手段を備えている。なお、この話速変換手段が用いている話速変換技術は公知である。
【0007】
一方、特許文献2に開示された装置は、録音編集方式の音声合成処理において、複数の音声データを接続する際に、自然な聴感が得られる音声データ間の休止時間長を算出するものである。ここで、各音声データの話速は、音声データに予め設定されている拍数(モーラ数)を、音声データの音声区間長で除することにより算出される。
【先行技術文献】
【特許文献】
【0008】
【特許文献1】特許第4537886号明細書
【特許文献2】特開2008−116826号公報
【発明の概要】
【発明が解決しようとする課題】
【0009】
上述のように、天気予報番組用などの定められた用途での音声合成を目的として音声を収録して音声データベースを構築する場合、合成音声データの品質を保つために一定の話速で発話された音声を収録することが多い。しかしながら、異なる時期に収録した音声で構築した音声データベースでは、同一話者であっても音声データベースごとに音声データの話速が異なる場合が少なくない。
【0010】
複数の異なる音声データベースを用いて高品質な音声合成を行うためには、それぞれの音声データベースから合成された合成音声データを連続して再生する際に、話速の不一致による違和感が生じないように、話速を調整して再生(もしくは生成)する方法が必要である。
【0011】
しかしながら、特許文献1に開示された装置は、番組放送時間と合成音声データ全体の再生時間とが一致するまで、順次各項目シナリオファイルに対応する音声データの再生時間を伸縮するものであり、合成音声データ全体の話速を一定とするものではない。また、特許文献2に開示された装置も、合成音声データの話速を一定とすることを目的とするものではない。
【0012】
従来より、番組放送時間と合成音声データ全体の再生時間とを一致させ、かつ、合成音声データ全体の話速を一定に揃えるためには、例えば、音声合成処理の前に話速変換を用いて複数の音声データベースの話速を揃える方法が用いられるが、最終的に合成音声データ全体の長さを番組放送時間に合わせるために再度話速変換を行う必要があり、処理を重ねることにより音質劣化が生じてしまうという問題があった。
【0013】
本発明は、このような従来の課題を解決するためになされたものであって、複数の音声データベースから合成された合成音声データに対して、1回の話速変換で合成音声データ全体の話速を均一に揃え、かつ、合成音声データ全体の時間長と番組放送時間とを一致させることができる話速調整装置、音声合成システム、およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0014】
本発明の話速調整装置は、複数の音声データベースから合成された合成音声データの話速の平均値を、該合成音声データの生成源の音声データベースごとに算出する話速平均値算出手段と、前記合成音声データの時間長の累計値を、該合成音声データの生成源の音声データベースごとに算出する時間長累計値算出手段と、前記話速平均値算出手段で算出された前記平均値、前記時間長累計値算出手段で算出された前記累計値、および、番組放送時間に基づいて、前記合成音声データ全体の時間長を該番組放送時間と一致させ、かつ、該合成音声データの生成源の音声データベースごとの話速の平均値を互いに等しくする該合成音声データの伸縮倍率を、該合成音声データの生成源の音声データベースごとに算出する伸縮倍率算出手段と、前記伸縮倍率算出手段で算出された前記伸縮倍率で前記合成音声データの話速を変換する話速変換手段と、前記話速変換手段により話速が変換された合成音声データを記憶する記憶手段と、を備える構成を有している。
【0015】
この構成により、複数の音声データベースから合成された合成音声データに対して、1回の話速変換で合成音声データ全体の話速を均一に揃え、かつ、合成音声データ全体の時間長と番組放送時間とを一致させることができる。即ち、話速変換が1回で済むため、音質の劣化を抑制することができる。
また、この構成により、各音声データベースから合成された合成音声データの話速を用いて合成音声データの時間長の伸縮倍率を算出するため、実態に即した精緻な話速調整を行うことができる。
【0016】
また、本発明の話速調整装置は、複数の音声データベースが有する音声データの話速の平均値を、該音声データベースごとに算出する話速平均値算出手段と、前記合成音声データの時間長の累計値を、該合成音声データの生成源の音声データベースごとに算出する時間長累計値算出手段と、前記話速平均値算出手段で算出された前記平均値、前記時間長累計値算出手段で算出された前記累計値、および、番組放送時間に基づいて、前記合成音声データ全体の時間長を該番組放送時間と一致させ、かつ、該合成音声データの生成源の音声データベースごとの話速の平均値を互いに等しくする該合成音声データの伸縮倍率を、該合成音声データの生成源の音声データベースごとに算出する伸縮倍率算出手段と、前記伸縮倍率算出手段で算出された前記伸縮倍率で前記合成音声データの話速を変換する話速変換手段と、前記話速変換手段により話速が変換された合成音声データを記憶する記憶手段と、を備える構成を有している。
【0017】
この構成により、複数の音声データベースから合成された合成音声データに対して、1回の話速変換で合成音声データ全体の話速を均一に揃え、かつ、合成音声データ全体の時間長と番組放送時間とを一致させることができる。
また、この構成により、各音声データベースを構成する音声データの話速を用いて合成音声データの時間長の伸縮倍率を算出するため、計算処理が簡易となり、効率的に話速調整を行うことができる。
【0018】
また、本発明の話速調整装置は、前記伸縮倍率算出手段が、前記伸縮倍率を以下の式(1)に従って算出する構成を有していてもよい。
【数1】

【0019】
本発明の音声合成システムは、音声データと、該音声データに対応するテキストおよびその音素表記と、を有する複数の音声データベースを備え、放送内容に応じた放送用テキストと、該放送用テキストに対応する音声データが蓄積されている前記音声データベースの識別情報と、に基づいて前記複数の音声データベースから合成音声データを生成し、生成した該合成音声データ、該合成音声データの時間長、および、該合成音声データまたは該音声データの話速、を出力する音声合成装置と、上記の話速調整装置と、を備える構成を有していてもよい。
【発明の効果】
【0020】
本発明は、複数の音声データベースから合成された合成音声データの時間長の伸縮倍率を、識別情報に基づいて合成音声データの生成源の音声データベースごとに算出することにより、複数の音声データベースから合成された合成音声データに対して、1回の話速変換で合成音声データ全体の話速を均一に揃え、かつ、合成音声データ全体の時間長と番組放送時間とを一致させることができる話速調整装置、音声合成システム、およびプログラムを提供するものである。
【図面の簡単な説明】
【0021】
【図1】複数の音声データベースから合成音声データを作成する音声合成装置の構成を示す概略図
【図2】放送用テキストと音声データベースの内容の一例を示す説明図
【図3】放送用テキストと複数の音声データベースとの対応関係を示す説明図
【図4】複数の音声データベースから合成音声データを作成する音声合成装置の他の構成を示す概略図
【図5】本発明に係る話速調整装置の構成を示すブロック図
【図6】本発明に係る話速調整装置のハードウエア構成を示すブロック図
【図7】本発明に係る話速調整装置のCPUが実行する話速調整プログラムのフローチャート
【図8】本発明に係る話速調整装置の他の構成を示すブロック図
【発明を実施するための形態】
【0022】
以下、本発明に係る話速調整装置、音声合成システム、およびプログラムの実施形態について、図面を用いて説明する。本発明に係る話速調整装置は、複数の音声データベースから合成された合成音声データの話速を調整するものである。まず、本発明に係る話速調整装置に入力される合成音声データの作成方法についてその概要を述べる。
【0023】
図1は、複数の音声データベースDB−1、・・・、DB−N(Nは2以上の自然数)から合成音声データを作成する音声合成装置60の構成の一例を示すブロック図である。
【0024】
音声データベースDB−1、・・・、DB−Nは、音声データと、該音声データに対応するテキストおよびその音素表記と、を蓄積しており、音声データを任意の単位(例えば、一文単位、形態素単位)に切り出して出力できるようになっている。
【0025】
図1の構成において、放送内容に応じた漢字仮名交じり文の放送用テキストと、該放送用テキストに対応する音声データが蓄積されている音声データベースの識別情報と、が音声合成エンジン50に入力される。ここで、識別情報は識別番号j(j=1,・・・,N)であるとする。
【0026】
音声合成エンジン50は、識別番号jにより指定された音声データベースを用いて合成音声データを作成する。図2に放送用テキストと音声データベースDB−1、・・・、DB−Nの内容の一例を示し、図3に図2の例における放送用テキストと音声データベースDB−1、・・・、DB−Nとの対応関係を示す。なお、図2、3に示した音声データベースの構成はあくまでも説明上の一例であり、実際の音声データベースの構成はこれに限定されない。
【0027】
例えば、図2、3に示した例では、音声合成エンジン50は、放送用テキストの「石垣島では、東の風、風力2、天気は、にわか雨、気圧は、1010ヘクトパスカル、気温は、27度。」との一文に相当する合成音声データの作成に当たって、識別番号1に対応する音声データベースDB−1から8個の音声データ(「では、」、「の風、」、「風力」、「天気は、」、「気圧は、」、「ヘクトパスカル、」、「気温は、」、「度。」)、識別番号2に対応する音声データベースDB−2から3個の音声データ(「2」、「1010」、「27」)、識別番号3〜5に対応する音声データベースDB−3、DB−4、DB−5からそれぞれ1個の音声データ(「石垣島」、「東」、「にわか雨」)を用いる。
【0028】
ここで、識別番号j(j=1,・・・,N)に対応する各音声データベースDB−1、・・・、DB−Nにおける音声合成に用いられた音声データの累積番号をi(i=1,・・・,Mj)、放送用テキストに対応する合成音声データをSji(j=1,・・・,N、i=1,・・・,Mj)とする。即ち、音声合成エンジン50は、図3に示すように、合成音声データをS31、S11、S41、S12、S13、S21、S14、S51、S15、S22、S16、S17、S23、S18、の順に繋ぎ合わせた合成音声データを生成する。なお、各合成音声データS11〜S18、S21〜S23、S31、S41、S51の話速は、音声合成の過程で、音声合成前の音声データの話速から変化している場合がある。
【0029】
また、音声合成エンジン50は、例えば特許第3958908号明細書に開示されているような公知の方法で、放送用テキストから音素表記を求め、求めた音素表記の母音、撥音、促音をカウントしてモーラ数を求める。さらに、音声合成エンジン50は、合成音声データのファイルサイズから時間長を求め、モーラ数を時間長で除算して1秒あたりのモーラ数を求めることにより話速を算出する。
【0030】
音声合成エンジン50は、このようにして得られた放送用テキストに対応する合成音声データSjiと、合成音声データSjiの時間長Tjiと話速Rjiを、合成音声データの生成源の音声データベースDB−1、・・・、DB−Nの識別番号j(j=1,・・・,N)、および、各音声データベースDB−1、・・・、DB−Nにおける累積番号i(i=1,・・・,Mj)に対応づけて出力する。例えば、図2、3に示した例では、M1=8、M2=3、M3〜M5=1であり、「風力」に対応する合成音声データはS13であり、「にわか雨」に対応する合成音声データはS51である。
【0031】
図4に、複数の音声データベースDB−1、・・・、DB−Nから合成音声データを作成する音声合成装置の他の構成例を示す。ここでは、音声合成装置に符号70を付して図1に示した音声合成装置60と区別する。
【0032】
図4の構成は、音声合成エンジン50が合成音声データSji(j=1,・・・,N、i=1,・・・,Mj)とその時間長Tjiを出力する点は図1の構成と同様であるが、各音声データベースDB−1、・・・、DB−Nを構成する文章(あるいは、文、形態素)k(k=1,・・・,Lj)に対応した音声データWjkの話速Rjkを各音声データベースDB−1、・・・、DB−Nから直接出力可能である点が図1の構成と異なる。ここで、Ljは、各音声データベースDB−1、・・・、DB−Nを構成する全ての文章kの総数を示すパラメータである。
【0033】
(第1の実施形態)
本発明に係る話速調整装置の第1の実施形態を図1、図5〜図7を参照しながら説明する。本実施形態の話速調整装置1は、図1の構成で作成された合成音声データの話速を調整するものである。
【0034】
本実施形態の話速調整装置1は、図5に示すように、複数の音声データベースDB−1、・・・、DB−Nから合成された合成音声データSji(j=1,・・・,N、i=1,・・・,Mj)の話速Rjiの平均値を、識別情報(識別番号j)に基づいて合成音声データの生成源の複数の音声データベースDB−1、・・・、DB−Nごとに算出する話速平均値算出手段11と、合成音声データの時間長の累計値Tjを、合成音声データの生成源の音声データベースごとに算出する時間長累計値算出手段12と、番組放送時間TPを設定する番組放送時間設定手段13と、話速平均値算出手段11で算出された平均値、時間長累計値算出手段12で算出された累計値Tj、および、番組放送時間TPに基づいて、合成音声データ全体の時間長を番組放送時間TPと一致させ、かつ、合成音声データの生成源の複数の音声データベースごとの話速の平均値を互いに等しくする合成音声データSjiの伸縮倍率Pjを、合成音声データの生成源の音声データベースごとに算出する伸縮倍率算出手段14と、伸縮倍率算出手段14で算出された伸縮倍率Pjで合成音声データSjiの話速を変換する話速変換手段15と、話速変換手段15により話速が変換された合成音声データ(以下、話速調整音声データSと記す)を記憶する記憶手段16と、を備える。
【0035】
ここで、話速調整装置1には、複数の音声データベースDB−1、・・・、DB−Nから合成された合成音声データSji(j=1,・・・,N、i=1,・・・,Mj)とその時間長Tjiおよび話速Rjiが図1に示した音声合成エンジン50から入力されるようになっている。合成音声データSji、時間長Tji、話速Rjiはいずれも生成源の音声データベースDB−1、・・・、DB−Nの識別番号j(j=1,・・・,N)に対応づけられている。
【0036】
図6は、本実施形態の話速調整装置1のハードウエア構成を示すブロック図である。図6に示すように、本実施形態の話速調整装置1は、表示パネル31、キーボード32、およびマウス33等のインターフェイスと、パーソナルコンピュータ等の演算装置34と、を含む。
【0037】
演算装置34は、合成音声データSji(j=1,・・・,N、i=1,・・・,Mj)とその時間長Tjiおよび話速Rjiが入力される入力インターフェイス(I/F)35、話速調整音声データSを出力する出力I/F36、CPU(Central Processing Unit)37、メモリ38、話速調整音声データSを記憶する記憶手段16を構成するハードディスク(HDD)39、および周辺機器I/F40がバス41を介して相互に結合された構成を有する。表示パネル31、キーボード32、およびマウス33等のインターフェイスは周辺機器I/F40に接続される。
【0038】
入力I/F35には音声合成エンジン50が接続される。さらに、入力I/F35に、音声データベースDB−1、・・・、DB−Nからの音声データを直接入力できる構成としてもよい。音声データベースDB−1、・・・、DB−Nは、ハードディスク、光磁気ディスク、半導体メモリ、CD−ROM等の記録媒体により構成される。
【0039】
出力I/F36は、例えば、増幅器(図示せず)を介してスピーカ(図示せず)を接続可能な構成であるとよい。また、出力I/F36は、CPU37からの制御指令に応じて、HDD39に蓄積された話速調整音声データSを出力できるようになっている。
【0040】
なお、話速平均値算出手段11、時間長累計値算出手段12、伸縮倍率算出手段14、および話速変換手段15は、メモリ38にプログラムをインストールすることにより、演算装置34内にソフトウエア的に構成される。また、番組放送時間設定手段13は、例えば、予め作成された台本ファイルから番組放送時間TPを取得するようになっていてもよく、あるいは、操作者がキーボード32またはマウス33を介して番組放送時間TPを手動で入力できる構成になっていてもよい。
【0041】
図7は、CPU37が実行する話速調整プログラムのフローチャートである。CPU37は、話速平均値算出手段11に対応する話速平均値算出処理(ステップS100)と、時間長累計値算出手段12に対応する時間長累計値算出処理(ステップS101)と、伸縮倍率算出手段14に対応する伸縮倍率算出処理(ステップS102)と、話速変換手段15に対応する話速変換処理(ステップS103)と、を実行するようになっている。
【0042】
まず、CPU37は話速平均値算出処理(ステップS100)において、各音声データベースDB−1、・・・、DB−Nから作成された合成音声データSji(j=1,・・・,N、i=1,・・・,Mj)の話速Rjiの平均値を、合成音声データの生成源の音声データベースごとに[数2]より算出する。なお、以下の数式中では、「Rj」にアッパーラインを付したものをRjiの平均値としている。
【数2】

【0043】
次に、CPU37は、時間長累計値算出処理(ステップS101)において、合成音声データの時間長の累計値Tjを、合成音声データの生成源の音声データベースごとに次式に従って算出する。
【数3】

【0044】
次に、CPU37は、伸縮倍率算出処理(ステップS102)において、話速平均値算出処理(ステップS100)の[数2]で得られた平均値を、全ての生成源の音声データベースDB−1、・・・、DB−Nに亘って[数4]のように平均する。即ち、[数4]で得られる平均値は合成音声データ全体の平均話速である。
【数4】

【0045】
さらに、CPU37は、伸縮倍率算出処理(ステップS102)において、[数2]で算出した合成音声データの話速の平均値を[数4]で算出した合成音声データ全体の平均話速に合わせるように、合成音声データSjiを伸縮した場合の時間長の累計値Tj'を、合成音声データの生成源の音声データベースごとに次式に従って算出する。なお、ここでは実際に合成音声データの時間長を伸縮するわけではない。
【数5】

【0046】
このとき、合成音声データ全体の時間長TSは次式で表わされる。
【数6】

【0047】
さらに、CPU37は、伸縮倍率算出処理(ステップS102)において、上述のように話速を一定とした場合の合成音声データ全体の時間長TSを番組放送時間TPに合わせるための合成音声データ全体の伸縮倍率Pを次式に従って算出する。
【数7】

【0048】
さらに、CPU37は、伸縮倍率算出処理(ステップS102)において、合成音声データSjiの時間長Tjiを伸縮する伸縮倍率Pjを、合成音声データの生成源の音声データベースごとに次式に従って算出する。
【数8】

【0049】
最後に、CPU37は、話速変換処理(ステップS103)において、合成音声データSjiを伸縮倍率Pj(j=1,・・・,N)で伸縮し、話速調整音声データSとしてHDD39に蓄積する。さらに、CPU37は、出力I/F36を介して、HDD39に蓄積された話速調整音声データSを出力する。なお、個々の話速の調整方法としては公知の話速変換技術を用いればよい。
【0050】
以上の説明では、CPU37は、話速平均値算出処理(ステップS100)で[数2]の計算処理、時間長累計値算出処理(ステップS101)で[数3]の計算処理、伸縮倍率算出処理(ステップS102)で[数4]〜[数8]の計算処理をそれぞれ行うとした。なお、[数8]は、[数7]、[数6]、[数5]を順次代入することにより、次式のように整理できる。
【数9】

従って、CPU37が、伸縮倍率算出処理(ステップS102)において[数4]〜[数8]の計算処理の代わりに[数9]の計算処理を行う構成としてもよい。
【0051】
以上説明したように、本実施形態の話速調整装置およびプログラムは、複数の音声データベースから合成された合成音声データに対して、1回の話速変換で合成音声データ全体の話速を均一に揃え、かつ、合成音声データ全体の時間長と番組放送時間とを一致させることができる。即ち、話速変換が1回で済むため音質の劣化を抑制することができる。
【0052】
また、本実施形態の話速調整装置およびプログラムは、各音声データベースから合成された合成音声データの話速を用いて合成音声データの時間長を伸縮する伸縮倍率を算出するため、実態に即した精緻な話速調整を行うことができる。
【0053】
なお、本実施形態の話速調整装置と、図1に示した合成音声データを作成する音声合成装置と、を組み合わせることにより、話速調整機能を有する音声合成システムを実現することもできる。
【0054】
(第2の実施形態)
本発明に係る話速調整装置の第2の実施形態を図4、図8を参照しながら説明する。本実施形態の話速調整装置2は、図4の構成で作成された合成音声データの話速を調整するものである。なお、第1の実施形態と同様の構成については説明を省略する。
【0055】
本実施形態の話速調整装置2は、図8に示すように、話速平均値算出手段が、複数の音声データベースDB−1、・・・、DB−Nが有する音声データWjk(j=1,・・・,N、k=1,・・・,Lj)の話速Rjkの平均値を、識別情報(識別番号j)に基づいて合成音声データの生成源の音声データベースごとに算出する点が第1の実施形態と異なる。このため、本実施形態においては、話速平均値算出手段に符号21を付して第1の実施形態の話速平均値算出手段11と区別する。
【0056】
ここで、話速調整装置2には、複数の音声データベースDB−1、・・・、DB−Nから合成された合成音声データSji(j=1,・・・,N、i=1,・・・,Mj)とその時間長Tjiが音声合成エンジン50から入力されるとともに、音声データWjk(j=1,・・・,N、k=1,・・・,Lj)の話速Rjkが各音声データベースDB−1、・・・、DB−Nから直接入力されるようになっている。合成音声データSji、時間長Tji、音声データWjk、話速Rjkはいずれも音声データベースDB−1、・・・、DB−Nの識別番号j(j=1,・・・,N)に対応づけられている。
【0057】
本実施形態の話速調整装置2のハードウエア構成は、図6に示した第1の実施形態における構成と同様である。話速平均値算出手段21、時間長累計値算出手段12、伸縮倍率算出手段14、および話速変換手段15は、メモリ38にプログラムをインストールすることにより、演算装置34内にソフトウエア的に構成される。
【0058】
CPU37は、第1の実施形態における話速平均値算出処理(ステップS100)の代わりに、各音声データベースDB−1、・・・、DB−Nから直接入力される音声データWjk(j=1,・・・,N、k=1,・・・,Lj)の話速Rjkの平均値を、識別番号jに基づいて合成音声データの生成源の音声データベースごとに次式に従って算出する処理を行う。
【数10】

【0059】
この処理は、各音声データベースDB−1、・・・、DB−Nを構成する全ての文章k(k=1,・・・,Lj)に対応する音声データWjkの話速Rjkの平均値を算出するものである。即ち、この処理は、実際の放送用テキストの内容に含まれない音声データの話速も含めて平均値を算出することになるが、第1の実施形態における話速平均値算出処理(ステップS100)と比較して計算処理を簡易化できる。
【0060】
以上説明したように、本実施形態の話速調整装置およびプログラムは、各音声データベースを構成する音声データの話速を用いて合成音声データの時間長を伸縮する伸縮倍率を算出するため、計算処理が簡易となり、効率的に話速調整を行うことができる。
【0061】
なお、本実施形態の話速調整装置と、図4に示した合成音声データを作成する音声合成装置と、を組み合わせることにより、話速調整機能を有する音声合成システムを実現することもできる。
【産業上の利用可能性】
【0062】
本発明に係る話速調整装置、音声合成システム、およびプログラムは、音声合成技術により放送番組に用いられる合成音声データを制作する番組音声制作装置や、合成音声データを再生する音声再生装置に適用可能な話速調整装置、音声合成システム、およびプログラムとして有用である。
【符号の説明】
【0063】
1、2 話速調整装置
11、21 話速平均値算出手段
12 時間長累計値算出手段
13 番組放送時間設定手段
14 伸縮倍率算出手段
15 話速変換手段
16 記憶手段
50 音声合成エンジン
60、70 音声合成装置
DB−1、・・・、DB−N 音声データベース

【特許請求の範囲】
【請求項1】
複数の音声データベースから合成された合成音声データの話速の平均値を、該合成音声データの生成源の音声データベースごとに算出する話速平均値算出手段と、
前記合成音声データの時間長の累計値を、該合成音声データの生成源の音声データベースごとに算出する時間長累計値算出手段と、
前記話速平均値算出手段で算出された前記平均値、前記時間長累計値算出手段で算出された前記累計値、および、番組放送時間に基づいて、前記合成音声データ全体の時間長を該番組放送時間と一致させ、かつ、該合成音声データの生成源の音声データベースごとの話速の平均値を互いに等しくする該合成音声データの伸縮倍率を、該合成音声データの生成源の音声データベースごとに算出する伸縮倍率算出手段と、
前記伸縮倍率算出手段で算出された前記伸縮倍率で前記合成音声データの話速を変換する話速変換手段と、
前記話速変換手段により話速が変換された合成音声データを記憶する記憶手段と、を備える話速調整装置。
【請求項2】
複数の音声データベースが有する音声データの話速の平均値を、該音声データベースごとに算出する話速平均値算出手段と、
前記合成音声データの時間長の累計値を、該合成音声データの生成源の音声データベースごとに算出する時間長累計値算出手段と、
前記話速平均値算出手段で算出された前記平均値、前記時間長累計値算出手段で算出された前記累計値、および、番組放送時間に基づいて、前記合成音声データ全体の時間長を該番組放送時間と一致させ、かつ、該合成音声データの生成源の音声データベースごとの話速の平均値を互いに等しくする該合成音声データの伸縮倍率を、該合成音声データの生成源の音声データベースごとに算出する伸縮倍率算出手段と、
前記伸縮倍率算出手段で算出された前記伸縮倍率で前記合成音声データの話速を変換する話速変換手段と、
前記話速変換手段により話速が変換された合成音声データを記憶する記憶手段と、を備える話速調整装置。
【請求項3】
前記伸縮倍率算出手段が、前記伸縮倍率を以下の式(1)に従って算出する請求項1または請求項2に記載の話速調整装置。
【数11】

【請求項4】
音声データと、該音声データに対応するテキストおよびその音素表記と、を有する複数の音声データベースを備え、放送内容に応じた放送用テキストと、該放送用テキストに対応する音声データが蓄積されている前記音声データベースの識別情報と、に基づいて前記複数の音声データベースから合成音声データを生成し、生成した該合成音声データ、該合成音声データの時間長、および、該合成音声データまたは該音声データの話速、を出力する音声合成装置と、
請求項1から請求項3のいずれか一項に記載の話速調整装置と、を備える音声合成システム。
【請求項5】
コンピュータに、
複数の音声データベースから合成された合成音声データの話速の平均値を、該合成音声データの生成源の音声データベースごとに算出する話速平均値算出手段と、
前記合成音声データの時間長の累計値を、該合成音声データの生成源の音声データベースごとに算出する時間長累計値算出手段と、
前記話速平均値算出手段で算出された前記平均値、前記時間長累計値算出手段で算出された前記累計値、および、番組放送時間に基づいて、前記合成音声データ全体の時間長を該番組放送時間と一致させ、かつ、該合成音声データの生成源の音声データベースごとの話速の平均値を互いに等しくする該合成音声データの伸縮倍率を、該合成音声データの生成源の音声データベースごとに算出する伸縮倍率算出手段と、
前記伸縮倍率算出手段で算出された前記伸縮倍率で前記合成音声データの話速を変換する話速変換手段と、
前記話速変換手段により話速が変換された合成音声データを記憶する記憶手段と、を実現させるプログラム。
【請求項6】
コンピュータに、
複数の音声データベースが有する音声データの話速の平均値を、該音声データベースごとに算出する話速平均値算出手段と、
前記合成音声データの時間長の累計値を、該合成音声データの生成源の音声データベースごとに算出する時間長累計値算出手段と、
前記話速平均値算出手段で算出された前記平均値、前記時間長累計値算出手段で算出された前記累計値、および、番組放送時間に基づいて、前記合成音声データ全体の時間長を該番組放送時間と一致させ、かつ、該合成音声データの生成源の音声データベースごとの話速の平均値を互いに等しくする該合成音声データの伸縮倍率を、該合成音声データの生成源の音声データベースごとに算出する伸縮倍率算出手段と、
前記伸縮倍率算出手段で算出された前記伸縮倍率で前記合成音声データの話速を変換する話速変換手段と、
前記話速変換手段により話速が変換された合成音声データを記憶する記憶手段と、を実現させるプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2012−78755(P2012−78755A)
【公開日】平成24年4月19日(2012.4.19)
【国際特許分類】
【出願番号】特願2010−226680(P2010−226680)
【出願日】平成22年10月6日(2010.10.6)
【出願人】(000004352)日本放送協会 (2,206)
【出願人】(591053926)財団法人エヌエイチケイエンジニアリングサービス (169)