説明

音声合成装置、方法及びプログラム

【課題】音声合成装置における処理量、特に、予備選択における処理量を削減し、高速に音声合成処理を行う音声合成装置を提供する。
【解決手段】所定基準で選択した音声素片系列を基準とし、ある合成目標情報に対し、ある音声素片を使用する条件の下で、前記所定基準で選択した音声素片系列での合成音声波形の劣化度合いを示す、前記合成目標情報に対する音声素片のコスト悪化値を、合成目標情報ごとに示すコスト悪化値データベースを有し、入力合成目標情報それぞれについて、コスト悪化値データベースに含まれている1つ以上の合成目標情報を選択し、選択した合成目標情報に対応する複数の音声素片から、コスト悪化値に基づき、入力合成目標情報に対する音声素片候補を選択し、一連の入力合成目標情報と、選択した各入力合成目標情報に対する音声素片候補から、出力する合成音声波形に使用する一連の音声素片を選択する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データベース化した音声素片から最適な音声素片を選択し、選択した音声素片を接続することで音声を合成する音声合成装置、方法及びプログラムに関する。
【背景技術】
【0002】
音声合成技術の1つである素片接続型音声合成は、多数の音声素片をあらかじめデータベース化しておき、合成時には指定された合成目標情報の各パラメータに近く、かつ、前後の音声素片との接続関係の良好な音声素片を、素片データベースから選択して合成を行う方式である。各音声素片には、音素ラベル、音響パラメータ、音声コーパス内での出現環境等のパラメータが付されている。
【0003】
素片接続型音声合成においては、指定された合成目標情報に基づき、使用する音声素片の選択(以後、素片選択と呼ぶ。)を行うが、この素片選択は、コストと呼ぶ歪み尺度、つまり、選択した音声素片により合成される音声波形の、目標とする合成音声波形からの劣化度合いを示す指標に基づき行われる。コストは、通常、合成目標情報と音声素片との誤差を示すターゲットコストと、音声素片間の不連続の程度を示す接続コストに分けることができ、素片選択は全体のコストを最小とするように行われる。
【0004】
より自然性の高い合成音声を得るためには、大規模な素片データベースを使用する必要があるが、素片データベースの大規模化に伴い、考慮すべき音声素片の組合せ数が膨大なものとなり素片選択処理が困難になるという問題が発生する。この問題を解決するため、ターゲットコスト及び接続コストの両方を考慮した最終的な音声素片の選択を行う前に、ターゲットコストに基づき素片データベースに用意されている音声素片の絞込みを行う予備選択を行う構成が提案されている。
【0005】
しかしながら、近年、素片データベースはますます大規模なものとなり、この結果、素片選択の処理量を減らすために行われる予備選択の処理量が無視できないものとなっている。このため、特許文献1には、予備選択を多段で行うことにより予備選択処理量を削減する構成が記載されている。特許文献1によると、予備選択に使用するターゲットコストを、基本周波数、持続時間、MFCC(Mel−Frequency Cepstrum Coefficient)といったサブコストに分割し、順次サブコストによる絞込みを行うことで全体の計算回数を削減している。
【0006】
また、特許文献2には、テスト文による音声合成により各音声素片の選択頻度を調べ、選択頻度が少ない音声素片を素片データベースから削除することで選択処理の処理量を削減する構成が記載されている。
【0007】
【特許文献1】特開2005‐265895号公報
【特許文献2】特開2004‐37605号公報
【発明の開示】
【発明が解決しようとする課題】
【0008】
特許文献1に記載の構成では、音声合成時に、総ての音声素片候補について評価を行わなければならない点で従来技術と同じであり、この構成による処理量の削減には限界がある。更に、予備選択と素片選択においては異なる選択基準を用いているため、予備選択で選択される音声素片候補が、素片選択での選択基準において最も好ましいものとは限らないという問題がある。この問題に対処するためには、予備選択で選択する音声素片候補数をできるだけ多くする必要があるが、予備選択での選択数を多くすると、素片選択の処理量が増大するという問題が発生する。
【0009】
また、特許文献2に記載の構成では、テスト文が少ない場合、たまたまテスト文に含まれていなかった、使用頻度の高い音声素片が素片データベースから削除されてしまうことや、たまたまテスト文に含まれていた、使用頻度の低い音声素片が素片データベースに残ってしまうという問題が発生し得る。この問題に対処するためには、素片データベースと比較して、大量のテスト文を用意する必要があるが、素片データベースの大規模化に伴いテスト文を用意することが困難となる。
【0010】
したがって、本発明は、音声合成装置における処理量、特に、予備選択における処理量を削減し、高速に音声合成処理を行う音声合成装置、方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0011】
本発明における音声合成装置によれば、
一連の入力合成目標情報に基づき、素片データベースに用意されている複数の音声素片から一連の音声素片を選択し、選択した一連の音声素片それぞれに対応する音声波形を接続して合成音声波形を出力する音声合成装置であって、一連の試験合成目標情報に基づき、素片データベースから所定の基準で選択した音声素片系列を基準とし、ある試験合成目標情報に対してある音声素片を使用する条件の下、該所定の基準で選択した音声素片系列での合成音声波形の劣化度合いを示す、該試験合成目標情報に対する該音声素片のコスト悪化値を求め、各試験合成目標情報について、対応する音声素片のコスト悪化値を示すコスト悪化値データベースを生成するコスト悪化値計算手段と、入力合成目標情報それぞれについて、コスト悪化値データベースから1つ以上の試験合成目標情報を選択し、選択した試験合成目標情報に対応する音声素片から、コスト悪化値に基づき、入力合成目標情報に対する音声素片候補を選択する予備選択手段と、一連の入力合成目標情報に基づき、予備選択手段が選択した各入力合成目標情報に対する音声素片候補の中から、出力する合成音声波形に使用する一連の音声素片を選択する素片選択手段とを備えていることを特徴とする。
【0012】
本発明の音声合成装置における他の実施形態によれば、
予備選択手段は、コスト悪化値データベースに含まれる試験合成目標情報をグループ化し、グループ化した試験合成目標情報それぞれに対応する音声素片から、コスト悪化値に基づき複数の音声素片を選択し、選択した音声素片をグループと対応させて記録する予備選択結果データベース生成手段と、各入力合成目標情報が属するグループを判定し、判定したグループに対応する音声素片を、該入力合成目標情報に対する音声素片候補として選択する選択手段とを備えていることも好ましい。
【0013】
また、本発明の音声合成装置における他の実施形態によれば、
予備選択結果データベース生成手段は、同一単位音声に属する総ての試験合成目標情報を根ノードとし、該根ノードを順次分割することにより生成した決定木の葉ノードに含まれる試験合成目標情報を1つのグループとしてグループ化し、選択手段は、決定木に従い入力合成目標情報が属するグループを決定することも好ましい。
【0014】
更に、本発明の音声合成装置における他の実施形態によれば、
予備選択結果データベース生成手段は、評価値を最小にする集合分割を繰り返すことにより決定木の生成を行い、評価値は、分割により生成した各葉ノードの評価値を、各葉ノードに含まれる試験合成目標情報の数に基づき重み付けした値の和であり、葉ノードの評価値は、該葉ノードに含まれる各試験合成目標情報に対応する音声素片から、コスト悪化値に基づき選択した所定数の音声素片の、コスト悪化値の平均値であることも好ましい。
【0015】
更に、本発明の音声合成装置における他の実施形態によれば、
素片選択手段は、音声素片の接続による合成音声波形の劣化度合いのみを考慮して一連の音声素片の選択を行うことも好ましい。
【0016】
更に、本発明の音声合成装置における他の実施形態によれば、
コスト悪化値計算手段は、一連の試験合成目標情報それぞれに対応する1つ以上の音声素片を素片データベースから選択し、選択した音声素片を、一連の試験合成目標情報と同一順序に並べ、各音声素片を探索グラフのノードに対応させて、先頭及び末尾それぞれから動的計画法により、合成音声波形の劣化度合いを示すコスト計算を行うことで、前記基準とする音声素片系列と、前記基準とする音声素片系列と、前記ある音声素片を使用する条件の下での音声素片系列のコストを取得し、前記取得した各音声素片系列のコストに基づき、各試験合成目標情報について、素片データベースから選択した音声素片のコスト悪化値を求めることも好ましい。
【0017】
本発明における音声合成方法によれば、
一連の試験合成目標情報に基づき、素片データベースから所定の基準で選択した音声素片系列を基準とし、ある試験合成目標情報に対してある音声素片を使用する条件の下、該所定の基準で選択した音声素片系列での合成音声波形の劣化度合いを示す、該試験合成目標情報に対する該音声素片のコスト悪化値を有するコスト悪化値データベースを用い、一連の入力合成目標情報から合成音声波形を出力する音声合成方法であって、入力合成目標情報それぞれについて、コスト悪化値データベースから1つ以上の試験合成目標情報を選択し、選択した試験合成目標情報に対応する音声素片から、コスト悪化値に基づき、入力合成目標情報に対する音声素片候補を選択するステップと、一連の入力合成目標情報に基づき、各入力合成目標情報に対する音声素片候補の中から、出力する合成音声波形に使用する一連の音声素片を選択するステップと、選択された一連の音声素片それぞれに対応する音声波形を接続して合成音声波形を生成するステップとを有することを特徴とする。
【0018】
本発明におけるプログラムによれば、コンピュータを前記音声合成装置として機能させることを特徴とする。
【発明の効果】
【0019】
あらかじめ試験合成目標情報に対する各音声素片のコスト悪化値を示すコスト悪化値データベースを作成しておき、コスト悪化値に基づき予備選択を行う。ここで、試験合成目標情報に対する音声素片のコスト悪化値とは、所定基準で選択した音声素片系列での合成音声波形を基準とし、該試験合成目標情報に対して該音声素片を使用するとの条件の下、同じ所定基準で選択した音声素片系列での合成音声波形の劣化度合いを示す値であり、音声素片の接続も考慮されたものである。つまり、予備選択の選択基準は、素片選択の選択基準と同様であり、予備選択の精度が高くなる。よって、予備選択及び素片選択の処理量を増やすことなく、効率よく高速に音声合成処理を行うことが可能となる。
【0020】
更に、予備選択の精度が高くなるため、予備選択での候補数を減らしたとしても、高品質の音声を合成することができる。また、コスト悪化値を用いることで、音声素片の利用可能性についての評価値が得られることから、素片選択結果の頻度情報を用いた従来技術と異なり、コスト悪化値データベースの作成のために大量のテスト文を用いることなく高品質な音声合成を行うことができる。
【0021】
あらかじめ、コスト悪化値データベースに含まれる試験合成目標情報をグループ化し、各グループに対する音声素片を選択しておくことで、音声合成時における予備選択手段の処理は、入力合成目標情報が属するグループの判定のみとなり予備選択の処理量を削減することができる。グループの作成及び判定については決定木を用いることができ、試験合成目標情報とは異なる入力合成目標情報が与えられても、類似の試験合成目標情報に対する結果を反映させた適当な結果を素早く返すことができる。
【0022】
また、音声素片の接続により生じる合成音声波形の劣化の度合いのみを考慮して一連の音声素片の選択を行うことで音響特徴量パラメータを必要とするターゲットコスト計算を省略でき、音声合成の処理量を削減することが可能となる。更に、コスト悪化値の計算を、各音声素片を探索グラフのノードに対応させた上で、先頭からの動的計画法によるコスト計算と、末尾からの動的計画法によりコスト計算により求めることで、コスト悪化値データベースの作成処理負担を削減することができる。
【発明を実施するための最良の形態】
【0023】
本発明を実施するための最良の実施形態について、以下では図面を用いて詳細に説明する。ここで、“単位音声”とは、本発明による音声合成装置の合成処理単位であり、1つの単位音声に対して複数の音声素片(以後、単に“素片”と呼ぶ。)が対応する。なお、単位音声の具体例としては、音素、音節、単語がある。また、各素片は、1つの単位音声とのみ対応することとしても、複数の単位音声と対応することとしてもよい。更に、合成目標情報とは、合成する音声波形のために使用すべき素片を選択するための指標であり、素片と同様に単位音声と対応関係がある。つまり、合成目標情報が与えられると、単位音声を介して、与えられた合成目標情報に対応する複数の素片が求まり、音声合成装置は、ターゲットコスト及び接続コストを考慮して、対応する複数の素片から最適な素片を選択して音声合成を行う。
【0024】
図1は、本発明による音声合成装置のブロック図である。図1によると、音声合成装置は、前処理部1と、コスト悪化値計算部2と、予備選択部3と、素片選択部4と、音声波形接続部5と、コスト悪化値データベース6と、素片情報データベース7と、音声波形データベース8とを備えている。
【0025】
素片情報データベース7は、素片を特定する素片IDと、その素片の、例えば、基本周波数、MFCC、持続時間といった各パラメータについてのデータベースであり、音声波形データベース8は、素片IDで特定される素片の実際の波形についてのデータベースであり、素片情報データベース7及び音声波形データベース8で素片データベースを構成している。
【0026】
前処理部1は、入力テキストを、形態素解析、構文解析、単語辞書の参照等により単位音声に分割し、解析によって得られた韻律情報等を付し、テキスト解析情報として出力する。その後、テキスト解析情報に、MFCCや基本周波数等の音響特徴量パラメータを付して一連の合成目標情報として出力する。
【0027】
コスト悪化値計算部2は、前処理部1に入力された入力テキストから生成された一連の合成目標情報に基づき、素片情報データベース7を用いて、合成目標情報ごとに、対応する素片のコスト悪化値を示すコスト悪化値データベース6を生成する。なお、コスト悪化値データベース6は、入力テキストとして1つ以上のテスト文を使用して音声合成処理の開始前に作成しておく。
【0028】
以下、入力したテスト文が4つの単位音声により構成される場合を例にして、コスト悪化値計算部2によるコスト悪化値データベース6の作成について説明する。前処理部1は、入力テキスト文を4つの単位音声に分割し、単位音声ごとに合成目標情報を生成する。コスト悪化値計算部2は、前処理部1が生成した4つの合成目標情報それぞれに対応する複数の素片の素片情報を素片情報データベース7から取得する。本例においては、各合成目標情報それぞれについて、素片情報データベース7には4つの対応する素片が用意されているものとする。
【0029】
図4は、コスト悪化値計算のための探索グラフを示す図であり、ノードn11〜n14は、第1の合成目標情報に対応する4つ素片を、ノードn21〜n24は、第2の合成目標情報に対応する4つの素片を、ノードn31〜n34は、第3の合成目標情報に対応する4つの素片を、ノードn41〜n44は、第4の合成目標情報に対応する4つの素片を表す。ここでは、探索グラフを、これらの先頭及び末尾に無音を示すノードX及びノードYを付加して作成する。
【0030】
ノード間を結ぶ線は接続コストに、各ノードはターゲットコストに対応し、あるノードから他のノードへコストは、使用した経路の各接続コストと通過したノードのターゲットコストを順次加算することにより求める。なお、ノードX及びノードYに対応するターゲットコストは0である。ここで、ノードXからノードYに至る複数経路のうち、そのコストが最小となる最適経路を、ノードn11、n22、n32、n43であるものとし、第2の合成目標情報に対し、ノードn23を使用するという条件の下でのコストが最小となる経路が、ノードn14、n23、n34、n43であるものとする。このとき、ノードn11、n22、n32、n43の経路でのコストを基準としたときの、ノードn14、n23、n34、n43の経路でのコストの悪化度合いが、第2の合成目標情報についてのノードn23に対応する素片のコスト悪化値である。つまり、テスト文で与えられる一連の合成目標情報から、所定の基準により最適なものとして選択した素片の系列を基準とし、ある合成目標情報に対してある素片を使用するとの条件の下、同じ所定の基準で選択した素片の系列での合成音声波形の劣化度合いを示す指標が、その合成目標情報に対するその素片のコスト悪化値であり、以下の説明においては、最適経路のコストと、ある素片を使用するとの条件の下でのコストとの差をコスト悪化値として用いる。
【0031】
本実施形態においては、図4の探索グラフを用い動的計画法に基づき簡易な方法にて各素片のコスト悪化値を計算する。具体的には、t=1である各ノードに対しては、ノードXとの接続コストと、そのノードのターゲットコストを加算したものを、そのノードのノードXからの最小コストとして記録する。次に、t=2である各ノードに対し、それぞれ4つある1時点前のノードへの経路の接続コストと、その経路に接続されている1時点前のノードに記録されている最小コストを加算し、1番小さいものと、そのノードのターゲットコストを加算したものを、そのノードのノードXからの最小コストとして記録する。以後、ノードYに至るまで、時刻順に上記処理を繰り返す。この操作によりノードXから探索グラフ内の任意のノードnに至る最小コストc(X→n)が記録される。
【0032】
続いて、ノードYを先頭とし、時間軸逆向きに同様の処理を行う。ただし、ノードnの値としてc´(Y→n)=c(Y→n)−ct(n)を求める。ここで、ct(n)は、ノードnのターゲットコストである。グラフ上の任意のノードnについて、複数あるノードX→n→Yの経路のうち、その最小コストは、c(X→n)+c(n→Y)−ct(n)で与えられるが、c(n→Y)=c(Y→n)であるため、
c(X→n)+c(n→Y)−ct(n)=c(X→n)+c´(Y→n)
であり、コスト悪化値d(n)を、
d(n)=c(X→n)+c´(Y→n)−c(X→Y)
として求めることができる。本実施形態においては、ノードXからの処理を1回、ノードYからの処理を1回行うことで、総てのノードについて、各素片のコスト悪化値を求めることができ、各ノードから個別にノードYまでの最小コストを探索する必要はない。
【0033】
図5は、コスト悪化値データベース6を示す図であり、ある単位音声に属する合成目標情報A1、A2、A3、A4、A5・・・それぞれについて、同じ単位音声に属する素片と、そのコスト悪化値を示している。例えば、ある単位音声を音素“あ”とすると、合成目標情報A1、A2、A3、A4、A5は、テスト文から得られた単位音声“あ”に属する合成目標情報であり、素片a、a、a・・・は、用意されている素片のうち、単位音声“あ”に属する素片である。実際には、各単位音声について、例えば図示しないが、単位音声“い”に属する合成目標情報B1、B2・・・に対しても、同じく用意されている素片b、b・・・ごとのコスト悪化値がコスト悪化値データベース6には含まれている。
【0034】
予備選択部3は、実際の音声合成処理において、前処理部1によって入力テキストから生成された、一連の合成目標情報それぞれについて、コスト悪化値データベース6を参照して、各合成目標情報に対する素片候補を選択し、選択した素片候補の素片IDを出力する。
【0035】
予備選択部3による素片候補の選択方法の例として、前処理部1から入力された合成目標情報と同一の合成目標情報がコスト悪化値データベース6に存在する場合は、その合成目標情報に対応する素片うち、コスト悪化値の小さいものから所定数の素片を、又は、コスト悪化値が所定値より小さな素片を選択し、同一の合成目標情報がコスト悪化値データベース6に存在しない場合は、コスト悪化値データベース6に存在する一番近い合成目標情報から同様に素片候補を選択する方法がある。
【0036】
予備選択部3による素片候補の選択方法の他の例として、前処理部1から入力された合成目標情報に近い所定数の合成目標情報をコスト悪化値データベース6から選択し、選択した各合成目標情報に対応する素片のうち、同一素片のコスト悪化値の平均値を求め、平均値の小さいものから所定数の素片を、又は、平均値が所定値より小さな素片を選択する方法がある。更に、前処理部1から入力された合成目標情報と同一の合成目標情報がコスト悪化値データベース6にある場合は、その合成目標情報から、同一の合成目標情報がコスト悪化値データベース6に存在しない場合は、所定数の合成目標情報をコスト悪化値データベース6から選択してコスト悪化値の平均を計算する方法により選択しても良い。
【0037】
素片選択部4は、予備選択部3が選択した素片候補について、素片情報データベース7からパラメータを取得し、前処理部1からの一連の合成目標情報に基づき、素片候補の中から最適な組合せとなる素片を選択し、選択した素片の素片IDを出力する。
【0038】
音声波形接続部5は、素片選択部4が出力した素片IDに基づき音声波形データベース8から対応する素片の波形情報を取得し、波形を接続して合成した音声波形を出力する。
【0039】
本発明による音声合成装置においては、あらかじめテスト文に基づき、合成目標情報ごとに、その合成目標情報に属する素片のコスト悪化値を求めておき、コスト悪化値に基づき予備選択を行う。コスト悪化値は素片を強制的に選択したときの合成音声波形の劣化度合い、つまり、ターゲットコスト及び接続コスト両方が含まれる指標である。よって、本発明における予備選択は、素片データベースに用意されている素片を、ターゲットコスト及び接続コスト両方が含まれる指標により絞りこむものであり、予備選択を行わず素片選択部4が総ての素片から素片選択を行うとした場合に選択される素片が、素片候補に含まれる可能性が高くなる。つまり、予備選択の精度が高くなる。素片選択部4は、そのような素片候補から素片選択を行うため、予備選択部3及び素片選択部4での処理量を増やすことなく、効率よく高速に音声合成処理を行うことが可能となる。
【0040】
更に、予備選択の精度が高くなるため、予備選択での候補数を減らしたとしても、高品質の音声を合成することができる。また、コスト悪化値を用いることで、テスト文に含まれる単位音声に対応する総ての素片候補に対して、その利用可能性についての評価値が得られることから、素片選択結果の頻度情報を用いた従来技術と異なり、大量のテスト文を用いることなく高品質な音声合成を行うことができる。
【0041】
続いて、本発明による音声合成装置の他の実施形態について説明する。本実施形態の音声合成装置全体のブロック図は、図1と同じであるが、本実施形態において予備選択部3は、図2に示すように、予備選択結果データベース生成部31と、選択部32とを備えている。
【0042】
予備選択結果データベース生成部31は、コスト悪化値データベース6から、あらかじめ予備選択結果データベース9を作成しておく。図7は、予備選択結果データベース9を示す図である。図7に示すように予備選択結果データベース9とは、コスト悪化値データベース6のうち、同一単位音声に属する合成目標情報を後述するように所定の方法でグループ化し、グループ化した各合成目標情報それぞれに対応する複数の素片から、同じく後述するように所定数の素片をあらかじめ選択したものである。例えば、図7において、合成目標情報A1、A2、A3がグループ化され、このグループには、素片a、a、a・・・a38のk個の素片が選択されている。
【0043】
選択部32は、前処理部1からの各合成目標情報がどのグループに属するかを判定し、判定したグループに対応するk個の素片の素片IDを、素片候補として出力する。以下に、予備選択結果データベース生成部31による予備選択結果データベース9の作成について説明する。
【0044】
予備選択結果データベース生成部31は、合成目標情報のグループ化のため、単位音声ごとに決定木を作成する。図6は、予備選択結果データベース9の作成のための決定木を示す図である。まず、同一の単位音声に属する総ての合成目標情報の集合をTとし、これを決定木の根ノードとする。この集合Tを、質問q0により質問q0を満たす合成目標情報の集合T1と、質問q0を満たさない合成目標情報の集合T2に分割する。更に、集合T1を質問q1により、集合T2を質問q2により分割することを再帰的に繰り返して木構造を構築する。ここで、合成目標情報tに対して素片uを用いた場合のコスト悪化値をd(u、t)、t1及びn1を集合T1に属する合成目標情報及びその数、t2及びn2を集合T2に属する合成目標情報及びその数とする。ここで、総てのuに対して、総てのt1に対するd(u、t1)の平均値を計算し、その値の小さい方からk1個を選びその平均値をm1とする。同様に、総てのuに対して、総てのt2に対するd(u、t2)の平均値を計算し、その値の小さい方からk2個を選びその平均値をm2とする。なお、k1及びk2は、適当に定めたある整数とする。このとき、各質問qは、下記の式(1)
(n1×m1+n2×m2)/(n1+n2) (1)
を最小とし、かつ、Yes又はNoのいずれかで決まるものとする。つまり、集合分割を繰り返すことで決定木を構築する。また、Yes又はNoのいずれかで決まる質問とは、合成目標情報に含まれる離散量については、“中心音素は母音である”、合成目標情報に含まれる連続量については、“素片の時間長が50ms未満である”といったような質問を言う。これら質問については、複数のものをあらかじめ合成目標情報に含まれる情報を参照して経験的に作成しておく。
【0045】
なお、木構造が大きくなってしまうことを避けるために、例えば、次の分割停止条件を設定しておく。
(A)根ノードからの段数が所定値(例えば30段)以上となるとき。
(B)分割後の評価値の差がある閾値未満となるとき。ただし、分割前の評価値は、総てのtに対するd(u、t)の平均値を総てのuに対して計算し、その値の小さい方からk個選んだときの、その平均値mとする。また、分割後の評価値は、上記式(1)で与えられる値である。
(C)ノードに含まれる合成目標情報の数、つまりグループ内の合成目標情報tの数nが一定数以下となるとき。
【0046】
分割停止条件を満たさない葉ノードについては分割処理を行い、分割停止条件を満たす場合には分割を停止する。続いて、各葉ノードに含まれる合成目標情報の集合をTm、Tmに属する各合成目標情報をtm、Tmに属する合成目標情報がN個あるとき、ある素片uに対するコスト悪化値の平均値
【0047】
【数1】

を総ての素片について計算し、平均値の小さい方からk´個を、この葉ノードに対する予備選択結果として予備選択結果データベース9を生成する。
【0048】
選択部32は、前処理部1から合成目標情報が与えられたとき、与えられた合成目標情報に対応する単位音声のための決定木に基づき、与えられた合成目標情報の素片候補を選択する。具体的には、与えられた合成目標情報が、決定木の各質問qを満たすか否かを判定して、根ノードから順に葉ノード方向に辿り、葉ノードに達した場合、その葉ノードに対応するk´個の素片の素片IDを素片候補として出力する。
【0049】
本実施形態によれば、予備選択による素片候補を予備選択結果データベース9から決定木を用いて高速に取得することが可能となる。また、テスト文には含まれなかった合成目標情報が与えられても、類似の合成目標情報に対する結果を反映させた適当な結果を素早く返すことができ、よって、大量のテスト文を用いることなく高速な選択処理を行うことができる。なお、準備した総ての質問について評価を行い、質問に対する回答の一致度の最も高い合成目標情報に対する予備選択結果を出力する等、決定木を用いる方法でなくとも良い。
【0050】
最後に、前処理部1について説明する。図3は前処理部1のブロック図である。図3によると、前処理部1は、テキスト処理部11と、合成パラメータ生成部12とを備えている。テキスト処理部11は、入力テキストを、形態素解析、構文解析、単語辞書の参照等により単位音声に分割し、解析により得られた韻律情報等を付してテキスト情報として出力する。合成パラメータ生成部12は、テキスト情報に音響特徴量パラメータを付して出力する。
【0051】
ここで、前処理部1が出力する合成目標情報は、テキスト処理部11の出力とすることも可能であり、合成パラメータ生成部12の出力とすることも可能である。前者の場合には、音響特徴量パラメータが合成目標情報に含まれないこととなるため、素片選択部4は、ターゲットコストの算出ができず、よって、総ての素片候補についてターゲットコストを0と看做して処理を行う。つまり、素片の接続による合成音声波形の劣化を示す接続コストのみが考慮された素片選択が行われる。予備選択部3が出力する素片候補の各素片と、合成目標情報との誤差は、比較的小さいと考えられることから、その後の選択処理において、ターゲットコストを総て0と看做した素片選択を行っても、最終的なコストは比較的に小さくなると考えることができる。一方、接続コストの計算には合成目標情報に含まれる音響特徴量パラメータを必要としない。よって、前者の構成においては、合成パラメータ生成部12を省略することができ、かつ、素片選択部4においては音響特徴量パラメータを必要とするターゲットコスト計算を省略でき、音声合成の処理量を削減することが可能となる。
【0052】
なお、上記説明において、ある素片のコスト悪化値を、最適経路のコストと、その素片を強制的に選択したときの最適コストとの差として説明したが、強制的に選択したときのコストの、最適経路のコストに対する比とする等の方法であっても良い。また、コスト悪化値計算部2によるコスト悪化値データベース6の生成において計算対象とする素片を、素片情報データベース7に含まれる全素片としても、ターゲットコストにより絞込みを行い、ターゲットコスト値の小さい所定数の素片としても良い。ターゲットコストによる絞込みを行う場合は、コスト悪化値データベース6の生成処理負担の削減ができ、全素片を対象とする場合は、より正確なコスト悪化値データベース6を生成することができる。なお、ターゲットコストによる絞込みを行う場合、絞込みにより計算対象とされなかった素片のコスト悪化値については、当該合成目標情報について計算された素片のうち、最悪の値、又は、それ以上の値を使用する。
【0053】
また、本発明による音声合成装置は、コンピュータに読み込まれることにより、そのコンピュータに図1、2、3に示す各機能ブロックの動作を行わせるプログラムにより実現することができる。
【図面の簡単な説明】
【0054】
【図1】本発明による音声合成装置のブロック図である。
【図2】予備選択部のブロック図である。
【図3】前処理部のブロック図である。
【図4】コスト悪化値データベースの作成の説明図である。
【図5】コスト悪化値データベースを示す図である。
【図6】予備選択結果データベース作成のための決定木を示す図である。
【図7】予備選択結果データベースを示す図である。
【符号の説明】
【0055】
1 前処理部
11 テキスト処理部
12 合成パラメータ生成部
2 コスト悪化値計算部
3 予備選択部
31 予備選択結果データベース生成部
32 選択部
4 素片選択部
5 音声波形接続部
6 コスト悪化値データベース
7 素片情報データベース
8 音声波形データベース
9 予備選択結果データベース

【特許請求の範囲】
【請求項1】
一連の入力合成目標情報に基づき、素片データベースに用意されている複数の音声素片から一連の音声素片を選択し、選択した一連の音声素片それぞれに対応する音声波形を接続して合成音声波形を出力する音声合成装置であって、
一連の試験合成目標情報に基づき、素片データベースから所定の基準で選択した音声素片系列を基準とし、ある試験合成目標情報に対してある音声素片を使用する条件の下、該所定の基準で選択した音声素片系列での合成音声波形の劣化度合いを示す、該試験合成目標情報に対する該音声素片のコスト悪化値を求め、各試験合成目標情報について、対応する音声素片のコスト悪化値を示すコスト悪化値データベースを生成するコスト悪化値計算手段と、
入力合成目標情報それぞれについて、コスト悪化値データベースから1つ以上の試験合成目標情報を選択し、選択した試験合成目標情報に対応する音声素片から、コスト悪化値に基づき、入力合成目標情報に対する音声素片候補を選択する予備選択手段と、
一連の入力合成目標情報に基づき、予備選択手段が選択した各入力合成目標情報に対する音声素片候補の中から、出力する合成音声波形に使用する一連の音声素片を選択する素片選択手段と、
を備えていることを特徴とする音声合成装置。
【請求項2】
予備選択手段は、
コスト悪化値データベースに含まれる試験合成目標情報をグループ化し、グループ化した試験合成目標情報それぞれに対応する音声素片から、コスト悪化値に基づき複数の音声素片を選択し、選択した音声素片をグループと対応させて記録する予備選択結果データベース生成手段と、
各入力合成目標情報が属するグループを判定し、判定したグループに対応する音声素片を、該入力合成目標情報に対する音声素片候補として選択する選択手段と、
を備えていることを特徴とする請求項1に記載の音声合成装置。
【請求項3】
予備選択結果データベース生成手段は、同一単位音声に属する総ての試験合成目標情報を根ノードとし、該根ノードを順次分割することにより生成した決定木の葉ノードに含まれる試験合成目標情報を1つのグループとしてグループ化し、
選択手段は、決定木に従い入力合成目標情報が属するグループを決定すること、
を特徴とする請求項2に記載の音声合成装置。
【請求項4】
予備選択結果データベース生成手段は、評価値を最小にする集合分割を繰り返すことにより決定木の生成を行い、
評価値は、分割により生成した各葉ノードの評価値を、各葉ノードに含まれる試験合成目標情報の数に基づき重み付けした値の和であり、
葉ノードの評価値は、該葉ノードに含まれる各試験合成目標情報に対応する音声素片から、コスト悪化値に基づき選択した所定数の音声素片の、コスト悪化値の平均値であること、
を特徴とする請求項3に記載の音声合成装置。
【請求項5】
素片選択手段は、音声素片の接続により生じる合成音声波形の劣化度合いのみを考慮して一連の音声素片の選択を行うこと、
を特徴とする請求項1から4のいずれか1項に記載の音声合成装置。
【請求項6】
コスト悪化値計算手段は、
一連の試験合成目標情報それぞれに対応する1つ以上の音声素片を素片データベースから選択し、
選択した音声素片を、一連の試験合成目標情報と同一順序に並べ、
各音声素片を探索グラフのノードに対応させて、先頭及び末尾それぞれから動的計画法により、合成音声波形の劣化度合いを示すコスト計算を行うことで、前記基準とする音声素片系列と、前記ある音声素片を使用する条件の下での音声素片系列のコストを取得し、
前記取得した各音声素片系列のコストに基づき、各試験合成目標情報について、素片データベースから選択した音声素片のコスト悪化値を求めること、
を特徴とする請求項1から5のいずれか1項に記載の音声合成装置。
【請求項7】
一連の試験合成目標情報に基づき、素片データベースから所定の基準で選択した音声素片系列を基準とし、ある試験合成目標情報に対してある音声素片を使用する条件の下、該所定の基準で選択した音声素片系列での合成音声波形の劣化度合いを示す、該試験合成目標情報に対する該音声素片のコスト悪化値を有するコスト悪化値データベースを用い、一連の入力合成目標情報から合成音声波形を出力する音声合成方法であって、
入力合成目標情報それぞれについて、コスト悪化値データベースから1つ以上の試験合成目標情報を選択し、選択した試験合成目標情報に対応する音声素片から、コスト悪化値に基づき、入力合成目標情報に対する音声素片候補を選択するステップと、
一連の入力合成目標情報に基づき、各入力合成目標情報に対する音声素片候補の中から、出力する合成音声波形に使用する一連の音声素片を選択するステップと、
選択された一連の音声素片それぞれに対応する音声波形を接続して合成音声波形を生成するステップと、
を有することを特徴とする音声合成方法。
【請求項8】
請求項1から6のいずれか1項に記載の音声合成装置としてコンピュータを機能させることを特徴とするプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2008−26452(P2008−26452A)
【公開日】平成20年2月7日(2008.2.7)
【国際特許分類】
【出願番号】特願2006−196662(P2006−196662)
【出願日】平成18年7月19日(2006.7.19)
【出願人】(000208891)KDDI株式会社 (2,700)