説明

音声合成装置およびプログラム

【課題】目的話者の声質に違和感を与えない他話者の音声素片を利用し、高品質な合成音声を効率よく作成する音声合成装置を提供する。
【解決手段】音声合成装置が、複数の音声素片のそれぞれの特徴量に基づき、それら複数の音声素片の間の音素特徴量適合度を算出する音素特徴量適合度推定部と、前記表記データ記憶部から取得する表記データに基づいて、前記目的とする合成音声を構成する音声素片の候補を前記音声データベース記憶部の中から選択するとともに、選択された前記音声素片の候補のうち、他話者の音声素片と比較対象となる音声素片との間の音素特徴量適合度を前記音素特徴量適合度推定部に算出させ、当該音素特徴量適合度に基づいて当該音声素片の候補を採用するか否かを決定し、その結果採用された前記音声素片によって構成された前記合成音声を出力する音声素片選択部を具備する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、合成音声を生成する音声合成装置に関する。特に、本発明は、目的話者とは異なる他話者の音声を利用して合成音声を生成する音声合成装置に関する。
【背景技術】
【0002】
目的話者の音声素片を用いて合成音声を構成する際に、目的話者の声質の適切な音声素片が存在しなければ、音声素片を変換して用いることが考えられる。特許文献1には声質の変換について記載されている。
【0003】
しかしながら、変換量が大きいと、音声素片自体の音質が劣化してしまう場合がある。目的話者の音声素片のバリエーションが不足している場合に、他話者の音声素片を目的話者の声質に違和感を与えない範囲で、目的話者の音声素片と同等に利用できれば、音声素片の不足を補い、音声素片のバリエーションを拡大できることが考えられている。特許文献2には、他話者の音声素片のデータベースを用いて音声合成を行なう技術が記載されている。
【0004】
一方、他話者の音声素片の利用する場合には、目的話者の音声素片による文章中に他話者の音声素片を存在させる形で合成音声を構成するため、全体として不自然な音声にならないようにすることが望ましい。非特許文献1には、そのような場合に、他話者の音声素片の時間長が短い場合、あるいは他話者の音声素片の部分の基本周波数が低く韻律として目立たない場合には、他話者であることを気付きにくく、全体として自然な音声が得られることが記載されている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2007−148172号公報
【特許文献2】特開2007−025042号公報
【非特許文献】
【0006】
【非特許文献1】田高礼子,世木寛之,清山信正,都木徹,「別話者音素による部分置換音声の自然性とスペクトル特徴量について」,電子情報通信学会,電子情報通信学会技術研究報告.SP,音声,2008年3月,vol.107,no.551,p.123−128
【発明の概要】
【発明が解決しようとする課題】
【0007】
目的話者とは異なる他話者の音声素片を利用して合成音声を構成する場合に、利用する音声素片の特徴に応じて、全体としての音声における不自然さが目立つ場合と目立たない場合の両方が存在すると考えられる。しかしながら、総当り的なトライアンドエラーで他話者の音声素片を選択していては、合成音声を得るための効率が悪い。違和感なく利用できる他話者の音声素片を選択するにあたって、利用可能であるかどうかを所定の条件により効率よく選択できることが求められる。
【0008】
本発明は上記のような課題を解決するために為されたものであり、主として目的話者の音声素片で構成する合成音声中に、目的話者の声質に違和感を与えない他話者の音声素片を利用し、高品質な合成音声を効率よく作成することのできる音声合成装置およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0009】
[1]上記の課題を解決するため、本発明の一態様による音声合成装置は、目的話者および他話者の音声素片を記憶する音声データベース記憶部と、目的とする合成音声に対応する表記データを記憶する表記データ記憶部と、複数の音声素片のそれぞれの特徴量に基づき、それら複数の音声素片の間の音素特徴量適合度を算出する音素特徴量適合度推定部と、前記表記データ記憶部から取得する表記データに基づいて、前記目的とする合成音声を構成する音声素片の候補を前記音声データベース記憶部の中から選択するとともに、選択された前記音声素片の候補のうち、他話者の音声素片と比較対象となる音声素片との間の音素特徴量適合度を前記音素特徴量適合度推定部に算出させ、当該音素特徴量適合度に基づいて当該音声素片の候補を採用するか否かを決定し、その結果採用された前記音声素片によって構成された前記合成音声を出力する音声素片選択部と、を具備することを特徴とする。
この構成によれば、算出された音素特徴量適合度に基づき、適合度の高い音声素片を採用した合成音声が出力される。
【0010】
[2]また、本発明の一態様による音声合成装置は、上記の音声合成装置において、前記音声素片の音素の種類と、前記合成音声における当該音声素片の前後の音声素片の音素の種類とに少なくとも基づいて音素環境適合度を算出する音素環境推定部を更に具備し、前記音声素片選択部は、前記音声素片の候補のうち、他話者の音声素片についての音素環境適合度を前記音素環境推定部に算出させ、当該音素環境適合度にも基づいて当該音声素片の候補を採用するか否かを決定する、ことを特徴とするものである。
この構成によれば、採用候補となる音声素片の前後音素環境を判別し、その判別結果に基づく音素環境適合度が計算される。そして、音素環境適合度の高い音声素片を採用した合成音声が出力される。
なお、音素環境推定部が、更に、音素種類判別に基づき音素環境適合度を算出するようにしてもよい。
また、音素環境推定部が、更に、韻律環境判別に基づき音素環境適合度を算出するようにしてもよい。
【0011】
[3]また、本発明の一態様による音声合成装置は、上記の音声合成装置において、前記音素特徴量適合度推定部は、前記音声素片のスペクトル傾斜又はFFTケプストラム係数の1次の係数又は声帯音源の特性を表わす特徴量のいずれかの値を前記特徴量とする、ことを特徴とするものである。
なお、FFTケプストラム係数とは、FFT(高速フーリエ変換)を用いて求められたケプストラム係数である。この構成によれば、低周波数域から高周波数域にかけてのフォルマントの減衰度を特徴量として利用し、適合度の高い音声素片を採用した合成音声が出力される。
【0012】
[4]また、本発明の一態様による音声合成装置は、上記の音声合成装置において、前記音素特徴量適合度推定部は、前記音声素片の音声スペクトルのうち所定の周波数帯域におけるスペクトル重心の周波数を前記特徴量とする、ことを特徴とするものである。
この構成によれば、所定の周波数低域(例えば低周波数帯域)におけるスペクトル重心を特徴量として利用し、適合度の高い音声素片を採用した合成音声が出力される。
【0013】
[5]また、本発明の一態様による音声合成装置は、上記の音声合成装置において、前記音素特徴量適合度推定部は、前記音声素片のフォルマント周波数およびフォルマントバンド幅を前記特徴量とする、ことを特徴とするものである。
この構成によれば、フォルマント周波数およびフォルマントバンド幅を特徴量として利用し、適合度の高い音声素片を採用した合成音声が出力される。
【0014】
[6]また、本発明の一態様による音声合成装置は、上記の音声合成装置において、他話者の音声素片の数の比率の設定値を記憶する他話者比率設定記憶部を更に具備し、前記音声素片選択部は、前記合成音声を構成する音声素片のうち他話者の音声素片の比率が前記他話者比率設定記憶部から読み出した前記設定値以下になるように、算出した前記音素環境適合度が上位の他話者の音声素片を採用するとともに、その他の他話者の音声素片については再選した目的話者の音声素片で置き換える、ことを特徴とするものである。
【0015】
[7]また、本発明の一態様によるコンピュータプログラムは、目的話者および他話者の音声素片を記憶する音声データベース記憶部と、目的とする合成音声に対応する表記データを記憶する表記データ記憶部と、を具備するコンピュータに、複数の音声素片のそれぞれの特徴量に基づき、それら複数の音声素片の間の音素特徴量適合度を算出する音素特徴量適合度推定過程と、前記表記データ記憶部から取得する表記データに基づいて、前記目的とする合成音声を構成する音声素片の候補を前記音声データベース記憶部の中から選択するとともに、選択された前記音声素片の候補のうち、他話者の音声素片と比較対象となる音声素片との間の音素特徴量適合度を前記音素特徴量適合度推定過程で算出させ、当該音素特徴量適合度に基づいて当該音声素片の候補を採用するか否かを決定し、その結果採用された前記音声素片によって構成された前記合成音声を出力する音声素片選択過程と、の処理を実行させる。
【発明の効果】
【0016】
本発明によれば、目的話者の音声素片の不足を補い、バリエーションを拡張するために、目的話者の音声素片と違和感なく利用できる他話者の音声素片を選択し利用することができ、合成音声の品質向上につながる。また、そのような他話者の音声素片の選択の処理の全部又は一部を自動的に行うことができ、他話者音声素片の選択の効率が上がる。
【図面の簡単な説明】
【0017】
【図1】本発明の実施形態による音声合成装置の機能構成を示したブロック図である。
【図2】同実施形態による音声データベース(目的話者音声データベース,他話者音声データベース)の構成およびデータ例を示した概略図である。
【図3】同実施形態による合成音声記憶部の構成およびデータ例を示した概略図を示したブロック図である。
【図4】同実施形態による音素特徴量適合度推定部113が利用する特徴量のひとつであるスペクトル傾斜を説明するためのグラフである。
【図5】同実施形態による音素特徴量適合度推定部113が利用する特徴量のひとつである低域スペクトル重心を説明するためのグラフである。
【図6】同実施形態による音声合成装置全体の処理手順を示したフローチャートである。
【発明を実施するための形態】
【0018】
以下、図面を参照しながら本発明の実施形態について説明する。
図1は、本実施形態による音声合成装置の機能構成を示すブロック図である。図示するように、音声合成装置10は、音声素片選択部110と、音素環境適合度推定部112と、音素特徴量適合度推定部113と、他話者音声素片箇所指定部120と、音声データベース記憶部130と、比較音素指定部140と、合成音声記憶部150と、テキスト記憶部155(表記データ記憶部)と、他話者比率設定記憶部160と、デフォルト設定記憶部170とを含んで構成される。
また、音声データベース記憶部130は、目的話者音声データベース131と他話者音声データベース132とを含む。
【0019】
なお、音声素片選択部110、音素環境適合度推定部112、音素特徴量適合度推定部113、他話者音声素片箇所指定部120、比較音素指定部140は、電子回路等を用いた情報処理装置として実現される。また、音声データベース記憶部130、合成音声記憶部150、テキスト記憶部155、他話者比率設定記憶部160、デフォルト設定記憶部170は、例えば磁気ディスク装置や半導体メモリ等を用いて実現される。
これら各部の機能は、次に記載する通りである。
【0020】
音声素片選択部110は、テキスト記憶部155に格納されている表記データ(平仮名文や、漢字・仮名混じり文や、音素ラベル表記)に基づいて、目的とする合成音声を構成する音声素片の候補を音声データベース記憶部130の中から選択する。なお、表記データが平仮名文や漢字・仮名混じり文で記憶されている場合には、音声素片選択部110は、その表記データを適宜音素ラベル表記に変換してから、音声データベース記憶部130に記憶されている音声素片の候補を選択する。また、音声素片選択部110は、合成音声を構成するための音声素片の候補のうち、他話者の音声素片と比較対象となる音声素片との間の音素特徴量適合度を音素特徴量適合度推定部113に算出させ、当該音素特徴量適合度に基づいて当該音声素片の候補を採用するか否かを決定する。また、音声素片選択部110は、音声素片の候補のうち、他話者の音声素片についての音素環境適合度を音素環境推定部に算出させ、当該音素環境適合度にも基づいて当該音声素片の候補を採用するか否かを決定する。そして、音声素片選択部110は、その結果採用することとなった音声素片を利用して構成した合成音声を出力する。また、音声素片選択部110は、合成音声を構成する音声素片のうち他話者の音声素片の比率が他話者比率設定記憶部160から読み出した設定値以下になるように、算出した音素環境適合度が上位の他話者の音声素片を採用するとともに、その他の他話者の音声素片については再選した目的話者の音声素片で置き換える。
【0021】
音素環境適合度推定部112は、音声素片の音素の種類と、合成音声における当該音声素片の前後の音声素片の音素の種類とに少なくとも基づいて音素環境適合度を算出する。更に、音素環境適合度推定部112は、当該音素の音素種類の判別や、韻律環境の判別にも基づいて音素環境適合度を算出するようにしても良い。
なおここで、音素の種類とは、(1)音素が母音か子音か、(2)音素が有声音か無声音か、(3)音素の調音方式(例えば、鼻子音など)、の(1)〜(3)のいずれか、あるいはこれらの組み合わせによって分類される種類である。
音素特徴量適合度推定部113は、与えられる複数の音声素片のそれぞれの特徴量に基づき、それら複数の音声素片の間の音素特徴量適合度を算出する。ここで、音声素片の特徴量とは、スペクトル傾斜、低域スペクトル重心、フォルマント(formant)周波数、フォルマントバンド幅などであるが、これらについては後で詳述する。
【0022】
他話者音声素片箇所指定部120は、ユーザーからの入力等に基づき、合成音声中で他話者音声素片を利用する箇所の指定と、音声素片を選択する音声データベースの範囲の指定とを行う。
音声データベース記憶部130は、目的話者および他話者の音声素片を記憶する。
比較音素指定部140は、音素特徴量適合度推定部によって比較される対象となる音声素片、すなわち基準となる音声素片を指定する。
【0023】
合成音声記憶部150は、合成音声を構成するための複数の音声素片に関するデータを記憶する。音声素片選択部110が音声素片を選択したり棄却したりするときに、この合成音声記憶部150も適宜書き換えられる。
テキスト記憶部155は、目的とする合成音声に対応する表記データのテキストを記憶する。この表記データは、例えば、日本語の平仮名等のデータである。なお、音素に対応するラベルの列として、例えば音素ラベル表記など、平仮名以外の形のデータを用いても良い。
他話者比率設定記憶部160は、他話者の音声素片の数の比率の設定値を記憶する。
デフォルト設定記憶部170は、デフォルト設定値を記憶する。デフォルト設定値とは、例えば、合成音声中で他話者音声素片を利用する箇所や、音声素片を選択する音声データベースの範囲などである。
【0024】
なお、音素とは、言語において意味の弁別に用いられる最小の音の単位である。例えば日本語においては、「a」、「i」、「u」、「e」、「o」といった母音と、「k」、「s」、「t」、「n」、「h」、「m」、・・・などといった子音が、それぞれ音素に対応する。
また、音声素片とは、合成音声を構成するための構成要素であり、予め用意された短い単位の音声データである。音声素片は、単一の音素に対応していても良いし、複数の音素の列に対応していても良い。
【0025】
また、基本周波数とは、音声信号の最も低い周期性のある周波数成分の周波数である。
また、フォルマントとは、音声の周波数スペクトルにおけるピークである。これらのピークのうち、周波数の低い方から順に第1フォルマント、第2フォルマント、第3フォルマント、・・・と呼ぶ。フォルマント周波数のパターンは、音素を特徴付ける要素である。
また、目的話者とは、合成音声を構成する際にターゲットとなる話者である。作成される合成音声を構成する音声素片の主要な話者は、目的話者である。
また、他話者とは、目的話者とは異なる話者である。本実施形態による音声合成装置10は、他話者の音声素片も一部に混在させながら、全体としては目的話者の音声であるように人が認識できる合成音声を作成する。
【0026】
図2は、音声データベース記憶部130に記憶される音声データベース(目的話者音声データベース131および他話者音声データベース132)のデータ構成とデータ例を示す概略図である。図示するように、この音声データベースは表形式のデータであり、話者識別情報と、音声素片識別情報と、音素ラベル表記と、トライフォン(triphone)と、音声信号データと、スペクトル特徴量と、基本周波数情報の各項目を有している。
このデータの行は音声素片ごとに存在し、データの主キーは音声素片識別情報である。
話者識別情報は、話者を一意に識別するデータである。
【0027】
音声素片識別情報は、音声素片を一意に識別する情報である。
音素ラベル表記は、ローマ字を用いて当該音声素片の発音を表記したデータである。ここで、大文字の「Q」は促音を表わし、記号の「:」(コロン)は長音を表わす。従って、例えば、表中の音声素片識別情報が「B0001」の行における音素ラベル表記「hoQkaido:」は、「ほっかいどー」という発音を表わす。
トライフォンは、音素環境を表わす表記である。例えば、表中の音声素片識別情報が「B0009」の行におけるトライフォン「a−o+i」は、当該音声素片の音素「o」に先行する音素が「a」であって、後続する音素が「i」であることを表している。このトライフォンにおける表記「sil」は無音を表す。つまり、表中の音声素片識別情報が「B0007」の行におけるトライフォン「o−i+sil」は、当該音声素片の音素「i」に先行する音素が「o」であり、後続する音素が無音であることを表している。このように、例えば表中の音声素片識別情報が「B0004」の行と「B0005」の行とを比較すると、話者識別情報「A001」と音素ラベル表記「a」が共通であるが、トライフォンが異なっている。つまり、音声データベース記憶部130は、音素環境にも応じた音声素片を格納している。
音声信号データは、当該音声素片の音声信号そのものを表わすデータである。この音声信号データは、例えば、時系列の音圧レベルのデータとして表わされたり、所定の短い期間における周波数スペクトルのデータとして表わされたりする。
スペクトル特徴量は、当該音声素片の特徴量を表わすデータであり、例えばMFCC(メル周波数ケプストラム係数,Mel-Frequency Cepstrum Coefficient)などを用いる。
基本周波数情報は、当該音声素片の基本周波数を表わすデータであり、当該音声素片における基本周波数の代表的な値、又は基本周波数の時系列の値などを用いる。あるいは、基本周波数の範囲をH(High、高周波数)とL(Low、低周波数)で2値化し、この「H」または「L」の時系列の値を基本周波数情報としても良い。
なお、上記のスペクトル特徴量や基本周波数は、後述するように、音声素片の選択の際に用いられる。
【0028】
なお、目的話者音声データベース131と他話者音声データベース132とを、個別のデータベーステーブルに格納しても良いし、共通のデータベーステーブルに格納しても良い。いずれの場合にも、話者識別情報をデータ内に保持しているため、目的話者の話者識別情報とデータベース上の話者識別情報を比較することにより、目的話者音声素片と他話者音声素片とを区別することができる。
また、図示したデータ項目のほかに、例えば音声ファイル番号や時間情報等を音声データベース記憶部上のテーブルの項目として保持するようにしても良い。ここで、音声ファイル番号は、テーブルの外部に記憶されており音声信号データ等を保持している音声ファイルを一意に識別するための番号である。また、時間情報は、音声信号データに含まれる対象の音素の時間情報(当該音素の開始点および終了点を先頭からの相対時刻で表した情報)である。
【0029】
図3は、合成音声記憶部150に記憶される合成音声データのデータ構成とデータ例を示す概略図である。図示するように、この音声データベースは表形式のデータであり、合成音声識別情報と、順序と、話者識別情報と、音声素片識別情報と、音素ラベル表記と、音声信号データの各項目を有する。なお、このデータにおいて、合成音声を構成する個々の音声素片ごとに行が存在する。
【0030】
合成音声識別情報は、合成音声を一意に識別するデータである。
順序は、ある合成音声内での音声素片の順序を示す値である。
話者識別情報は、音声素片の話者を一意に識別するデータであり、音声データベース記憶部130に記憶される話者識別情報と同様のものである。
音声素片識別情報は、音声素片を一意に識別するデータである。
音素ラベル表記は、その音声素片の音素ラベルを表わすデータであり、音声データベース記憶部130に記憶される音素ラベル表記と同様のものである。
音声信号データは、当該音声素片の音声信号そのものを表わすデータであり、音声データベース記憶部130に記憶される音声信号データと同様のものである。
なお、同図に示すデータ例では、合成音声識別情報「C0001」によって識別される合成音声の1番目の音声素片の話者識別情報は「A001」であり、その音声素片識別情報は「B0002」であり、その音素ラベル表記は「to:kyo:」である。また、同合成音声の2番目の音声素片の話者識別情報は「A002」であり、その音声素片識別情報は「B0777」であり、その音素ラベル表記は「kara」である。3番目以降の音声素片についても同様である。
【0031】
次に、音声素片の適合度の推定について説明する。音声合成装置10は、音声素片の適合度として、音素環境適合度と音素特徴量適合度とを用いる。
【0032】
音素環境適合度推定部112は、音素環境適合度を推定する。そのため、音素環境適合度推定部112は、音素種類の判別と、前後音素環境の判別と、韻律環境判別とを行う。
【0033】
音素種類の判別においては、音素環境適合度推定部112は、(1)母音か子音かの判別、(2)有声音か無声音かの判別、(3)調音方式による判別を行う。
(1)母音/子音の判別
音素環境適合度推定部112は、母音と子音のそれぞれに対して予め定められた指標を記憶しており、適合度推定の対象となる音声素片が母音あるいは子音のいずれであるかに応じて、その指標値を当該音声素片の音素環境適合度の算出に用いる。なお、母音よりも子音の方が、音素環境適合度が高い(適合しやすい)。
(2)有声音/無声音の判別
音素環境適合度推定部112は、有声音と無声音のそれぞれに対して予め定められた指標を記憶しており、適合度推定の対象となる音声素片が有声音あるいは無声音のいずれであるかに応じて、その指標値を当該音声素片の音素環境適合度の算出に用いる。なお、有声音よりも無声音の方が、音素環境適合度が高い(適合しやすい)。
(3)調音方式の判別
調音方式とは、音声器官によって声道に閉鎖又は狭まりを形成する方式のことである。例えば、鼻にかかる音である「m」と「n」とは、共通の調音方式に属する。また、一旦口を閉じてから破裂する音である「p」と「t」と「k」とは、共通の調音方式に属する。音素環境適合度推定部112は、それぞれの調音方式に対して予め定められた指標を記憶しており、適合度推定の対象となる音声素片の調音方式がそれらのいずれであるかに応じて、その指標値を当該音声素片の音素環境適合度の算出に用いる。
【0034】
前後音素環境の判別においては、音素環境適合度推定部112は、音素の種類ごと及びその話者ごとの前後音素環境の指標を予め記憶している。そして、音素環境適合度推定部112は、合成音声記憶部150に記憶されている順序のデータに基づいて対象の音声素片の前後の音声素片のデータを読み出し、当該対象の音声素片の前後の音素の種類およびその話者を判別する。そして、音素環境適合度推定部112は、判別した音素の種類およびその話者に応じた指標値を、音素環境適合度の算出に用いる。
上記の方法で算出される前後音素環境に基づく適合度は、前後の音のつながりの良さを表わす。
【0035】
韻律環境の判別においては、音素環境適合度推定部112は、音素時間長と、その音素の基本周波数の相対的な高さに応じた指標を予め記憶している。そして、対象の音素の音素時間長と、その音素の基本周波数の相対的な高さのそれぞれに応じた指標値を、音素環境適合度の算出に用いる。
なお、音素時間長が短い程、音素環境適合度が高い(適合しやすい)。また、音素時間長が所定の閾値よりも長い場合には、音素環境適合度が極端に低くなる(利用できない)。また、音素の基本周波数が低い程、音素環境適合度が高い(適合しやすい)。
【0036】
なお、複数の音素を含む音声素片については、音素環境適合度推定部112は、そのそれぞれの音素についての音素環境適合度を算出する。
そして、音素環境適合度推定部112は、上で得られた各指標値の重み付総和により音素環境適合度を算出する。
【0037】
音素特徴量適合度推定部113は、音素特徴量適合度を推定する。そのため、音素特徴量適合度推定部113は、スペクトル特徴量を比較する処理を行う。ここで利用するスペクトル特徴量は、スペクトル傾斜、FFTケプストラム係数の1次の係数(C1)、声帯音源の特性(スペクトル特性)を表わす特徴量、スペクトルの低い周波数帯域のスペクトル重心(低域スペクトル重心)、フォルマント周波数、フォルマントバンド幅などである。
【0038】
図4は、音素特徴量適合度推定部113が求めるスペクトル傾斜を説明するための音声スペクトル包絡を示すグラフである。
同図において、横軸は周波数(単位はヘルツ)、縦軸は強度(単位はデシベル)である。また、図示する音声スペクトル包絡に現れるピーク点が、周波数の低い側から点P,P,P,・・・である。また、同グラフにおける点P,P,Pの座標が、それぞれ、(f、m),(f、m),(f、m)である。この周波数f,f,fは、それぞれ、第1、第2、第3フォルマント周波数である。
スペクトル傾斜とは、これら複数のピーク点のうちの所定の2つのピーク点を結ぶ直線の傾斜である。
スペクトル傾斜を算出するために、音素特徴量適合度推定部113は、音素の周波数スペクトルの包絡線を求め、その包絡線における複数のピーク点を求め、周波数の低い側から1番目のピークと3番目のピークとを結んだ直線の傾きを計算する。これがスペクトル傾斜であり、周波数の低域から高域にかけての減衰度合いを表わす特徴量である。
つまり、音素特徴量適合度推定部113は、下の式(1)によりスペクトル傾斜gを計算する。
【0039】
【数1】

【0040】
また、スペクトル傾斜を近似する値として、FFTケプストラム係数の1次の係数を特徴量として利用しても良い。
【0041】
また、スペクトル傾斜は、声帯音源の特性と音声を発する時の放射特性の影響を受ける。そして、放射特性はほぼ一定と考えることができるため、スペクトル傾斜は声帯音源の特性によって変わると言える。そこで、この声帯音源の特性が影響する他の特徴量を、スペクトル傾斜の代わりに用いても良い。具体的には、声帯音源の特性を表わす特徴量としては、中高域の雑音成分の割合や、FFTスペクトルから得られる第1調波と第2調波のパワー(デシベル)差分や、FFTスペクトルから得られる第1調波とF3付近ピークのパワー(デシベル)差分のいずれかを用いることができる。
【0042】
図5は、音素特徴量適合度推定部113が求める低域スペクトル重心を説明するための音声スペクトル包絡を示すグラフである。
同図においても同じく、横軸は周波数(単位はヘルツ)、縦軸は強度(単位はデシベル)である。また、Lは、スペクトルの低い周波数帯域であり、この帯域Lの範囲は予め定められている。
そして、音素特徴量適合度推定部113は、下の式(2)により、低域スペクトル重心f(スペクトル重心の周波数)を計算する。
【0043】
【数2】

【0044】
なお、式(2)におけるm(f)は、音声スペクトルにおける周波数fでの強度を表わす。
【0045】
なお、フォルマント周波数は、音声スペクトルにおける複数のピーク(フォルマント)の周波数である。また、フォルマントバンド幅は、上記のフォルマントのバンド幅である。
【0046】
音素特徴量適合度推定部113は、上記のような特徴量を用いて、下の式(3)により、音素間(音素1と音素2)の適合度Mを算出する。
【0047】
【数3】

【0048】
なお、式(3)において、t1,iは音素1のi番目の特徴量(スカラー又はベクトル)であり、t2,iは音素2のi番目の特徴量(スカラー又はベクトル)である。また、d(t1,i,t2,i)は、両特徴量間の距離に応じて定まる値(スカラー)である。また、wは、i番目の特徴量に対応する重み値であり、この値は予め定められ音素特徴量適合度推定部113が記憶している。
d(t1,i,t2,i)の具体例としては、例えば、単純にこれら両特徴量間の距離を用いてよい。このときの適合度Mは、下の式(4)を用いて算出される。
【0049】
【数4】

【0050】
なお、複数の音素を含む音声素片については、音素特徴量適合度推定部113は、そのそれぞれの音素についての音素特徴量適合度を算出する。
なお、音素特徴量適合度推定部113が比較の都度、上記の各特徴量を計算する代わりに、予め音声素片の特徴量を計算しておいてその値を音声データベース記憶部130に記憶させておき、比較する際に読み出して用いるようにしても良い。
【0051】
図6は、音声合成装置10による音声合成の処理手順を示すフローチャートである。以下、このフローチャートに沿って、音声合成装置10の処理手順を説明する。
【0052】
なお、このフローチャートの処理に先立って、音声データベース130とテキスト記憶部155と他話者比率設定記憶部160とデフォルト設定記憶部170には所定のデータが記憶されている。
音声データベース130には、複数の話者の音声素片が予め蓄積されている。
テキスト記憶部155には、合成しようとする目的の音声に対応する表記のテキストが記憶されている。具体例としては、テキスト記憶部155には、「とーきょー から よこはま へ いきます」(平仮名文)や「東京 から 横浜 へ 行きます」(漢字・仮名混じり文)や「to:kyo kara yokohama e ikimasu」(音素ラベル表記)などといったテキストデータが記憶されている。
他話者比率設定記憶部160には、合成音声中の全音声素片数のうちの他話者音声素片数の比率の値(例えば、「15%」など)が設定値として記憶されている。
デフォルト設定記憶部170には、合成音声中で他話者音声素片を利用する箇所(例えば、「全箇所」。)、および音声素片を選択する音声データベースの範囲(選択対象とする話者の範囲。例えば、「全話者」。)が設定値として記憶されている。
【0053】
そして、まずステップS1において、他話者音声素片箇所指定部120は、ユーザーの操作(入力)に基づき、合成音声中で他話者音声素片を利用する箇所と、音声素片を選択する音声データベースの範囲の指定を受け付け、それらの情報を音声素片選択部110に渡す。このとき、合成音声中で他話者音声素片を利用する箇所については、他話者音声素片箇所指定部120は、個々の音声素片の単位で指定を受け付ける。例えば、他話者音声素片箇所指定部120は、合成音声記憶部150に記憶されている合成音声識別情報と順序とを一組として、その一組あるいは複数組のデータにより、他話者音声素片を利用する箇所の指定を受け付ける。また、音声素片を選択する音声データベースの範囲の指定としては、他話者音声素片箇所指定部120は、「目的話者音声データベースと他話者音声データベースの両方」又は「他話者音声データベースのみ」のいずれかを表わす情報を受け付ける。またこのとき、特定の単数又は複数の他話者の音声素片のみを選択する場合には、他話者音声素片箇所指定部120は、対象とする話者の話者識別情報の指定を受け付けることもできる。
また、このとき、ユーザーの操作により、合成音声中で他話者音声素片を利用する箇所を「全箇所」と指定することができ、また音声素片を選択する音声データベースの範囲(選択対象とする話者の範囲)を「全話者」と指定することもできる。
【0054】
なお、本ステップにおいて、ユーザーが具体的な指定を行う代わりに、デフォルト設定値を使用することを指定することもできる。デフォルト設定の使用が指定された場合には、音声素片選択部110は、デフォルト設定記憶部170から設定値を読み出して使用する。
例えば、デフォルト設定記憶部170に、合成音声中で他話者音声素片を利用する箇所が「全箇所」であり、また音声素片を選択する音声データベースの範囲(選択対象とする話者の範囲)が「全話者」であることが記憶されている場合には、音声素片選択部110は、その設定値を使用する。
【0055】
なお、ユーザーの指定により、又はデフォルト設定記憶部170に設定されている値により、合成音声中で他話者音声素片を利用する箇所を「全箇所」とする場合には、つまり具体的な箇所の指定が行われない場合には、後述する方法により、他話者音声素片数が占める比率が他話者比率設定記憶部160に記憶されている比率より大きくならないように、他話者音声素片の適合度の上位の順に他話者音声素片を利用する箇所を決定する。
【0056】
次にステップS2において、音声素片選択部110は、他話者比率設定記憶部160から比率値を読み出し、合成音声中で他話者音声素片を利用する箇所の比率が設定の範囲内か否かを確認する。具体的には、音声素片選択部110は、他話者音声素片箇所指定部120から渡された情報に基づき、(合成音声内で他話者音声素片を利用する音声素片数/当該合成音声内の全音声素片数)の値を計算し、この値が他話者比率設定記憶部160から読み出した比率値以下であるかどうかを確認する。計算された値が設定の比率値以下である場合(ステップS2:YES)には、次のステップS3に進む。計算された値が設定の比率値よりも大きい場合(ステップS2:NO)には、再度ユーザーからの操作に基づく指定を受けるためにステップS1に戻る。
なお、ステップS1において他話者音声素片を利用する箇所が具体的に指定されなかった場合には、本ステップにおける判定結果は常に「YES」となる。
【0057】
次にステップS3において、音声素片選択部110は、音声データベース記憶部130内の目的話者音声データベース131又は他話者音声データベース132から、必要な音声素片を選択する。なお、前のステップにおいて特定の箇所(単数又は複数)のみが指定されている場合には、該当する箇所のみについて、利用する音声素片の選択を行う。また、前のステップにおいて特定の話者(単数又は複数)が指定されている場合には、該当するデータベースの当該話者の音声素片の中から選択を行う。ここでの音声素片の選択自体は、従来技術の方法によるものであり、音素ラベルなどのマッチングとともに、音声データベース記憶部130に保持されているスペクトル特徴量および基本周波数のマッチングにより行われる選択である。
【0058】
次にステップS4において、音声素片選択部110は、選択された他話者音声素片の数をカウントし、その箇所の比率が他話者比率設定記憶部160に設定されている比率の範囲内か否かを判定する。設定の範囲内である場合(ステップS4:YES)にはステップS6に飛び、設定の範囲を超えている場合(ステップS5:NO)には次のステップS5に進む。
なお、本ステップで判定結果が「NO」となり得るのは、ステップS1において具体的な箇所の指定がなく、ユーザーの指定により、又はデフォルト設定記憶部170に設定されている値により、「全箇所」が指定されていた場合のみである。
【0059】
ステップS5においては、音素環境適合度推定部112が他話者音声素片の音素環境の適合度を推定する。そして、音素環境適合度推定部112は、上で選択された音声素片について、適合度順に優先順位を決定する。そして、その結果、他話者比率設定記憶部160に設定されている比率の範囲内に入らなかった優先順位が下位の他話者音声素片については、その他話者音声素片を棄却し、音声素片選択部110が目的話者音声データベース131の中から代わりの目的話者音声素片を再選する。つまり、音声素片選択部は、優先順位が下位の他話者音声素片を、再選された目的話者音声素片で置き換える。なお、ここでの音声素片の再選の方法自体は、前述の通り、既存技術によるものである。
つまり、音素環境適合度推定部112は、他話者比率設定記憶部160に記憶されている設定値に基づいて、適合度が上位の音声素片のみを採用する。
【0060】
次にステップS6において、音素特徴量適合度推定部113は、合成音声用に選択されている音声素片の特徴量と比較音素指定部140が指定する音声素片との特徴量とを比較し、合成音声用に選択されている音声素片の適合度を推定する。なおこのとき、比較音素指定部140が比較対象として指定する音声素片は、目標話者の任意の音素、又は音声素片選択部110によって選択されている音声素片のうちの、現在比較しようとしている当該音声素片以外のもののいずれかである。
【0061】
そしてステップS7において、音声素片選択部110は、音素特徴量の適合度の低い音声素片が、選択されている音声素片の中に残っているか否かを判定する。この判定は、言い換えれば、比較すべきすべての他話者音声素片について、音素特徴量適合度推定部113による音素特徴量の適合度の推定が完了しており、且つその適合度が所定の閾値より低いものが存在するか否かによって行う。音素特徴量の適合度の低い音声素片が残っている場合(ステップS7:YES)にはステップS8へ進み、そのような音声素片が残っていない場合(ステップS7:NO)にはステップS9へ進む。
【0062】
ステップS8に進んだ場合、同ステップにおいては、音声素片選択部110は、音素特徴量適合度推定部113によって推定された音素特徴量適合度の低い他話者音声素片を棄却し、他の音声素片を再選する。なお、ここでの音声素片の再選の方法自体は、前述の通り、既存技術によるものである。そして、ステップS6の処理に戻る。
つまり、すべての音声素片の音素特徴量の適合度が前記の閾値より高くなるまで、音声素片の選択を繰り返す。
つまり、音声素片選択部110は、音素特徴量の適合度が高い音声素片を採用する。
【0063】
ステップS9に進んだ場合、音声素片選択部110は、選択(採用)された音声素片からなる合成音声を出力し、そしてこのフローチャート全体の処理を終了する。
【0064】
なお、上述した実施形態における音声合成装置10の一部又は全部をコンピュータで実現するようにしても良い。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時刻の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時刻プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
【0065】
以上、実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。
例えば、上で述べた適合度(種々の音素環境適合度、および種々の音素特徴量適合度)の全部を利用せず、それらのうちの一部だけを利用して、音声素片選択部が音声素片の採用あるいは棄却等を決定するようにしても良い。
【0066】
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【産業上の利用可能性】
【0067】
本発明は、不自然さがなく高品質な合成音声を効率よく生成する目的で利用できる。例えば、本発明は、テレビやラジオ等の放送や、音声による情報提供等の目的で利用することができる。
【符号の説明】
【0068】
10…音声合成装置
110…音声素片選択部
112…音素環境適合度推定部
113…音素特徴量適合度推定部
120…他話者音声素片箇所指定部
130…音声データベース記憶部
131…目的話者音声データベース
132…他話者音声データベース
140…比較音素指定部
150…合成音声記憶部
155…テキスト記憶部(表記データ記憶部)
160…他話者比率設定記憶部
170…デフォルト設定記憶部

【特許請求の範囲】
【請求項1】
目的話者および他話者の音声素片を記憶する音声データベース記憶部と、
目的とする合成音声に対応する表記データを記憶する表記データ記憶部と、
複数の音声素片のそれぞれの特徴量に基づき、それら複数の音声素片の間の音素特徴量適合度を算出する音素特徴量適合度推定部と、
前記表記データ記憶部から取得する表記データに基づいて、前記目的とする合成音声を構成する音声素片の候補を前記音声データベース記憶部の中から選択するとともに、選択された前記音声素片の候補のうち、他話者の音声素片と比較対象となる音声素片との間の音素特徴量適合度を前記音素特徴量適合度推定部に算出させ、当該音素特徴量適合度に基づいて当該音声素片の候補を採用するか否かを決定し、その結果採用された前記音声素片によって構成された前記合成音声を出力する音声素片選択部と、
を具備することを特徴とする音声合成装置。
【請求項2】
前記音声素片の音素の種類と、前記合成音声における当該音声素片の前後の音声素片の音素の種類とに少なくとも基づいて音素環境適合度を算出する音素環境推定部を更に具備し、
前記音声素片選択部は、前記音声素片の候補のうち、他話者の音声素片についての音素環境適合度を前記音素環境推定部に算出させ、当該音素環境適合度にも基づいて当該音声素片の候補を採用するか否かを決定する、
ことを特徴とする請求項1に記載の音声合成装置。
【請求項3】
前記音素特徴量適合度推定部は、前記音声素片のスペクトル傾斜又はFFTケプストラム係数の1次の係数又は声帯音源の特性を表わす特徴量のいずれかの値を前記特徴量とする、
ことを特徴とする請求項1または2のいずれか一項に記載の音声合成装置。
【請求項4】
前記音素特徴量適合度推定部は、前記音声素片の音声スペクトルのうち所定の周波数帯域におけるスペクトル重心の周波数を前記特徴量とする、
ことを特徴とする請求項1から3までのいずれか一項に記載の音声合成装置。
【請求項5】
前記音素特徴量適合度推定部は、前記音声素片のフォルマント周波数およびフォルマントバンド幅を前記特徴量とする、
ことを特徴とする請求項1から4までのいずれか一項に記載の音声合成装置。
【請求項6】
他話者の音声素片の数の比率の設定値を記憶する他話者比率設定記憶部を更に具備し、
前記音声素片選択部は、前記合成音声を構成する音声素片のうち他話者の音声素片の比率が前記他話者比率設定記憶部から読み出した前記設定値以下になるように、算出した前記音素環境適合度が上位の他話者の音声素片を採用するとともに、その他の他話者の音声素片については再選した目的話者の音声素片で置き換える、
ことを特徴とする請求項2に記載の音声合成装置。
【請求項7】
目的話者および他話者の音声素片を記憶する音声データベース記憶部と、
目的とする合成音声に対応する表記データを記憶する表記データ記憶部と、
を具備するコンピュータに、
複数の音声素片のそれぞれの特徴量に基づき、それら複数の音声素片の間の音素特徴量適合度を算出する音素特徴量適合度推定過程と、
前記表記データ記憶部から取得する表記データに基づいて、前記目的とする合成音声を構成する音声素片の候補を前記音声データベース記憶部の中から選択するとともに、選択された前記音声素片の候補のうち、他話者の音声素片と比較対象となる音声素片との間の音素特徴量適合度を前記音素特徴量適合度推定過程で算出させ、当該音素特徴量適合度に基づいて当該音声素片の候補を採用するか否かを決定し、その結果採用された前記音声素片によって構成された前記合成音声を出力する音声素片選択過程と、
の処理を実行させるプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2011−13534(P2011−13534A)
【公開日】平成23年1月20日(2011.1.20)
【国際特許分類】
【出願番号】特願2009−158626(P2009−158626)
【出願日】平成21年7月3日(2009.7.3)
【出願人】(000004352)日本放送協会 (2,206)
【出願人】(591053926)財団法人エヌエイチケイエンジニアリングサービス (169)