音声合成装置および音声合成プログラム

【課題】音声合成の際に，アクセント修正または韻律修正を高精度に行える技術を提供することを目的とする。
【解決手段】音声合成装置１は，テキスト情報５のモーラ数に対応するリズム情報を生成するタイミング制御部１１，リズム情報をスピーカ，画面に出力するリズム情報出力部１２，リズム情報に同期した第１入力音声を取得する音声入力部１３，第１入力音声から音声のピッチ周波数情報を抽出するピッチ抽出部１４，リズム情報とピッチ周波数情報から，第１入力音声のモーラ境界を修正したモーラ境界情報を生成するモーラ境界修正部１５，および，テキスト情報５と第１入力音声のモーラ境界情報とピッチ周波数情報から，アクセント情報６を抽出するアクセント抽出部１６を備える。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は，テキストデータを合成音声に変換して出力する音声合成技術に関する。より詳しくは，韻律の修正機能を含む音声合成技術に関する。
【背景技術】
【０００２】
テキストデータを合成音声に変換して読み上げる音声合成技術では，しばしば，合成音声のアクセント，抑揚や各音の長さなどに不自然さが生じ，合成音声品質を劣化させる要因となる。そのため，音声合成時に韻律（アクセント，モーラ長，抑揚など）を修正する処理が行われている。
【０００３】
「抑揚」とは，声の高さの時間的変化である。「アクセント」は，発音時のモーラが高い音から低い音に変わることを示し，低い音に変わる直前の高い音で発音するモーラに，アクセントが設定される。アクセントは，抑揚に含まれる。
【０００４】
「モーラ」とは，１音素（母音／撥音／促音など）または２音素（子音＋母音）単位で構成される１音である。「音素」は，モーラを構成する最小単位であって，子音，母音，撥音，促音などを指す。
【０００５】
図２０は，モーラと音素との関係を説明するための図である。
【０００６】
図２０に示すように，「かなしい」という語は，「か」，「な」，「し」，「い」という４モーラで構成されている。「かなしい」の先頭モーラ「か」は，子音‘Ｋ’と母音‘Ａ’の２つの音素で構成される。また，語尾のモーラ「い」は，母音‘Ｉ’の音素のみで構成されている。以下の説明において，「モーラ」は広義に解釈し，「音素」の意味を含むものとする。
【０００７】
音声合成の際の韻律修正において，ユーザ自身で修正可能なようにＧＵＩ等を備える修正機能が提供されている。
【０００８】
韻律の中のアクセント修正に関する従来技術として，与えられたテキストデータに対して，ユーザ自らが想定するアクセントで文字列を発音した音声情報を得て，取得した音声情報からアクセント抽出する処理が知られている。
【０００９】
また，韻律全体を修正する従来技術として，あらかじめ用意された音声（合成音声）と入力した音声から，それぞれ音響特徴量を抽出し，音響特徴量をマッチングして，ピッチを修正する処理などが知られている。
【先行技術文献】
【特許文献】
【００１０】
【特許文献１】特開２００８−１８５９１１号公報
【特許文献２】特開平７−１４０９９６号公報
【発明の概要】
【発明が解決しようとする課題】
【００１１】
図２１および図２２は，従来技術による問題を説明するための図である。
【００１２】
従来技術では，アクセント修正に際し，ユーザ発声の音声を得てモーラ境界を検出する。しかし，モーラ境界検出の精度が悪く，モーラ境界検出の誤りによってピッチが高いモーラを正しく特定できない場合には，アクセント位置のずれが生じ，結果的にユーザ所望のアクセント位置にならないという問題がある。
【００１３】
モーラ境界検出の精度が低い場合の例として，図２１に示すように，「かなしい」の「し」と「い」とのモーラ境界が，実際には細点線で示す位置であるのに，太点線で示す位置で誤検出されたとする。
【００１４】
一般的に，アクセント位置（’で示す）は，ピッチが急激に下がったモーラの直前（１つ前の）モーラに設定される。そのため，正しくは，「し」にアクセント位置が設定されて「カナシ’イ」となるところが，誤検出のモーラ境界では「な」に設定されてしまい「カナ’シイ」となる。
【００１５】
また，従来技術では，予めモーラ境界が特定されている合成音声の音響特徴量と，ユーザ発声の音声から抽出した音響特徴量とをマッチングする。しかし，合成音声とユーザ発声音声とは全く声種が違い，両者の音響特徴量，例えばピッチ周波数が大きく異なるため，音響特徴量のマッチング精度は低下してしまう。そのため，図２２に示すように，細点線で示す実際のモーラ境界を，太線で示す位置で誤検出してしまう。このような低精度のモーラ境界検出によって，モーラ長のバラツキや抑揚のずれが生じ，結果的にユーザ所望のモーラ長や抑揚にならないという問題がある。
【００１６】
また，合成音声の音響特徴量の代わりに，所定の音響モデル，例えば隠れマルコフモデル（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）などの音響特徴量を利用する場合もある。しかし，音響モデルは，多数話者の音声の音響特徴量の分布をモデル化したものであり，多数話者中にユーザ発声の音声に類似した音響特徴量を持つ話者が含まれる期待値は上がるものの，ユーザ発声の音声と同一ではない。そのため，図２２に示すような，特徴量マッチングの精度低下は解消されず，モーラ境界の検出誤りにつながる問題がある。
【００１７】
本発明は，上記の問題を鑑みてなされたものであり，音声合成に際し，アクセント，モーラ長，抑揚などの韻律を精度良く修正することができる音声合成技術を提供することを目的とする。
【課題を解決するための手段】
【００１８】
本願において開示される音声合成装置は，１）韻律修正の対象となるテキスト情報を取得し，テキスト情報に対応するリズム情報を生成するタイミング制御部と，２）前記リズム情報を出力するリズム情報出力部と，３）前記リズム情報に同期した第１入力音声と，前記リズム情報と非同期の第２入力音声を入力する音声入力部と，４）前記第１入力音声および前記第２入力音声の各音響特徴量を抽出する音響特徴量抽出部と，５）前記第１入力音声および前記第２入力音声の各ピッチ周波数情報を抽出するピッチ抽出部と，６）前記リズム情報および前記第１入力音声のピッチ周波数情報から，前記第１入力音声のモーラ境界を修正し，修正した前記モーラ境界を示す第１入力音声のモーラ境界情報を生成するモーラ境界修正部と，７）前記第１入力音声のモーラ境界情報をもとに，前記第１入力音声および前記第２入力音声の各音響特徴量をマッチング処理し，前記マッチング処理結果をもとに，前記第２入力音声のモーラ境界を示す第２入力音声のモーラ境界情報を抽出するモーラ境界抽出部と，８）前記第２入力音声のピッチ周波数情報から，前記第２入力音声の抑揚情報を生成する抑揚生成部と，９）前記第２入力音声のモーラ境界情報および前記テキスト情報から，前記第２入力音声の各モーラのモーラ長を示すモーラ長情報を生成するモーラ長生成部と，１０）前記第２入力音声の抑揚情報および前記モーラ長情報から，前記第２入力音声の韻律情報を生成して出力する韻律生成部とを備える。
【発明の効果】
【００１９】
上記した音声合成装置によれば，リズム情報に同期した第１入力音声のモーラ境界とリズム情報の同期のずれを修正してモーラ境界を検出するため，誤検出が少ないモーラ境界で，高精度のアクセント修正や韻律修正を実現することができる。
【図面の簡単な説明】
【００２０】
【図１】本発明の一態様として開示する音声合成装置の第１実施形態における構成例を示す図である。
【図２】第１実施形態における音声合成装置の処理フロー例を示す図である。
【図３】リズム情報を生成するためにタイミング制御部１１が取得する情報のデータ構成例を示す図である。
【図４】音声合成装置の処理における各情報の関連を説明するための図（その１）である。
【図５】音声合成装置の処理における各情報の関連を説明するための図（その２）である。
【図６】第１入力音声のデータ構成例を示す図である。
【図７】ピッチ周波数情報の例を示す図である。
【図８】アクセント情報のデータ構成例を示す図である。
【図９】本発明の一態様として開示する音声合成装置の第２実施形態における構成例を示す図である。
【図１０】第２実施形態におけるモーラ境界の抽出を説明するための図である。
【図１１】発声者の相違による音響特徴量の相違例を示す図である。
【図１２】第２実施形態における音声合成装置の処理フロー例を示す図である。
【図１３】本発明の一態様として開示する音声合成装置の第３実施形態における構成例を示す図である。
【図１４】第３実施形態におけるタイミング制御部の構成例を示す図である。
【図１５】本発明の一態様として開示する音声合成装置１の第４実施形態における構成例を示す図である。
【図１６】ピッチ抽出部およびモーラ境界修正部の構成例を示す図である。
【図１７】第１入力音声が長音発声である場合のピッチ周波数および音声区間の例を示す図である。
【図１８】第１入力音声が単音発声である場合のピッチ周波数および音声区間の例を示す図である。
【図１９】音声合成装置のハードウェア構成例を示す図である。
【図２０】モーラと音素との関係を説明するための図である。
【図２１】従来技術による問題を説明するための図（その１）である。
【図２２】従来技術による問題を説明するための図（その２）である。
【発明を実施するための形態】
【００２１】
本発明の一態様として開示する音声合成装置にかかる複数の実施形態を説明する。
【００２２】
［第１実施形態］
図１ないし図８を用いて，第１実施形態について説明する。
【００２３】
図１は，本発明の一態様として開示する音声合成装置１の第１実施形態における構成例を示す図である。
【００２４】
音声合成装置１は，タイミング制御部１１，リズム情報出力部１２，音声入力部１３，ピッチ抽出部１４，モーラ境界修正部１５，およびアクセント抽出部１６を備える。
【００２５】
タイミング制御部１１は，アクセント修正の対象となるテキスト情報５を取得し，テキスト情報５に対応するリズム情報を生成する。
【００２６】
テキスト情報５は，生成する合成音声に対応したテキスト（かな漢字混じり）表記，言語解析処理後の表音（カナ）表記などのデータである。
【００２７】
言語解析処理は，テキスト表記を形態素解析して品詞情報を生成し，さらに，読みやアクセントに関する情報を付与した表音表記に変換する処理である。音声合成装置１は，既知の音声合成装置と同様に言語解析処理機能を備えるように構成されていてもよい。この場合には，タイミング制御部１１は，表音表記であるテキスト情報５を取得する。
【００２８】
リズム情報とは，１モーラ（１音）ずつ発声しやすいように，一定周期のタイミング音またはタイミング画像である。タイミング画像は，ガイドとなる画像が一定周期で切り替わるスライド画像または動画像であればよい。
【００２９】
また，リズム情報は，タイミング音，タイミング画像の他に，例えば，音声合成装置１にＬＥＤ等のランプなどを搭載し，一定間隔での光の点滅をリズム情報としてもよい。
【００３０】
リズム情報出力部１２は，タイミング制御部１１で生成されたリズム情報を，所定の時間間隔でスピーカやモニタ画面上に出力する。
【００３１】
音声入力部１３は，アクセント修正したいテキスト情報（語彙）をユーザが発声した音声を収録したデータを，第１入力音声として取得する。
【００３２】
ピッチ抽出部１４は，音声入力部１３で取得された第１入力音声から，音声のピッチ周波数情報を抽出する。ピッチ抽出部１４は，ピッチ周波数として，所定の短時間フレーム間隔（例えば１０ｍｓなど）の平均ピッチ周波数を検出する。
【００３３】
モーラ境界修正部１５は，リズム情報とピッチ周波数情報とから，第１入力音声のモーラ境界を修正し，正しいモーラ境界を設定したモーラ境界情報を生成する。第１入力音声は，原則，リズム情報である一定周期のタイミング音やタイミング画像に同期しているが，同期がずれる場合も考えられる。同期のずれは，モーラ境界位置のずれとなり，アクセント抽出の誤りにつながるからである。
【００３４】
アクセント抽出部１６は，テキスト情報，第１入力音声のモーラ境界情報，およびピッチ周波数情報から，アクセント情報６を抽出する。
【００３５】
アクセント情報６は，アクセントを設定するモーラの位置を示すアクセント位置を含む情報である。一般に，アクセント位置は，音が急激に下がる（すなわち，ピッチ周波数が急激に下降する）モーラの１つ前のモーラの位置と定義される。アクセント抽出部１６は，急激にピッチ周波数が下降するモーラを特定して，特定したモーラの１つ前のモーラをアクセント位置として決定する。なお，アクセント位置は，１つの第１入力音声中に１または複数設定されてもよい。
【００３６】
図２は，第１実施形態における音声合成装置１の処理フロー例を示す図である。
【００３７】
ステップＳ１：タイミング制御部１１は，アクセント修正の対象となるテキスト情報５を取得する。
【００３８】
テキスト情報５として，例えばテキスト表記「悲しい」が言語解析処理によって，標準アクセントの表音表記「かなしい」に変換されたものが取得される。この４音（４モーラ）の「かなしい」を，ユーザが，現代アクセントの「かなし’い（「’」はアクセント位
置）」に修正するとする。
【００３９】
ステップＳ２：タイミング制御部１１は，テキスト表記や表音表記であるテキスト情報５に対応するリズム情報を生成する。
【００４０】
図３は，リズム情報を生成するためにタイミング制御部１１が取得する情報のデータ構成例を示す図である。
【００４１】
リズム情報を生成するためにタイミング制御部１１が取得する情報は，ソース，出力レベルおよび出力間隔のデータ項目を含む。ソースは，リズム情報として出力されるソースデータ本体（例えば，音声データ，画像データ，動画像データなど）またはソースデータを示す識別情報である。出力レベルは，リズム情報の出力の大きさ（例えば，レベル１〜５で示す値）である。出力間隔は，リズム情報が出力される間隔（例えば，秒単位の値）である。ソースデータが動画像である場合には，間隔＝０（なし）とされる。
【００４２】
タイミング制御部１１は，テキスト情報５からモーラ数を得て，一定の間隔で発声または表示される，そのモーラ数以上のタイミング音（Ｂｅｅｐ音など）やタイミング画像を生成する。
【００４３】
タイミング制御部１１は，発声前にタイミング音やタイミング画像を予め複数回出力してユーザ（発声者）にタイミングの周期を知らせ，ユーザがより精度良くタイミング音に同期して音声入力ができるように，その分のタイミング音やタイミング画像を追加して生成してもよい。ユーザは，発声の時間間隔に合わせて発声でき，より精度良くタイミング音に同期して音声を入力することができる。
【００４４】
また，リズム情報の一定時間間隔は，言いよどみなどが無く１モーラが正しく発声できるように，長めの時間間隔（例えば，１秒間隔程度）であることが好ましい。
【００４５】
図４および図５は，音声合成装置１の処理における各情報の関連を説明するための図である。
【００４６】
タイミング制御部１１は，図４および図５に示すように，テキスト情報に対応して，少なくとも４回のタイミング音，または，画像が４回切り替わるタイミング画像をリズム情報として生成すればよいが，さらに，発声前にタイミングを知らせるために，事前に出力する３回分のタイミング音とタイミング画像とを生成している。
【００４７】
ステップＳ３：リズム情報出力部１２は，タイミング制御部１１が生成したリズム情報，すなわちタイミング音またはタイミング画像を，所定の時間間隔でスピーカやモニタ画面上に出力する。
【００４８】
ステップＳ４：音声入力部１３は，マイク等により，ユーザが，タイミング情報にもとづいて発声した第１入力音声を収録して，収録した音声データをピッチ抽出部１４へ渡す。
【００４９】
図６は，第１入力音声のデータ構成例を示す図である。
【００５０】
第１入力音声は，音声データＩＤおよび音声データのデータ項目を含む。音声データＩＤは，第１入力音声を識別する情報であり，音声データは，マイク等で収録されたユーザの音声データ本体である。
【００５１】
ステップＳ５：ピッチ抽出部１４は，既知の自己相関法，ケプストラム分析法などを利用してピッチ周波数を検出する。
【００５２】
自己相関法は，有声部分の音声波形が周期波形である点に着目し，自己相関を取ることで周期毎に自己相関ピーク値が得られることから，この自己相関ピーク位置をもとに，有声音の周期つまりピッチ周波数を検出する手法である。
【００５３】
また，ケプストラム分析手法は，音声が，音源信号（声帯の振動による有声音源と，声帯振動を伴わない無声音源）と，調波特性（声道，鼻腔，舌の位置などで決まるフィルタ特性）との畳み込みによって生成されるとの考えを前提に，音声信号から，音源成分と調波成分とを分離する手法である。この手法を用いて音源成分を抽出すれば，容易にピッチ周波数を得ることできる。
【００５４】
図７は，ピッチ周波数情報の例を示す図である。
【００５５】
ピッチ周波数情報は，検出されたピッチ周波数であり，音声データＩＤ，間隔番号およびピッチ周波数のデータ項目を含む。音声データＩＤは，処理の対象となっている第１入力音声を識別する情報である。間隔番号は，音声データを所定の間隔で区切った区間の先頭からの並び順を示す情報である。ピッチ周波数は，例えば，対応する間隔（区間）における音声データのピッチ周波数である。
【００５６】
ステップＳ６：モーラ境界修正部１５は，リズム情報およびピッチ周波数情報から，第１入力音声のモーラ境界を修正したモーラ境界情報を生成する。
【００５７】
図４に示す例は，第１入力音声は「長音発声」された音声に対するモーラ境界検出の例である。
【００５８】
長音発声は，各モーラの母音部分を長音で発声する。そのため，各モーラで必ずピッチ周波数を得られるという利点がある。したがって，第１入力音声は長音であることが好ましい。例えば，通常の発声では「無声子音＋無声母音（例えば，「き」「す」等）」や促音など，無声となるモーラが存在するため，モーラ全体で無声化してピッチ周波数が得られずにアクセント抽出誤りの一因となるが，長音発声ではこうした問題を回避することができる。
【００５９】
さらに，長音発声では，長音で発声される母音部分はピッチ変化がほとんどない（同じ高さで発声する）という特徴を有する。そこで，モーラ境界修正部１５は，ピッチ周波数の変化が大きい部分をモーラ境界と判定する。
【００６０】
加えて，例えば図４に示すｔ３の部分のように，モーラの先頭子音が無声である場合に，その位置にはピッチ周波数が存在しない。しかし，その前後は長母音に挟まれて必ずピッチ周波数が存在する。そこで，モーラ境界修正部１５は，ピッチ周波数が切れる期間の先頭位置を，モーラの終端境界と判定する。
【００６１】
また，図４に示すｔ１の部分のように，先頭モーラ「か」の子音が無声であるためピッチ周波数が存在せず，ピッチ周波数情報だけでは１モーラ目のモーラ境界を正しく修正できない場合がある。このような場合は，モーラ境界修正部１５は，音声パワー情報を合わせて利用し，音声パワー情報（所定以上のパワー値の検出）を用いて，モーラの先頭境界を特定する。このようにして，先頭モーラに無声子音が存在しても，モーラ境界を正しく修正することができる。
【００６２】
モーラ境界修正部１５は，以上の処理により，リズム情報の同期とずれた各モーラ境界を，図４に示すように，細点線で示すリズム情報の位置（時点）から太点線で示す位置（時点）に修正することによって，第１入力音声の正しいモーラ境界を示すモーラ境界情報を得る。
【００６３】
図５に示す例は，第１入力音声は「単音発声」された音声に対するモーラ境界検出の例である。
【００６４】
単音発声は，各モーラを区切って発声する。また，リズム情報が存在しても，必ずしも第１入力音声が長音発声になるとは限らず，単音発声となる場合も考えられる。単音発声では，各モーラの前後に無音区間が生じる。これに対応するため，モーラ境界修正部１５は，無音から音声に変化する位置をモーラ先頭境界とし，音声から無音に変化する位置をモーラ終端境界として検出する。
【００６５】
さらに，音声パワー情報の場合に，モーラ先頭では，終端の音声パワーが小さい部分を音声区間外と判定してしまう場合もある。これに対応するため，モーラ境界修正部１５は，音声パワー情報に加え，有声部分のピッチ周波数情報を組み合わせ，音声パワーの小さな部分であっても有声によるピッチ周波数が検出される区間を特定して，モーラ境界を検出する。
【００６６】
モーラ境界修正部１５は，以上の処理により，リズム情報の同期とずれた各モーラ境界を，図５に示すように，細点線で示すリズム情報の位置（時点）から太点線で示す位置（時点）に修正することによって，第１入力音声の正しいモーラ境界を示すモーラ境界情報を得る。
【００６７】
ステップＳ７：アクセント抽出部１６は，テキスト情報５と，第１入力音声のモーラ境界情報とピッチ周波数情報とから，アクセント位置を示すアクセント情報６を抽出する。
【００６８】
図８は，アクセント情報のデータ構成例を示す図である。
【００６９】
アクセント情報は，音声データＩＤおよびアクセント位置のデータ項目を含む。音声データＩＤは，処理の対象となっている第１入力音声を識別する情報であり，アクセント位置は，アクセントが設定されるモーラを示す情報である。
【００７０】
一般に，アクセント位置は，ピッチ周波数が急激に下降するモーラの１つ前のモーラにあると定義される。図４および図５に示す例では，モーラ「し」から「い」にかけて急激にピッチ周波数が下降するため，「し」がアクセント位置となる。
【００７１】
最も簡単なアクセント位置の抽出手法として，アクセント抽出部１６は，１〜Ｎ個の各モーラの代表ピッチ周波数を算出し，ｎモーラ目（ｎ＝１〜Ｎ）の代表ピッチ周波数Ｆ（ｎ）と，ｎ＋１モーラ目の代表ピッチ周波数Ｆ（ｎ＋１）の差：（Ｆ（ｎ）−Ｆ（ｎ＋１））が，所定の閾値を超えた場合に，ｎモーラ目をアクセント位置に設定する。
【００７２】
なお，代表ピッチ周波数とは，例えば各モーラの平均ピッチ周波数を採用しても良く，または，メディアンフィルタを用いて各モーラの中央値ピッチ周波数を採用しても良い。または，ピッチの存在しないモーラ（例えば，「無声子音＋母音」，「無声子音＋無声母音」，「促音」など）は，その前後のモーラの代表ピッチ周波数から内挿して代表ピッチ周波数を設定するようにしても良い。
【００７３】
ステップＳ８：音声合成装置１の音声合成機能により（図示しない），ユーザがアクセント修正結果を確認できるように，アクセント抽出部１６が生成したアクセント情報（アクセント位置）６をもとに再合成した音声を出力する。
【００７４】
ステップＳ９：タイミング制御部１１は，アクセント修正の対象となるテキスト情報５の入力（修正イベント）があるかを調べ，修正イベントがあれば（ステップＳ９のＹ），ステップＳ１の処理へ戻り，修正イベントがなければ（ステップＳ９のＮ），処理を終了する。
【００７５】
第１実施形態における音声合成装置１によれば，リズム情報に同期して入力された第１入力音声から，リズム情報と第１入力音声の同期のずれを修正して得られる第１入力音声の正確なモーラ境界を抽出することができる。これにより，各モーラから求められるピッチ周波数情報とモーラ境界とを組み合わせることで，アクセント位置抽出の誤りが抑制され，高い精度でアクセント修正を行うことが可能となる。
【００７６】
なお，単音発声，および，全部または一部が無声音であるモーラに対するモーラ境界修正について，ピッチ抽出部１４およびモーラ境界修正部１５のより詳細な説明は，後述する。
【００７７】
［第２実施形態］
図９ないし図１２を用いて，第２実施例について説明する。
【００７８】
図９は，本発明の一態様として開示する音声合成装置１の第２実施形態における構成例を示す図である。
【００７９】
音声合成装置１は，タイミング制御部１１，リズム情報出力部１２，音声入力部１３ａ，ピッチ抽出部１４ａ，モーラ境界修正部１５，音響特徴量抽出部２１，モーラ境界抽出部２２，モーラ長生成部２３，音素長生成部２４，抑揚生成部２５，および韻律生成部２６を備える。
【００８０】
タイミング制御部１１，リズム情報出力部１２，モーラ境界修正部１５は，第１実施形態での音声合成装置１の同一番号が付いた処理部と同じであるため，ここでは説明を省略する。
【００８１】
音声入力部１３ａは，第１実施形態の音声合成装置１の音声入力部１３とほぼ同じであるが，韻律修正したいテキスト情報（語彙）５，２種の異なるリズムでユーザが発声した２つの音声をマイク等で収録し，第１入力音声，第２入力音声とする。
【００８２】
第１入力音声は，リズム情報に同期して発声された音声である。第２入力音声は，リズム情報に同期していない，ユーザが所望する韻律で発声された音声であればよい。
【００８３】
ピッチ抽出部１４ａは，第１入力音声および第２入力音声それぞれのピッチ周波数情報を，それぞれ抽出する。ピッチ抽出方法については，第１実施形態におけるピッチ抽出部１４と同様である。
【００８４】
音響特徴量抽出部２１は，第１入力音声および第２入力音声それぞれの音響特徴量を，所定のフレーム単位で抽出する。
【００８５】
音響特徴量は，例えば，既知のケプストラム分析，線形予測分析（ＬＰＣ分析）などの分析手法で得られる調波特性（声道，鼻腔，舌の位置などで決まるフィルタ特性）を特徴量とするものでよい。ただし，ケプストラム分析やＬＰＣ分析によって得られる調波特性（ケプストラム係数，ＬＰＣ包絡など）は，次数が高く演算量も多く現実的でない。
【００８６】
そこで，音響特徴量抽出部２１は，音声認識の分野で用いられる，低次でも音声特徴量を表現可能なＭＦＣＣ（メル周波数ケプストラム）を特徴量として用いる。
【００８７】
モーラ境界抽出部２２は，モーラ境界修正部１５で修正された第１入力音声のモーラ境界情報をもとに，所定フレーム単位の第１入力音声と第２入力音声との音響特徴量をマッチング処理し，第２入力音声のモーラ境界情報を抽出する。
【００８８】
図１０は，第２実施形態におけるモーラ境界の抽出を説明するための図である。
【００８９】
モーラ境界抽出部２２は，音響特徴量のマッチング処理として，既知のＤＰマッチングと呼ばれる手法を採用する。モーラ境界抽出部２２は，図１０に示すように，第１入力音声と第２入力音声の音響特徴量が最も類似する最尤パスを探索する。ここで，第１入力音声は，モーラ境界修正部１５によって正しいモーラ境界が特定されているため，第１入力音声のモーラ境界と最尤パスの交差点が，第２入力音声のモーラ境界として抽出できる。
【００９０】
従来技術では，第１入力音声の代替として，合成音声を利用したり，音声認識で利用される音響特徴量データベース（例えば，隠れマルコフモデル等）を利用したりしていた。しかし，この場合の第１入力音声はいずれも第２入力音声の発声者とは異なるので，同じ語彙を発声しても両者の音響特徴量が大きく異なっている。
【００９１】
図１１は，発声者の相違による音響特徴量の相違例を示す図である。
【００９２】
図１１は，ＬＰＣ分析によって得られる調波特性であるＬＰＣ包絡を示している。図１１（Ａ）は，発声者Ａのある発声による「ウ」のスペクトル形状の例，図１１（Ｂ）は，発声者Ａの別の発声による「ウ」のスペクトル形状の例，図１１（Ｃ）は，発声者Ｂのある発声による「ウ」のスペクトル形状の例である。
【００９３】
図１１（Ａ）〜（Ｃ）に示すように，音響特徴量は発声者により個人差があり，大きく異なることが分かる。したがって，従来技術では，第１入力音声として合成音声やＨＭＭモデルを利用しても，ユーザが発声した第２入力音声に対する最尤パスの信頼性が乏しく，得られる第２入力音声のモーラ境界精度が著しく低下していた。
【００９４】
第２実施形態によれば，音声合成装置１では，第１入力音声，第２入力音声とも，同一ユーザの音声であり，両音声の音響特徴量は非常に似通ったものとなるため（図１１参照），最尤パスの信頼性が高く，得られる第２入力音声のモーラ境界精度を大きく改善することができる。
【００９５】
モーラ長生成部２３は，抽出された第２入力音声のモーラ境界情報とテキスト情報５とにもとづいて，第２入力音声のモーラ長情報を生成する。モーラ境界に挟まれた時間間隔がモーラ長に相当し，モーラ長生成部２３は，各モーラ長とモーラとを対応付けたモーラ長情報を生成する。
【００９６】
音素長生成部２４は，抽出された第２入力音声のモーラ境界情報とテキスト情報５とにもとづいて，第２入力音声の音素長情報を生成する。この場合に，音素長生成部２４は，モーラ長生成部２３と同様に，各モーラのモーラ長を生成し，モーラが１音素で形成される場合は，音素長＝モーラ長とし，モーラが２音素（子音＋母音）で構成される場合は，モーラ長を音素長に変換する。例えば，図１０の「かなしい」の例では，「い」を除き，他のモーラは「子音＋母音」の構成である。音素長生成部２４は，モーラ「か」は音素［Ｋ］と［Ａ］，モーラ「な」は音素［Ｎ］と［Ａ］，モーラ「し」は音素［ＳＨ］と［Ｉ］の音素境界を，それぞれ抽出する。抽出方法としては，既知の音響特徴量データベース（隠れマルコフモデル等）を用いた特徴量のマッチング処理により，音素境界を決定して求める。
【００９７】
または，音素長データベースを用いて音素長を決定する。音声合成では，合成する音素長を生成する際に，前後の音素の並びを考慮した対象音素の音素長の統計量をもとに，予め平均的な音素長をデータベース化（音素長データベース）している。したがって，音素長データベースを利用して，各モーラの各音素境界を設定してもよい。
【００９８】
なお，人間の聴感上，１モーラ単位のモーラ長がずれると，たどたどしい音声に聞こえたり，詰まったような音声に聞こえたりする。しかし，モーラ長の長短は，そのモーラを構成する「子音＋母音」の母音長を伸縮させて発声するため，通常，子音長はモーラ長の長短で大きく変動しない。そのため，上記の手法で容易に各音素長を設定することができる。
【００９９】
また，この音素長はユーザ発声の音素長に対して誤差を持つが，モーラ長が正しく設定されていれば，音素長の誤差は聴感上の影響をほとんど及ぼさないため，既知の技術を用いて音素境界を抽出し，音素長を生成することで十分である。
【０１００】
第２実施形態において，音声合成装置１は，上記のモーラ長生成部２３と音素長生成部２４の少なくともいずれか一方を備えるような構成であればよい。例えば，後述の韻律生成部２６が，モーラ長を利用して韻律情報７を生成する場合には，音声合成装置１は，モーラ長生成部２３を備える構成で実施されることが好ましく，音素長を利用して韻律情報７を生成する場合には，音声合成装置１は，音素長生成部２４を備える構成で実施されることが好ましい。
【０１０１】
抑揚生成部２５は，ピッチ抽出部１４ａが抽出した第２入力音声のピッチ周波数情報から，第２入力音声の抑揚情報を生成する。抑揚は，時間的なピッチ周波数の変化である。抑揚生成部２５は，ピッチ抽出部１４ａが出力するピッチ周波数情報の時間変化を出力とする。
【０１０２】
ただし，第２入力音声において，本来，有声でなければならない部分（モーラの全体または一部）に無声が含まれている場合には，抑揚生成部２５は，そのようなモーラの部分のピッチ周波数を内挿して抑揚情報を生成する。例えば，有声破裂音（ガ行／ダ行／バ行等）は，その子音部分が無声化する傾向が強い。しかし，音声合成の抑揚情報としては，ピッチ周波数を与えることが必要となる。
【０１０３】
そこで，抑揚生成部２５は，このような無声化子音に対しては，その両端の母音部分のピッチ周波数から直線近似などによってピッチ周波数を内挿して与える。
【０１０４】
抑揚生成部２５は，無声化母音についても同様に処理する。
【０１０５】
韻律生成部２６は，第２入力音声の抑揚情報と，モーラ長情報または音素長情報から，第２入力音声の韻律情報７を生成して出力する。韻律生成部２６は，各音素単位／モーラ単位のモーラ長情報または音素長情報と，抑揚情報との対応付け（時間的同期）を行い，韻律情報７として出力する。
【０１０６】
図１２は，第２実施形態における音声合成装置１の処理フロー例を示す図である。
【０１０７】
タイミング制御部１１は，韻律修正したいテキスト情報５を取得して（ステップＳ１０），取得したタイミング情報５に対応するリズム情報を生成する（ステップＳ１１）。
【０１０８】
リズム情報出力部１２がリズム情報を出力したら（ステップＳ１２のＹ），その間に，音声入力部１３ａは，ユーザが発声した音声を収録し，第１入力音声とする（ステップＳ１３）。
【０１０９】
ピッチ抽出部１４ａは，第１入力音声のピッチ周波数を抽出する（ステップＳ１４）。
【０１１０】
モーラ境界修正部１５は，テキスト情報５とリズム情報と第１入力音声のピッチ周波数とをもとに，第１入力音声の各モーラのモーラ境界を修正する（ステップＳ１５）。音響特徴量抽出部２１は，第１入力音声の音響特徴量を抽出する（ステップＳ１６）。
【０１１１】
さらに，リズム情報出力部１２がリズム情報を出力しなかった場合に（ステップＳ１２のＮ），音声入力部１３ａは，その間にユーザが発声した音声を収録し，第２入力音声とする（ステップＳ１７）。音響特徴量抽出部２１は，第２入力音声の音響特徴量を抽出する（ステップＳ１８）。
【０１１２】
第１入力音声と第２入力音声の音響特徴量が得られた後，モーラ境界抽出部２２は，第１入力音声と第２入力音声の音響特徴量をマッチングして最尤パスを探索し，第１入力音声のモーラ境界と最尤パスとの交点から，第２入力音声のモーラ境界を抽出する（ステップＳ１９）。
【０１１３】
その後，モーラ長生成部２３は，各モーラのモーラ境界間の長さを示すモーラ長情報を生成する（ステップＳ１１０）。または，音素長生成部２４は，各モーラを構成する各音素の音素長を示す音素長情報を生成する（ステップＳ１１１）。
【０１１４】
ピッチ抽出部１４ａは，第２入力音声のピッチ周波数を抽出すると（ステップＳ１１２），抑揚生成部２５は，第２入力音声のピッチ周波数情報から，第２入力音声の抑揚情報を生成する（ステップＳ１１３）。
【０１１５】
韻律生成部２６は，モーラ長情報または音素長情報が生成された後，第２入力音声の抑揚情報と，モーラ長情報または音素長情報とから，第２入力音声の韻律を示す韻律情報７を生成し（ステップＳ１１４），音声合成装置１の音声合成機能により（図示しない），ユーザが韻律修正結果を確認できるように，韻律生成部２６が生成した韻律情報７をもとに再合成した音声を出力する（ステップＳ１１５）。
【０１１６】
タイミング制御部１１は，韻律修正の対象となるテキスト情報５の入力（修正イベント）があるかを調べ，修正イベントがあれば（ステップＳ１１６のＹ），ステップＳ１０の処理へ戻り，修正イベントがなければ（ステップＳ１１６のＮ），処理を終了する。
【０１１７】
第２実施形態における音声合成装置１によれば，リズム情報に同期した第１入力音声から，リズム情報と第１入力音声の同期のずれを修正して得られる第１入力音声の正確なモーラ境界を抽出し，第１入力音声とユーザ所望の韻律で発声した第２入力音声の音響特徴量のマッチングによって第２入力音声のモーラ境界を検出することができる。これにより，モーラ境界の抽出精度が向上する。
【０１１８】
さらに，第２実施形態における音声合成装置１によれば，第２入力音声のピッチ周波数を抽出して抑揚情報を生成し，モーラ長または音素長と抑揚情報から韻律情報７を生成することで，高い精度で韻律修正することが可能となる。
【０１１９】
［第３実施形態］
図１３および図１４を用いて，第３実施形態について説明する。
【０１２０】
図１３は，本発明の一態様として開示する音声合成装置１の第３実施形態における構成例を示す図である。
【０１２１】
音声合成装置１は，タイミング制御部１１ｂ，音声入力部１３ｂ，ピッチ抽出部１４，モーラ境界修正部１５，およびアクセント抽出部１６を備える。
【０１２２】
ピッチ抽出部１４，モーラ境界修正部１５，およびアクセント抽出部１６は，第１実施形態の音声合成装置１の同一の番号が付けられた処理部と同じであるため，説明を省略する。
【０１２３】
音声入力部１３ｂは，第１入力音声として，ユーザ自身が指定したリズム情報と，このリズム情報に同期したモーラ単位の発声とを取得する。
【０１２４】
リズム情報として，モーラ発声のタイミングに同期した時間情報であればよく，例えば，メトロノームのタイミング音，ユーザが発生する音，例えば指で机を叩く音などでよい。
【０１２５】
音声入力部１３ｂは，ユーザが発声した音声と共に，リズム情報の音（以下，リズム音）を収録する。なお，この場合に，リズム音と同期して，テキスト情報５をモーラ単位で発声する前に，予めリズム音だけを収録できるようにユーザ操作がなされることが好ましい。
【０１２６】
タイミング制御部１１ｂは，音声入力部１３ｂが取得した第１入力音声について，リズム情報の時間同期を行う。
【０１２７】
図１４は，第３実施形態におけるタイミング制御部１１ｂの構成例を示す図である。
【０１２８】
タイミング制御部１１ｂは，音響特徴量抽出部１１１とリズム音抽出部１１２を備える。
【０１２９】
リズム情報が，テキスト情報５のモーラ単位での発声（以下，モーラ単位発声という）のタイミングに同期した時間情報であれば，そのまま第１入力音声のモーラ境界とリズム情報との同期をとることができる。しかし，リズム情報がユーザにより与えられる音（メトロノーム，ユーザが叩いた音など）である場合に，このリズム音のタイミングと，モーラ単位発声のモーラ境界との同期をとる必要があるからである。
【０１３０】
音響特徴量抽出部１１１は，音声入力部１３ｂが取得した第１入力音声を，所定のフレーム長に分割し，リズム音とモーラ単位発声の音響特徴量とを抽出する。リズム音の音響特徴量として，モーラ単位発声前のリズム音のみが発生している区間での音響特徴量が抽出されることが好ましい。
【０１３１】
なお，音響特徴量については，第２実施形態の音響特徴量抽出部２１で説明した処理と同様であるので，ここでは説明を省略する。
【０１３２】
リズム音抽出部１１２は，モーラ単位発声の音響特徴量から，リズム音の音響特徴量が存在する位置を抽出する。リズム音は，モーラ単位発声での音声と異なる音響特徴量を持つため，モーラ単位発声とリズム音の音響特徴量のマッチングにより，リズム音の位置情報を正確に得ることができる。
【０１３３】
リズム音抽出部１１２は，音響特徴量のマッチングとして，例えば，両者の音響特徴量のユークリッド距離差を評価値とし，この評価値が所定の閾値未満となった位置，すなわち音響特徴量が類似している位置を，リズム音の位置として抽出し，抽出したリズム音の位置を示すリズム情報を出力する。
【０１３４】
以上の構成を備えるタイミング制御部１１ｂにより，音声合成装置１では，ユーザはリズム情報出力部１２が出力するタイミングに縛られることなく，ユーザ自身が所望するタイミングでモーラ発声をすることができる。
【０１３５】
さらに，タイミング制御部１１ｂは，そのようにして発声された第１入力音声であっても，そのモーラ発声タイミングを精度良く自動的に検出して，アクセント修正を高い精度で行うことが可能となる。
【０１３６】
［第４実施形態］
図１５を用いて，第４実施形態について説明する。
【０１３７】
図１５は，本発明の一態様として開示する音声合成装置１の第４実施形態における構成例を示す図である。
【０１３８】
音声合成装置１は，タイミング制御部１１ｃ，音声入力部１３ｃ，ピッチ抽出部１４ａ，モーラ境界修正部１５，音響特徴量抽出部２１，モーラ境界抽出部２２，モーラ長生成部２３，音素長生成部２４，抑揚生成部２５，および韻律生成部２６を備える。
【０１３９】
ピッチ抽出部１４ａ，モーラ境界修正部１５，音響特徴量抽出部２１，モーラ境界抽出部２２，モーラ長生成部２３，音素長生成部２４，抑揚生成部２５，および韻律生成部２６は，第２実施形態の音声合成装置１の同一の番号が付けられた処理部と同じであるため，説明を省略する。
【０１４０】
音声入力部１３ｃは，図１３に示す音声入力部１３ｂと同様の処理を行い，第１入力音声として，ユーザ自身が指定したリズム情報と，このリズム情報に同期したモーラ単位の発声とを取得する。
【０１４１】
タイミング制御部１１ｃは，図１３に示すタイミング制御部１１ｂと同様の処理を行い，音声入力部１３ｃが取得した第１入力音声について，リズム情報の時間同期を行う。
【０１４２】
以上の構成を備えるタイミング制御部１１ｃにより，第３実施形態と同様に，ユーザが与えたリズム情報であってもモーラ発声タイミングを精度良く自動的に検出して，韻律修正を高い精度で行うことが可能となる。
【０１４３】
次に，第１実施形態例〜第４実施形態において，音声合成装置１が，先頭モーラが無声音である場合または単音発声による音声を処理対象とする場合の処理精度を，より高精度に行えるようにする実施形態を説明する。
【０１４４】
そのため，第１実施形態例〜第４実施形態における音声合成装置１のピッチ抽出部１４，１４ａおよびモーラ境界修正部１５は，図１６に示す処理部を備える。
【０１４５】
図１６は，ピッチ抽出部１４およびモーラ境界修正部１５の構成例を示す図である。
【０１４６】
ピッチ抽出部１４，１４ａは，ピッチ周波数抽出部１４１および音声区間検出部１４２を備え，第１入力音声のピッチ周波数情報の抽出ならびに音声区間情報の検出を行う。
【０１４７】
ピッチ周波数抽出部１４１は，第１入力音声から音声のピッチ周波数を抽出し，抽出したピッチ周波数（ピッチ周波数情報）を出力する。
【０１４８】
ピッチ周波数抽出部１４１は，第１実施形態のピッチ周波数抽出部１４の処理を実行する。したがって，ここでは，処理の説明を省略する。
【０１４９】
音声区間検出部１４２は，第１入力音声の音声パワーを算出し，算出した音声パワーの値が所定の閾値を超えた位置を音声開始位置とし，音声パワーの値が所定の閾値を下回った位置を音声終了位置として，音声開始位置から終了位置までの区間を音声区間として検出し，検出した区間を示す音声区間情報を出力する。
【０１５０】
モーラ境界修正部１５は，音声種別判定部１５１およびモーラ境界決定部１５２を備え，テキスト情報５，リズム情報，ピッチ周波数情報，ならびに音声区間情報から，第１入力音声の実際のモーラ境界とリズム情報のずれを修正し，正しいモーラ境界を決定する。
【０１５１】
音声種別判定部１５１は，第１入力音声が「長音発声」か「単音発声」のいずれかの音声種別に相当するかを判定し，判定した音声種別を示す音声種別情報を出力する。
【０１５２】
一例として，音声種別判定部１５１は，テキスト情報５および音声区間情報から，音声種別（長音発声または単音発声）を判定する。
【０１５３】
図１７は，第１入力音声が長音発声である場合のピッチ周波数および音声区間の例を示す図，図１８は，第１入力音声が単音発声である場合のピッチ周波数および音声区間の例を示す図である。
【０１５４】
音声種別判定部１５１は，テキスト情報５からモーラ数をカウントし，さらに，音声区間情報から，第１入力音声の音声区間数をカウントする。
【０１５５】
図１７に示すように，長音発声では，全てのモーラが連続して発声され，１個の音声区間として検出される。音声種別判定部１５１は，音声区間数が１個である場合に，第１入力音声を長音発声と判定する。
【０１５６】
一方，図１８に示すように，単音発声では，各モーラ単位で区切って発声するため，モーラ間に無音区間が生じ，モーラ数分の音声区間が生成されるためである。音声種別判定部１５１は，カウントしたモーラ数と音声区間数とが一致する場合に，第１入力音声を単音発声と判定する。
【０１５７】
音声種別判定部１５１は，音声区間が２個以上存在し，モーラ数と音声区間数が一致しない場合には，長音発声と単音発声の混在であると判定する。
【０１５８】
音声種別判定部１５１は，長音発声と単音発声の混在であると判定した場合に，１）長音発声区間と単音発声区間を検出する処理，または，２）ユーザへエラーを通知する処理のいずれかを行うようにする。
【０１５９】
音声種別判定部１５１は，上記１）の処理を行う場合に，ある音声区間中にリズム情報のモーラ単位発声の開始位置が含まれる場合に，その境界（モーラ単位発声の開始位置）の前後のモーラは長音発声区間であると判定し，それ以外のモーラは，単音発声区間であると判定する。
【０１６０】
モーラ境界決定部１５２は，音声種別情報，リズム情報，テキスト情報５，ピッチ周波数情報，および音声区間情報から，第１入力音声の実際のモーラ境界とリズム情報のずれを修正し，正しいモーラ境界情報を決定して出力する。
【０１６１】
より詳しくは，モーラ境界決定部１５２は，音声区間情報が長音発声区間である場合に，ピッチ周波数情報のピッチ周波数変化が大きい部分をモーラ境界と判定する。長音発声では，長音で発声される母音が同じ高さで発声される，すなわち聴音で発声される母音部分のピッチ変化がほとんどない，という特徴を有する。
【０１６２】
モーラ境界決定部１５２は，ピッチ周波数の変化が大きい部分をモーラ境界と判定する。ピッチ周波数変化が大きい部分とは，例えば，図１７のピッチ周波数の例において，リズム情報により「な」および「い」の各モーラに相当する区間の破線丸印で囲まれた部分ｔ１２，ｔ１４である。
【０１６３】
加えて，モーラ境界決定部１５２は，ピッチ周波数が途切れる先頭位置はモーラ境界と判定する。図１７のピッチ周波数の例において，リズム情報により「し」のモーラに相当する区間の破線丸印で囲まれた部分ｔ１３で示すように，先頭子音が無声であるモーラについては，先頭モーラ境界の位置にピッチ周波数が存在しないものの，その前後では長母音の発声が生じ，必ずピッチ周波数が存在するからである。
【０１６４】
さらに，モーラ境界決定部１５２は，テキスト情報５の先頭モーラについて，ピッチ周波数情報と音声区間情報の音声区間とを合わせて利用して，先頭モーラ境界を判定する。図１７に示すピッチ周波数の例において，リズム情報により「か」のモーラに相当する区間の破線丸印で囲まれた部分ｔ１１で示すように，テキスト情報５の先頭モーラの子音が無声である場合には，ピッチ周波数が存在せず，ピッチ周波数情報だけでは１モーラ目のモーラ境界を正しく修正できないためである。この場合は，モーラ境界決定部１５２は，音声区間情報の音声区間から，音声区間の開始位置を先頭モーラ境界の位置として決定する。
【０１６５】
モーラ境界決定部１５２は，音声区間情報が単音発声である場合に，音声区間情報の音声区間の開始位置をモーラ境界と判定する。図１８のピッチ周波数の例に示すように，単音発声の場合には，各モーラを区切って発声されるため，各モーラの前後に無音区間が挟まれるからである。
【０１６６】
モーラ境界決定部１５２は，無音から音声に変化する位置をモーラ先頭境界として，音声から無音に変化する位置をモーラ終端境界として検出する。単音発声である場合には，音声区間の音声開始位置がモーラ単位発声のモーラ境界に相当するため，精度良くモーラ境界を修正できる。
【０１６７】
さらに，音声区間情報は，モーラ先頭や終端の音声パワーが小さい部分を音声区間外と判定してしまう場合がある。これに対応するため，モーラ境界決定部１５２は，音声区間情報に加え，有声部分のピッチ周波数情報を組み合わせるため，音声区間外と判定されるような音声パワーの小さな区間であっても有声によるピッチ周波数が検出される場合には，音声区間内と判断する。
【０１６８】
さらに，単音発声の場合には，モーラ発声の終端位置が次のモーラの開始位置にはならないため，各モーラの開始位置と終端位置とをリズム情報として持つことが好ましい。
【０１６９】
第２実施形態および第４実施形態における音声合成装置１のモーラ境界抽出部２２は，各モーラの開始位置と終端位置とを示すリズム情報により，無音区間を除外した第１入力音声の音響特徴量をマッチング対象として処理することができる。第１入力音声および第２入力音声の音響特徴量をマッチングする場合に，第２入力音声には無音が含まれないことから，有声の区間のみをマッチングするためである。これにより，第２入力音声のモーラ境界抽出精度が，より向上する。
【０１７０】
以上の実施形態により開示した音声合成装置１は，専用のハードウェア，または，図１９に示すような，演算装置（ＣＰＵ）１０１，一時記憶装置（ＤＲＡＭ，フラッシュメモリ等）１０２，および永続性記憶装置（ＨＤＤ，フラッシュメモリ等）１０３，入力装置（マイク，マウス等）１２０，および出力装置（スピーカ，モニタ等）１３０を有し，外部とデータ入出力が可能なコンピュータ１００によって実施することができる。
【０１７１】
また，音声合成装置１は，コンピュータ１００が実行可能なプログラムによっても実施することができる。この場合に，音声合成装置１が有すべき処理部が実行する機能の処理内容を記述したプログラムが提供される。提供されたプログラムをコンピュータ１００が実行することによって，上記説明した音声合成装置１の処理機能がコンピュータ１００上で実現される。なお，コンピュータ１００は，可搬型記録媒体から直接プログラムを読み取り，そのプログラムに従った処理を実行することもできる。さらに，上記プログラムは，コンピュータ１００で読み取り可能な記録媒体に記録しておくことができる。
【０１７２】
以上説明したように，開示した音声合成装置１によれば，次のような効果がある。
【０１７３】
１）リズム情報に同期した第１入力音声のモーラ境界とリズム情報の同期のずれを修正してモーラ境界検出の精度を向上させ，高精度のアクセント修正を実現することが可能となる。
【０１７４】
２）さらに，ユーザが任意に発声した第２入力音声のモーラ境界抽出の精度を向上させ，高精度の韻律修正を実現することが可能となる。
【０１７５】
本発明の実施態様における特徴を列記すると以下のとおりとなる。
【０１７６】
（付記１）
テキストを合成音声に変換する音声合成装置において，
韻律修正の対象となるテキスト情報を取得し，テキスト情報に対応するリズム情報を生成するタイミング制御部と，
前記リズム情報を出力するリズム情報出力部と，
前記リズム情報に同期した第１入力音声と，前記リズム情報と非同期の第２入力音声を入力する音声入力部と，
前記第１入力音声および前記第２入力音声の各音響特徴量を抽出する音響特徴量抽出部と，
前記第１入力音声および前記第２入力音声の各ピッチ周波数情報を抽出するピッチ抽出部と，
前記リズム情報および前記第１入力音声のピッチ周波数情報から，前記第１入力音声のモーラ境界を修正し，修正した前記モーラ境界を示す第１入力音声のモーラ境界情報を生成するモーラ境界修正部と，
前記第１入力音声のモーラ境界情報をもとに，前記第１入力音声および前記第２入力音声の各音響特徴量をマッチング処理し，前記マッチング処理結果をもとに，前記第２入力音声のモーラ境界を示す第２入力音声のモーラ境界情報を抽出するモーラ境界抽出部と，
前記第２入力音声のピッチ周波数情報から，前記第２入力音声の抑揚情報を生成する抑揚生成部と，
前記第２入力音声のモーラ境界情報および前記テキスト情報から，前記第２入力音声の各モーラのモーラ長を示すモーラ長情報を生成するモーラ長生成部と，
前記第２入力音声の抑揚情報および前記モーラ長情報から，前記第２入力音声の韻律情報を生成して出力する韻律生成部とを備える
ことを特徴とする音声合成装置。
【０１７７】
（付記２）
前記モーラ長生成部に代えて，前記第２入力音声のモーラ境界情報および前記テキスト情報から，前記第２入力音声の音素長を示す音素長情報を生成する音素長生成部を備えて，
前記韻律生成部は，前記第２入力音声の抑揚情報，および前記モーラ長情報に代わる前記音素長情報から，前記第２入力音声の韻律情報を生成して出力する
ことを特徴とする前記付記１に記載の音声合成装置。
【０１７８】
（付記３）
テキストを合成音声に変換する音声合成装置において，
アクセント修正の対象となるテキスト情報を取得し，テキスト情報のモーラ数に対応するリズム情報を生成するタイミング制御部と，
前記リズム情報を出力するリズム情報出力部と，
リズム情報に同期した第１入力音声を取得する音声入力部と，
前記第１入力音声から，音声のピッチ周波数を示すピッチ周波数情報を抽出するピッチ抽出部と，
前記リズム情報と前記ピッチ周波数情報から，前記第１入力音声の各モーラのモーラ境界を修正し，修正した前記モーラ境界を示すモーラ境界情報を生成するモーラ境界修正部と，
前記テキスト情報，前記第１入力音声のモーラ境界情報，および前記ピッチ周波数情報から，アクセント位置が設定されるモーラを決定し，前記アクセント位置を示すアクセント情報を抽出するアクセント抽出部とを備える
ことを特徴とする音声合成装置。
【０１７９】
（付記４）
前記音声入力部は，外部で生成されたリズム音が重畳された前記第１入力音声を入力し，
前記タイミング制御部は，前記リズム情報の生成に代えて，前記リズム音が重畳された第１入力音声から前記リズム音の位置を決定し，決定した前記リズム音の位置を示すリズム情報を生成する
ことを特徴とする前記付記１ないし前記付記３のいずれか１項に記載の音声合成装置。
【０１８０】
（付記５）
前記ピッチ抽出部は，前記第１入力音声から，音声が存在する区間を抽出し，抽出した前記区間を示す音声区間情報を生成し，
前記モーラ境界修正部は，前記テキスト情報，前記リズム情報，前記第１入力音声のピッチ周波数情報，および前記音声区間情報から，第１入力音声が長音発声または単音発声のいずれであるかを判定する
ことを特徴とする前記付記１ないし前記付記４のいずれか１項に記載の音声合成装置。
【０１８１】
（付記６）
前記モーラ境界修正部は，前記第１入力音声が長音発声であると判定した場合に，前記第１入力音声のピッチ周波数の連続性が途切れる位置を，モーラ境界として抽出する
ことを特徴とする前記付記５に記載の音声合成装置。
【０１８２】
（付記７）
前記モーラ境界修正部は，前記第１入力音声が長音発声であると判定した場合に，前記第１入力音声のピッチ周波数変化率を算出し，算出した前記ピッチ周波数変化率が所定の閾値を超えた位置を，モーラ境界として抽出する
ことを特徴とする前記付記５に記載の音声合成装置。
【０１８３】
（付記８）
前記モーラ境界修正部は，前記第１入力音声が単音発声であると判定した場合に，前記第１入力音声の音声区間の開始位置またはピッチ周波数の開始位置を，モーラ境界として抽出する
ことを特徴とする前記付記５に記載の音声合成装置。
【０１８４】
（付記９）
前記タイミング制御部が生成する前記リズム情報は，一定間隔で発せられる音，一定間隔で画像が変化する静止画像もしくは動画像，または一定間隔で発せられる光である
ことを特徴とする前記付記１または前記付記３に記載の音声合成装置。
【０１８５】
（付記１０）
コンピュータに，テキストを合成音声に変換する音声合成処理として，
韻律修正の対象となるテキスト情報を取得し，テキスト情報に対応するリズム情報を生成する処理と，
前記リズム情報を出力する処理と，
前記リズム情報に同期した第１入力音声と，前記リズム情報と非同期の第２入力音声を入力する処理と，
前記第１入力音声および前記第２入力音声の各音響特徴量を抽出する処理と，
前記第１入力音声および前記第２入力音声の各ピッチ周波数情報を抽出する処理と，
前記リズム情報および前記第１入力音声のピッチ周波数情報から，前記第１入力音声のモーラ境界を修正し，修正した前記モーラ境界を示す第１入力音声のモーラ境界情報を生成する処理と，
前記第１入力音声のモーラ境界情報をもとに，前記第１入力音声および前記第２入力音声の各音響特徴量をマッチング処理し，前記マッチング処理結果をもとに，前記第２入力音声のモーラ境界を示す第２入力音声のモーラ境界情報を抽出する処理と，
前記第２入力音声のピッチ周波数情報から，前記第２入力音声の抑揚情報を生成する処理と，
前記第２入力音声のモーラ境界情報および前記テキスト情報から，前記第２入力音声の各モーラのモーラ長を示すモーラ長情報を生成する処理と，
前記第２入力音声の抑揚情報および前記モーラ長情報から，前記第２入力音声の韻律情報を生成して出力する処理とを，実行させる
ことを特徴とする音声合成プログラム。
【０１８６】
（付記１１）
コンピュータに，テキストを合成音声に変換する音声合成処理として，
アクセント修正の対象となるテキスト情報を取得し，テキスト情報のモーラ数に対応するリズム情報を生成する処理と，
前記リズム情報を出力する処理と，
リズム情報に同期した第１入力音声を取得する処理と，
前記第１入力音声から，音声のピッチ周波数を示すピッチ周波数情報を抽出する処理と，
前記リズム情報と前記ピッチ周波数情報から，前記第１入力音声の各モーラのモーラ境界を修正し，修正した前記モーラ境界を示すモーラ境界情報を生成する処理と，
前記テキスト情報，前記第１入力音声のモーラ境界情報，および前記ピッチ周波数情報から，アクセント位置が設定されるモーラを決定し，前記アクセント位置を示すアクセント情報を抽出する処理とを，実行させる
ことを特徴とする音声合成プログラム。
【符号の説明】
【０１８７】
１音声合成装置
１１，１１ｂ，１１ｃタイミング制御部
１２リズム情報出力部
１３，１３ａ，１３ｂ，１３ｃ音声入力部
１４，１４ａピッチ抽出部
１５モーラ境界修正部
１６アクセント抽出部
２１音響特徴量抽出部
２２モーラ境界抽出部
２３モーラ長生成部
２４音素長生成部
２５抑揚生成部
２６韻律生成部
５テキスト情報
６アクセント情報
７韻律情報

【特許請求の範囲】
【請求項１】
テキストを合成音声に変換する音声合成装置において，
韻律修正の対象となるテキスト情報を取得し，テキスト情報に対応するリズム情報を生成するタイミング制御部と，
前記リズム情報を出力するリズム情報出力部と，
前記リズム情報に同期した第１入力音声と，前記リズム情報と非同期の第２入力音声を入力する音声入力部と，
前記第１入力音声および前記第２入力音声の各音響特徴量を抽出する音響特徴量抽出部と，
前記第１入力音声および前記第２入力音声の各ピッチ周波数情報を抽出するピッチ抽出部と，
前記リズム情報および前記第１入力音声のピッチ周波数情報から，前記第１入力音声のモーラ境界を修正し，修正した前記モーラ境界を示す第１入力音声のモーラ境界情報を生成するモーラ境界修正部と，
前記第１入力音声のモーラ境界情報をもとに，前記第１入力音声および前記第２入力音声の各音響特徴量をマッチング処理し，前記マッチング処理結果をもとに，前記第２入力音声のモーラ境界を示す第２入力音声のモーラ境界情報を抽出するモーラ境界抽出部と，
前記第２入力音声のピッチ周波数情報から，前記第２入力音声の抑揚情報を生成する抑揚生成部と，
前記第２入力音声のモーラ境界情報および前記テキスト情報から，前記第２入力音声の各モーラのモーラ長を示すモーラ長情報を生成するモーラ長生成部と，
前記第２入力音声の抑揚情報および前記モーラ長情報から，前記第２入力音声の韻律情報を生成して出力する韻律生成部とを備える
ことを特徴とする音声合成装置。
【請求項２】
前記モーラ長生成部に代えて，前記第２入力音声のモーラ境界情報および前記テキスト情報から，前記第２入力音声の音素長を示す音素長情報を生成する音素長生成部を備えて，
前記韻律生成部は，前記第２入力音声の抑揚情報，および前記モーラ長情報に代わる前記音素長情報から，前記第２入力音声の韻律情報を生成して出力する
ことを特徴とする請求項１に記載の音声合成装置。
【請求項３】
テキストを合成音声に変換する音声合成装置において，
アクセント修正の対象となるテキスト情報を取得し，テキスト情報のモーラ数に対応するリズム情報を生成するタイミング制御部と，
前記リズム情報を出力するリズム情報出力部と，
前記リズム情報に同期した第１入力音声を取得する音声入力部と，
前記第１入力音声から，音声のピッチ周波数を示すピッチ周波数情報を抽出するピッチ抽出部と，
前記リズム情報と前記ピッチ周波数情報から，前記第１入力音声の各モーラのモーラ境界を修正し，修正した前記モーラ境界を示すモーラ境界情報を生成するモーラ境界修正部と，
前記テキスト情報，前記第１入力音声のモーラ境界情報，および前記ピッチ周波数情報から，アクセント位置が設定されるモーラを決定し，前記アクセント位置を示すアクセント情報を抽出するアクセント抽出部とを備える
ことを特徴とする音声合成装置。
【請求項４】
前記音声入力部は，外部で生成されたリズム音が重畳された前記第１入力音声を入力し，
前記タイミング制御部は，前記リズム情報の生成に代えて，前記リズム音が重畳された第１入力音声から前記リズム音の位置を決定し，決定した前記リズム音の位置を示すリズム情報を生成する
ことを特徴とする請求項１ないし請求項３のいずれか１項に記載の音声合成装置。
【請求項５】
前記ピッチ抽出部は，前記第１入力音声から，音声が存在する区間を抽出し，抽出した前記区間を示す音声区間情報を生成し，
前記モーラ境界修正部は，前記テキスト情報，前記リズム情報，前記第１入力音声のピッチ周波数情報，および前記音声区間情報から，第１入力音声が長音発声または単音発声のいずれであるかを判定する
ことを特徴とする請求項１ないし請求項４のいずれか１項に記載の音声合成装置。
【請求項６】
前記タイミング制御部が生成する前記リズム情報は，一定間隔で発せられる音，一定間隔で画像が変化する静止画像もしくは動画像，または一定間隔で発せられる光である
ことを特徴とする請求項１または請求項３に記載の音声合成装置。
【請求項７】
コンピュータに，テキストを合成音声に変換する音声合成処理として，
韻律修正の対象となるテキスト情報を取得し，テキスト情報に対応するリズム情報を生成する処理と，
前記リズム情報を出力する処理と，
前記リズム情報に同期した第１入力音声と，前記リズム情報と非同期の第２入力音声を入力する処理と，
前記第１入力音声および前記第２入力音声の各音響特徴量を抽出する処理と，
前記第１入力音声および前記第２入力音声の各ピッチ周波数情報を抽出する処理と，
前記リズム情報および前記第１入力音声のピッチ周波数情報から，前記第１入力音声のモーラ境界を修正し，修正した前記モーラ境界を示す第１入力音声のモーラ境界情報を生成する処理と，
前記第１入力音声のモーラ境界情報をもとに，前記第１入力音声および前記第２入力音声の各音響特徴量をマッチング処理し，前記マッチング処理結果をもとに，前記第２入力音声のモーラ境界を示す第２入力音声のモーラ境界情報を抽出する処理と，
前記第２入力音声のピッチ周波数情報から，前記第２入力音声の抑揚情報を生成する処理と，
前記第２入力音声のモーラ境界情報および前記テキスト情報から，前記第２入力音声の各モーラのモーラ長を示すモーラ長情報を生成する処理と，
前記第２入力音声の抑揚情報および前記モーラ長情報から，前記第２入力音声の韻律情報を生成して出力する処理とを，実行させる
ことを特徴とする音声合成プログラム。
【請求項８】
コンピュータに，テキストを合成音声に変換する音声合成処理として，
アクセント修正の対象となるテキスト情報を取得し，テキスト情報のモーラ数に対応するリズム情報を生成する処理と，
前記リズム情報を出力する処理と，
前記リズム情報に同期した第１入力音声を取得する処理と，
前記第１入力音声から，音声のピッチ周波数を示すピッチ周波数情報を抽出する処理と，
前記リズム情報と前記ピッチ周波数情報から，前記第１入力音声の各モーラのモーラ境界を修正し，修正した前記モーラ境界を示すモーラ境界情報を生成する処理と，
前記テキスト情報，前記第１入力音声のモーラ境界情報，および前記ピッチ周波数情報から，アクセント位置が設定されるモーラを決定し，前記アクセント位置を示すアクセント情報を抽出する処理とを，実行させる
ことを特徴とする音声合成プログラム。

【図１】