説明

使用者の候補合成単位選択による音声合成方法およびシステム(VoiceSynthesizingMethodandSystemBasedonUserDirectedCandidate−UnitSelection)

【課題】使用者の候補合成単位選択による音声合成方法を提供する。
【解決手段】入力文章を発音表記に変換するステップと、上記変換された発音表記を用いて抑揚および持続時間の韻律情報を生成するステップと、音声データベースから最適の合成単位を選択し、その合成単位を連結して合成音を生成するステップとを含んで構成され、上記合成音を生成するステップは、上記発音表記および上記韻律情報を用いて音声データベースから最適の候補合成単位を選択し、上記各候補に対する目標コストを計算するステップと、各合成単位の境界地点における連結コストを計算するステップと、上記目標コストと上記連結コストとを合計して全体コストを計算し、累積された全体コストが最小になる経路を検索するビタビ検索過程を実行するステップと、音声波形を生成するステップと、使用者が合成候補を選択するステップとにより合成音を生成する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声合成方法およびシステムに関するものであり、より具体的には、本発明は音声合成機の合成音生成過程で含まれていた候補合成単位を使用者が直接選択して合成音をチューニングすることができるようにし、使用者の合成単位選択がなされるごとに合成機において使用者が選択した合成単位を含ませて、最適の合成音を生成する方法およびシステムに関するものである。
【背景技術】
【0002】
技術が高度に発達するに従って多様な方法の音声合成方法に関する技術が開発されてきた。現在まで提案されていた最も高音質の合成音を生成することができる方法は、コーパス基盤音声合成方法であって、コーパス基盤音声合成方法は、音声を合成単位(unit)の形態で構成したデータベース(DB)から合成に必要な単位を選択し、それを適宜に連結して合成音を生成することで高音質の合成音を生成する方法である。しかし、このような方法は、時々任意のテキストまたは新しく出現される単語に対しては満足できるような音質を合成することができなくて、データベースの追加や合成音のチューニング等に対する要求が増加している。
【0003】
このようなコーパス基盤音声合成システムに対する基本システムの構成図が図1に図示されている。図1を参照すると、コーパス基盤音声合成システムは、大きく言語学的処理部(120)、韻律処理部(130)および音声信号処理部(140)から構成される。文章が入力されると、言語学的処理部(120)のテキスト前処理モジュール(121)が数字/略語/記号辞典(161)を用いて文章に含まれた数字、記号等をテキスト(Text)に変換し、文章分析モジュール(122)が品詞辞典(162)を用いて文章を分析し、発音表記変換モジュール(123)が発音辞典(163)を用いて発音表記に変換する。上記言語学的処理部において入力文章の前処理がなされると、韻律処理部(130)は言語学的処理部から抽出された情報を用いて抑揚、持続時間等の韻律情報を生成する。また、音声信号処理部(140)の合成単位選択モジュール(141)は、言語学的処理部において生成された情報等を用いて音声DB(164)から最適の合成単位を選択して、音声波形生成モジュール(142)において合成単位等を連結して合成音を作り、音声出力部(150)を介して合成音を出力する。
【0004】
上記音声合成システムのような大容量コーパスを基盤とする連結合成システムでは、一つの合成単位に対して多数の候補から最適の合成単位を選択する「合成単位選択過程」が合成音の音質に最も大きい影響を与える。全ての合成単位候補に対する目標コスト(target cost)と各候補間の連結コスト(concatenation cost, join cost)を求めて、その二つの値を適切に重みづけした(weighted)全体コストが最小になるように最適の合成単位を選択する。
【0005】
目標コストは、各合成単位候補が実際に合成しようとする音素の種類および韻律とどのくらい類似しているかを示す値として、入力テキストから言語処理部と韻律生成部等で求めた各特徴別目標値と、合成単位候補から求めた特徴との距離値に対して各要素別加重値との合計で計算され、ここに用いられる特徴としては、一般に発音(音素列)、音素持続時間、ピッチ値、エネルギ等が用いられる。連結コストは、連結される2つの候補合成単位間の境界地点での特徴別距離値の加重値の合計で計算され、特徴としてはスペクトラム、ピッチ、エネルギ等が用いられる。目標コストと連結コストを計算するとき、最終の合成音質に重要な影響を及ぼす特徴要素別距離の加重値は各特徴が合成音質に及ぼす重要度によって決定されなければならないが、一般的には実験的な方法や訓練により求められる。
【0006】
合成単位選択の際には、各候補合成単位の間の全ての可能な連結経路に対して、目標コストと連結コストとの和を適切に重みづけして全体コストを計算し、ビタビ(Viterbi)検索のような動的プログラミングにより、そのコストが最小化される経路を探すようにして、最終の合成単位を選択するようになる。
【0007】
このような過程を通して最終的に使用者に提供される合成音は平均的に優れる音質を維持するが、特定の文章や特殊なテキストの場合、満足ではない場合がある。これは目標コストや連結コストに用いられる特徴を抽出する過程において発生する間違いや、計算速度を速くするために抽出された特徴を量子化(Quantization)して用いることによって量子化の過程において発生する誤差のためであり、また重要な要因は、特徴に対する加重値が実験的な方法または訓練によって決定され、合成機でテキストを分析した後に生成する韻律情報も訓練や規則によって決定されることにより(平均的には適合するが)、任意のテキストには合わない場合が発生するのである。
【0008】
コーパス基盤音声合成方法において合成音の音質を向上させるためには、音声コーパスをより豊かに構成して合成単位の選択過程で用いられる候補の数を大きく増やす方法と、合成単位選択アルゴリズム、即ち加重値の決定とコストの計算に用いられる特徴を追加する方法とがある。しかし、上記2種類の方法は全てコストと時間が多くかかるだけでなく、満足できるような結果を保証することはできない。そして、一般的に数十時間(10〜40時間)録音して構成した音声コーパスを用いる合成機で任意のテキストを合成する場合、合成単位選択過程の候補合成単位を分析してみると、最終の合成音の生成に用いられた合成単位よりも適宜の候補合成単位が存在する場合があって、任意のテキストでは合成単位選択のアルゴリズムによって自動で決定することより、直接的に特定の合成単位を手動で固定選択するようにする方法が優れる合成音を提供することができる。
【0009】
したがって本発明者は、使用者が合成音を聴取しながら不満足の合成音部分の合成単位を望む合成単位に交替選択し、それを含む合成音を聴取することができるようにシステムを構成すると、提供された制限的な音声コーパスを用いて作られる最適の合成音を得ることができるという点に着眼して、本発明を開発するに至った。
【発明の概要】
【発明が解決しようとする課題】
【0010】
本発明の目的は、使用者に優先的に、合成機において合成音の生成に用いられた候補合成単位を提示し、その中で使用者が任意の合成単位を選択し、その合成単位が用いられたときの合成音を聴取しながら最終的に望む合成単位を選択するようにした後、合成機で使用者によって選択された合成単位情報を再入力されて、合成単位選択過程においてその合成単位を固定して合成音を生成する音声合成方法および装置を提供することにある。
【0011】
本発明の他の目的は、使用者が提示された候補合成単位の中で望む合成単位を選択するとき、これを容易に行うことができるように候補合成単位をアイコン形態のGUIを構成し、選択された合成単位が用いられた場合の合成音を予め聴取するようにして合成結果を知ることができる音声合成方法および装置を提供することにある。
【0012】
本発明のさらに他の目的は、合成機の合成単位選択過程において用いる韻律の特徴の中で、候補合成単位が持っている音の高低を示すピッチと、発声速度を決定する音素持続時間情報をイメージの形態で提示して、使用者が変更しようとする合成単位に対する情報を簡単に取得することができる音声合成方法および装置を提供することにある。
【0013】
本発明のさらに他の目的は、合成可能な全ての合成単位を使用者が直接選択することができるようにする方法と、一部または単一の合成単位のみを選択し、残りの合成単位は合成機で合成単位選択のアルゴリズムを通して自動で選択されるようにする方法とを同時に提供することにより、多様な合成音を得ようとする使用者の要求を充足させることができる音声合成方法および装置を提供することにある。
【0014】
本発明のさらに他の目的は、合成機の合成単位選択のアルゴリズムで音質を改善することができない場合、一部の合成単位が必須的に合成音の生成に用いられることができるようにし、これらと最も自然に連結されることができる残りの合成単位をもう一度自動で選択して、より改善された合成音を生成することができる音声合成方法および装置を提供することにある。
【0015】
本発明の上記およびその他の目的は、下記に説明される本発明によって全て達成することができる。
【課題を解決するための手段】
【0016】
本発明に係る使用者の候補合成単位の選択による音声合成方法は、入力文章を発音表記に変換するステップと、上記変換された発音表記を用いて、抑揚および持続時間の韻律情報を生成するステップと、音声データベースから最適の合成単位を選択し、上記合成単位を連結して合成音を生成するステップとを含んで構成され、上記合成音を生成するステップは、上記発音表記および上記韻律情報を用いて音声データベースから最適の候補合成単位を選択し、上記各候補に対する目標コストを計算するステップと、各合成単位の境界地点において連結コストを計算するステップと、上記目標コストと上記連結コストを合計して全体コストを計算し、累積された全体コストが最小になる経路を検索するビタビ検索過程を実行するステップと、音声波形を生成するステップと、合成機の候補合成単位の情報を使用者に提示するインターフェースとそれを介して使用者が望む合成候補に交替または修正することができるように使用者によって選択された合成候補情報を入力されてビタビ検索を再実行し、音声波形生成を再実行するステップとによって合成音を生成することを特徴とする。
【0017】
また、本発明に係る使用者の候補合成単位の選択による音声合成システムは、入力文章を発音表記に変換する言語学的処理部と、上記言語学的処理部で変換された情報を用いて抑揚および持続時間の韻律情報を生成する韻律処理部と、上記言語学的処理部および韻律処理部から生成された情報に基づいて音声データベースから最適の合成単位を選択し、この合成単位を連結して合成音を生成する音声信号処理部とを含み、上記音声信号処理部は、使用者候補合成単位選択のインターフェースを含み、使用者が候補合成単位に対する音素持続時間およびピッチデータを選択するようにすることを特徴とする。
【発明の効果】
【0018】
本発明は、使用者が合成音において異常であるとか誤ったと判断される部分が存在する場合、その部分を構成する合成単位の中の異常あるいは誤りの部分を修正することができる合成単位を直接選択するが、選択された合成単位が用いられたときの合成音を予め聴取しながら選択することができるようにして、最終の合成音の音質を向上させ、使用者の趣向にあう合成音を得ることができる音声合成方法および装置を提供する。
【0019】
本発明は、音質劣化を発生させる合成音の一部の合成単位を使用者が直接変えることができるようにして、向上した音質の合成音をすぐ得ることができるようにすることにより、合成機の提供者にチューニングを要請し、その結果を待つ不便を解消することができる。
【0020】
本発明は、合成単位選択過程の事前選択過程において採択された候補合成単位とそれのピッチと持続時間情報を提供し、使用者がこのような情報を介してより早く正確な合成単位を選択することができるようにする。
【0021】
本発明は、使用者が合成音の一部の合成単位だけを変えることを望む場合、使用者が選択した合成単位を固定して、ビタビ検索を再実行し、使用者が選択した合成単位と最適に連結されることができる合成単位を自動で再構成することによって、より簡単に最適な合成音を生成することができる。
【0022】
本発明は、任意のテキストに対してひとつの合成音だけを提供する既存の音声合成機と異なり、使用者が直接合成単位を変えながら望む音の高さと持続時間を有する種々の合成音を得ることができるようにする。
【0023】
本発明は、使用者が合成単位の選択過程の候補合成単位を簡単に選択することができるようにアイコンの形態のGUIを構成することによって早く簡単に合成過程を理解することができるようにして、多様な合成音を生成することができるようにする。
【図面の簡単な説明】
【0024】
【図1】従来技術によるコーパス基盤音声合成システムの構成を図式的に表したブロック図である。
【図2】本発明に係る使用者の候補合成単位選択による音声合成システムに対するブロック図である。
【図3】本発明に係る使用者の候補合成単位選択による音声合成システムにおいて、使用者の候補合成単位選択のインターフェースと合成機の音声信号処理部の実行過程を図示したフローチャートである。
【図4】本発明に係る使用者の候補合成単位選択による音声合成方法におけるビタビ(Viterbi)検索過程の一例を表す図である。
【図5a】本発明に係る使用者の候補合成単位選択のインターフェースにおける候補合成単位を音素持続時間で整列した場合を表す図である。
【図5b】本発明に係る使用者の候補合成単位選択のインターフェースにおける候補合成単位をピッチデータで整列した場合を表す図である。
【図5c】本発明に係る使用者の候補合成単位選択のインターフェースにおける候補合成単位とピッチの輪郭線との関係を説明する説明図である。
【図6】本発明に係る使用者の候補合成単位選択のインターフェースにおける使用者の候補合成単位選択の結果を説明する説明図である。
【図7a】使用者が1つの合成候補だけを選択した場合の使用者の候補合成単位選択を用いたビタビ検索過程を説明する説明図である。
【図7b】使用者が2つの合成候補を選択した場合の使用者の候補合成単位選択を用いたビタビ検索過程を説明する説明図である。
【発明を実施するための形態】
【0025】
以下、添付図面を参照して本発明の好ましい具体例を詳細に説明する。
以下、本発明において用いられる用語を定義する。一般に合成機において用いる「合成単位」は、合成音を生成するときに音声波形を連結させる単位として、音韻環境の変化を考慮して決定され、半音素、音素、半音節、音節、単語等とすることができる。
【0026】
図2は、本発明に係る使用者の候補合成単位選択による音声合成システムに対するブロック図である。
【0027】
図2を図1に示された従来技術によるコーパス基盤音声合成システムと比較すると、本発明に係る使用者の候補合成単位選択による音声合成システムは、既存の言語学的処理部と韻律処理部をそのまま用い、使用者が選択した候補合成単位を用いることができるように音声信号処理部を変更する。
【0028】
図3は、本発明に係る使用者の候補合成単位選択による音声合成システムにおいて、使用者の候補合成単位選択のインターフェースと合成機の音声信号処理部の実行過程を図示したフローチャートである。
【0029】
音声信号処理部は、まず、言語学的処理部と韻律処理部において生成された情報を用いて音声DBから合成単位候補を検索し、候補に対する目標コストを計算する(S1)。
【0030】
目標コストは下記のような式を用いて計算される。
【数1】

【0031】
上記式において、Ctは目標コスト、tiは目標、uiはDBの合成単位、pは特徴の個数、wは各特徴別の加重値を意味する。
【0032】
上記式を用いて目標コストを計算した後、該目標コストを用いて合成単位事前選択(Pre-Selection)を実行する(S2)。合成単位事前選択は、候補の数が多い場合、予め定めた任意の数に候補を制限する過程である。例えば、合成単位の最大個数として30を事前選択すると、合成単位の数は30個に制限される。
【0033】
合成単位事前選択を実行した後、各合成単位の境界地点において選択された候補合成単位間の連結コストを計算する(S3)。
【0034】
連結コストは下記のような式を用いて計算される。
【数2】

【0035】
上記式において、Cc(ui-1, ui)は合成単位ui-1と合成単位uiとを連結するに必要な連結コストを、qは特徴の個数、wcjは連結コストに対する特徴別の加重値を意味する。
【0036】
上記式により選択された候補合成単位間の連結コストを計算した後、この計算した値を用いてビタビ検索過程を実行する(S4)。
【0037】
図4は、本発明に係る使用者の候補合成単位選択による音声合成方法におけるビタビ検索過程の一例を図示する。
【0038】
合成音を構成する最適な合成単位選択は、ビタビ検索で決定されるが、各候補合成単位間の全ての可能な連結経路に対して、予め計算された目標コストと連結コストとの和を適切に重みづけして全体のコストを計算し、最後のステップで累積された値が最小になる経路を逆に検索してなされる。図4において、実線は最後に選択された合成単位の経路であり、破線は連結可能な全ての経路を示す。
【0039】
図3において使用者候補合成単位選択のインターフェースに伝達する「候補合成単位データ」は、候補合成単位データのDBでのID(識別数字)とピッチおよび音素持続時間であり、「ビタビ検索結果」は、合成機のビタビ検索過程を通じて最適に選択された候補合成単位の連結経路であり、「合成音」は、上記の候補合成単位を連結(S5)して作った音声波形である。使用者の候補合成単位選択がなされるためには、上記合成機の音声信号処理部を通過したデータをインターフェースを介して図式化し、情報を伝達(S6)する。上記図式化の過程では、候補合成単位に対して使用者が候補合成単位に対する選択を容易にすることができるように、候補合成単位が持っている音の高低を示すピッチと発声速度を決定する音素持続時間情報がイメージの形態で表示されるが、ピッチはグラフのイメージとして表示され、持続時間は互いに長さが異なるイメージを使用する。
【0040】
使用者は伝達された情報を通して候補合成単位の中のひとつを選択することができ(S7)、使用者が選択した候補合成単位に対する連結コストを再び計算してビタビ検索を再び実行し(図7aと図7b参照)、その結果をインタラクティブに使用者のインターフェースに伝達するようになる。
【0041】
図5a乃至5cは、本発明に係る使用者の候補合成単位選択のインターフェースを説明する説明図である。図5aと図5bは、各々同一の候補合成単位を音素持続時間とピッチデータを基準として整列したものである。合成機で用いる合成単位は子音と母音が区分される音素であるが、使用者の候補合成単位選択のためのインターフェースの合成単位は使用者の理解を助け、選択の便宜のために音節を用い、ピッチと音素持続時間のデータは子音と母音が結合された音節から抽出して図式化した。
【0042】
図5aの上段の矩形はピッチデータを用いたピッチ輪郭線、○は各音節に該当する使用者が選択することができる候補合成単位、●は選択された候補合成単位、実線は選択された候補合成単位の連結経路、|---○---|は合成単位の音素持続時間の相対的長さであってマウスを合成単位(○)の上に持っていくと示されるが、入力文章「アンニョンハセヨ」の「ハ」に対する音素持続時間を見ると、上側の合成単位のものがより短く、下側の合成単位のものが長くなるように整列されていることがわかる。図5bはピッチで整列された態様であるが、上側の合成単位であるほど高音(高いHz)のピッチであり、下側の合成単位はより低音のピッチを有する合成単位である。図5cはインターフェースの上段に表示される各合成音節に対するピッチ輪郭線であって、合成機のビタビ検索過程において選択された合成単位のピッチ、使用者が選択した合成単位のピッチ、マウスが位置する合成単位のピッチが示されている。
【0043】
図6は、使用者の候補合成単位選択のインターフェースから合成機のビタビ検索結果によって選択された合成単位と使用者が選択した合成単位とが互いに異なる場合を示したものであって、実線が使用者が選択した経路、破線が合成機のビタビ検索結果を示した経路である。使用者が選択した経路の合成単位には、使用者が合成音に必ず含まれることを望む固定合成単位と、それを用いて合成機で再検索した合成単位とがある。使用者が合成機で選択された合成単位の中で変えたい合成単位を固定選択したら、その他の合成単位は合成機で再検索するようになる。固定合成単位を選択するためにはマウスの右側ボタンをクリックし、単純選択のためには左側ボタンをクリックする。
【0044】
図7aと図7bは、それぞれ使用者が一つの合成単位を選択した場合と二つの合成単位を固定選択した場合、合成機でなされるビタビ検索過程を示すのである。使用者が任意の音節に該当する合成単位を選択した場合、選択された合成単位だけビタビ検索に用いられ、その音節の他の合成単位はビタビ検索から除外されるため、使用者が選択する合成単位の数は、全ての音節の数に拡張されることができる。
【0045】
上記のように、本発明に係る使用者の候補合成単位選択による音声合成方法は、使用者が合成機で出力される合成音を使用者の好みに合うように再構成するとか、音節劣化が発生する部分を直接修正するとかすることができるようにすることで、既存の使用者と開発者との間のチューニング過程において発生する不必要な時間と費用を画期的に改善することができる。
【0046】
また、使用者に合成機に存在する多様な韻律を有する候補合成単位を提示して用いるようにすることにより、単一の合成音だけを生成する合成方法に比べて音声DBを効率的に用いることができ、合成機で提供する韻律情報を通じて使用者の目的によって適切な合成単位を選択するようにすることができる。
【0047】
また、固定合成単位を用いたビタビ検索方法は、使用者の合成単位選択と同時に合成音を聴取することができるようにして、使用者の多様な合成単位の変更を自由にし、より円滑な合成音のチューニングを実行することができるようにする。
【0048】
上記本発明の好ましい具体例を説明したが、本発明の単純な変形あるいは変更はこの分野の通常の知識を有する者によって、容易に用いられることができ、このような変形や変更は全て本発明の範囲に含まれる。
【符号の説明】
【0049】
110,210: 文章入力部
120,220: 言語学的処理部
121,221: テキスト前処理モジュール
122,222: 文章分析モジュール
123,223: 発音表記変換モジュール
130,230: 韻律処理部
140,240,320: 音声信号処理部
141,241: 合成単位選択モジュール
142,242: 音声波形生成モジュール
150,250,330: 音声出力部
161,261: 数字/略語/記号辞典
162,262: 品詞辞典
163,263: 発音辞典
164,264: 音声データベース
243: 合成単位事前選択モジュール
244: ビタビ検索
270: 使用者の候補合成単位選択のインターフェース

【特許請求の範囲】
【請求項1】
入力文章を発音表記に変換するステップと、
上記変換された発音表記を用いて、抑揚および持続時間の韻律情報を生成するステップと、
音声データベースから最適の合成単位を選択し、該合成単位を連結して合成音を生成するステップと
を含んで構成される音声合成方法において、上記合成音を生成するステップは、
上記発音表記および上記韻律情報を用いて音声データベースから候補合成単位を検索し、上記各候補に対する目標コストを計算するステップ(S1)と、
上記候補合成単位の数がすでに決めている任意の数より多い場合、上記候補合成単位の数を上記すでに決めていた任意の数に制限する合成単位事前選択ステップ(S2)と、
各合成単位の境界地点における連結コストを計算するステップ(S3)と、
上記目標コストと上記連結コストとを合計して全体コストを計算し、累積された全体コストが最小になる経路を検索するビタビ検索過程を実行するステップ(S4)と、
音声波形を生成するステップ(S5)と、
合成機で提供された上記各候補合成単位をアイコンの形態で表示し、合成機の合成音を構成する合成候補の情報を図式化して表示する使用者の候補合成単位選択インターフェースのステップ(S6)と、
使用者が望む合成候補に交代するか修正することができるように、使用者によって選択された合成候補情報を入力されてビタビ検索を再実行し、音声波形の生成を再実行する使用者の合成候補選択ステップ(S7)と
を含んで構成される使用者の候補合成単位選択による音声合成方法。
【請求項2】
合成単位事前選択ステップ(S2)の結果である候補合成単位のIDとピッチおよび持続時間情報と、ビタビ検索(S4)の結果である合成単位の連結情報と、音声波形生成(S5)の結果である合成音とを使用者の候補合成単位インターフェース(S6)に伝達するステップをさらに含むことを特徴とする請求項1に記載の使用者の候補合成単位選択による音声合成方法。
【請求項3】
上記使用者の候補合成単位選択インターフェースのステップ(S6)は、上記各候補合成単位の発音情報を音節単位のテキストで表示し、ピッチ情報はグラフの形態のイメージで表示し、持続時間情報はマウスを上記各候補合成単位を表示したアイコンに持っていくと各候補合成単位の相対的持続時間の長さに該当する互いに異なる模様のイメージで表示することを特徴とする請求項2に記載の使用者の候補合成単位選択による音声合成方法。
【請求項4】
上記使用者の候補合成単位選択インターフェースのステップ(S6)は、候補合成単位が持っている音の高低を表すピッチと発声速度を決定する音素持続時間情報で候補合成単位を整列することができるようになっていることを特徴とする請求項3に記載の使用者の候補合成単位選択による音声合成方法。
【請求項5】
上記使用者の合成候補選択のステップ(S7)は、使用者が上記各候補合成単位を任意に選択したとき、選択された候補合成単位を含む合成音を予め聴取することができるように提供し、それを具現するために合成機のビタビ検索(S5)で単一の合成単位および複数の合成単位を固定させて、ビタビ検索を再実行することを特徴とする請求項1に記載の使用者の候補合成単位選択による音声合成方法。
【請求項6】
入力文章を発音表記に変換する言語学的処理部と、
上記言語学的処理部で変換された情報を用いて、抑揚および持続時間の韻律情報を生成する韻律処理部と、
上記言語学的処理部および韻律処理部から生成された情報に基づいて、音声データベースから最適の合成単位を選択し、上記合成単位を連結して合成音を生成する音声信号処理部と
を含む音声合成システムにおいて、上記音声信号処理部は、合成機で提供された上記各候補合成単位をアイコンの形態で表示し、合成機の合成音を構成する合成候補の情報を図式化して表示し、使用者が望む合成候補に交代するか修正することができるように、使用者によって選択された合成候補情報を入力受けてビタビ検索を再実行し、音声波形の生成を再実行することを特徴とする、使用者の候補合成単位選択による音声合成システム。
【請求項7】
上記音声合成システムは、上記各候補合成単位の発音情報を音節単位のテキストで表示し、ピッチ情報はグラフの形態のイメージで表示し、持続時間情報はマウスを上記各候補合成単位を表示したアイコンに持っていくと各候補合成単位の相対的持続時間の長さに該当する互いに異なる模様のイメージで表示することを特徴とする請求項6に記載の使用者の候補合成単位選択による音声合成システム。
【請求項8】
上記音声合成システムは、候補合成単位が持っている音の高低を示すピッチと発声速度を決定する音素持続時間情報で候補合成単位を整列することができるようになっていることを特徴とする請求項7に記載の使用者の候補合成単位選択による音声合成システム。
【請求項9】
上記音声合成システムは、使用者が上記各候補合成単位を任意に選択したとき、選択された候補合成単位を含む合成音を予め聴取することができるように提供し、これを具現するために合成機のビタビ検索で単一の合成単位および複数の合成単位を固定させ、ビタビ検索を再実行することを特徴とする請求項6に記載の使用者の候補合成単位選択による音声合成システム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5a】
image rotate

【図5b】
image rotate

【図5c】
image rotate

【図6】
image rotate

【図7a】
image rotate

【図7b】
image rotate


【公開番号】特開2012−103668(P2012−103668A)
【公開日】平成24年5月31日(2012.5.31)
【国際特許分類】
【出願番号】特願2011−68093(P2011−68093)
【出願日】平成23年3月25日(2011.3.25)
【出願人】(501354211)ボイスウェア カンパニー リミテッド (4)
【住所又は居所原語表記】10th Fl,SAMHWAN Digital Venture Tower,Sungsu−Dong 2−Ga,280−13,SungDong−Gu,Seoul,133−120,Korea
【出願人】(396015541)HOYAサービス株式会社 (3)