説明

国際特許分類[G10L13/06]の内容

物理学 (1,541,580) | 楽器;音響 (32,226) | 音声の分析または合成;音声認識;音響分析または処理 (17,022) | 音声の合成;テキストを音声に変換するシステム (2,199) | 音声合成器で使われる音声素片;結合規則 (315)

国際特許分類[G10L13/06]に分類される特許

51 - 60 / 315


【課題】 テキストデータを読み上げる音声合成を生成する際に、生成される音声の品質を向上させる。
【解決手段】 本発明は、テキストデータを読み上げる音声を出力する音声合成装置と、そのテキストデータをユーザに入力させるための入力補助装置に関する。そして、入力補助装置は、音声合成装置が音声合成に用いる第1のデータベースと、所定の対象語の音声データが登録された第2のデータベースのうち、第2のデータベースに登録された対象語と、対象語以外の範囲とを区別して表記されたテキストデータをユーザの操作に応じて生成する入力補助部を有することを特徴とする。そして、音声合成装置は、テキストデータにおいて、対象語として区別された範囲については、第2のデータベースに登録された音声データを用い、対象語として区別されていない範囲については、第1のデータベースのデータを用いて合成音声を生成する手段を有することを特徴とする。 (もっと読む)


【課題】利用者の意図を精緻に反映した合成音を生成する。
【解決手段】記憶装置12は、音声素片毎に素片データPを記憶する。表示制御部22は、複数の音素の各々について発音期間と音素記号63とを表示装置16に時系列に表示させ、利用者からの指示に応じて音素記号63を移動させる。音声合成部26は、発音期間にわたる各音素の合成音を各素片データPから生成する。音声合成部26は、素片データPAが示す音声素片の区間SAと素片データPBが示す音声素片の区間SBとを利用して一の音素の合成音を生成する場合に、区間SAと区間SBとの時間長の比率を当該音素の音素記号63の位置に応じた比率に設定する。 (もっと読む)


【課題】素人が読んでもリテイクの発生頻度を最小限にできる読み上げ用テキストセットを作成する。
【解決手段】
この発明の読上げ用テキストセット作成方法は、読上げ用テキストセット生成過程と、読み誤りパターン削除過程と、を含む。読上げ用テキストセット生成部が、収録したい複数の音素列を入力として個々の音素列を含む複数の読上げ用テキストセット候補を、大量日本語テキストデータベースから抽出する。読み誤りパターン削除部が、複数の読上げ用テキストセット候補を入力として、個々の読上げ用テキストセット候補に読み誤りパターンが含まれるか否かを読み誤りパターンデータベースを参照して判定し、読み誤りパターンを含む場合は同一の音素列を含む読上げ用テキストセット候補を大量日本語テキストデータベースから再検索し、読み誤りパターンを含まない場合は当該読上げ用テキストセット候補を読上げ用テキストセットとして出力する。 (もっと読む)


【課題】より適切な最適パスを選択することができる音声合成技術を提供する。
【解決手段】融合合成単位追加部5は、合成単位の探索時に、探索の候補である合成単位同士を融合して、音声データベース部2には格納されていない新たな合成単位である融合合成単位を生成して、探索パスに含める。合成単位を融合することにより、音素環境が一致し、基本周波数F0ギャップも少ない合成単位を生成し、音声合成に利用できる可能性が高くなる。 (もっと読む)


【課題】音声ライブラリの作成の労力を削減しながら多様な音声を合成する。
【解決手段】記憶装置12は、指定音の時系列を示す音楽情報DSと、音声素片を示す複数の素片データVを含む音声ライブラリLと、素片データVに関する付属情報Aとを記憶する。素片選択部32は、音声ライブラリLの素片データVを音楽情報DSに応じて順次に選択する。素片加工部34は、素片選択部32が選択した各素片データVを付属情報Aに応じて加工する。合成処理部36は、素片加工部34による加工後の素片データVAから音声を合成する。 (もっと読む)


【課題】1文の全ての音声合成処理が終わるまで待つことなく、合成音声の再生途中であっても、音声が途切れることなく合成音声を出力することができるようにする。
【解決手段】本発明の音声合成システムは、入力文の入力を行う入力手段と、入力文を、1又は複数の合成単位の分割文に分割する文分割手段と、文分割手段により分割された分割文毎に各音波形データを生成する1又は複数の音合成手段と、音合成手段からの各音波形データを組み合わせて合成音声を出力する音声再生手段と、音合成手段による音波形データ生成処理の応答性と、音声再生手段による合成音声の形成処理の応答性とに基づき、合成音声出力処理のスケジューリングを行う再生制御手段とを備え、音声再生手段が、再生制御手段による合成音声出力処理のスケジューリングに従って、上記合成音声を出力することを特徴とする。 (もっと読む)


【課題】 五線譜に変換した際に、演奏者が楽器で演奏可能な程度に簡略化された符号データを基本とした音声合成機能の実現にあたり、各話者の声質に依存しない音素符号を得ることが可能であるとともに、音声再生品質の明瞭性の改善が可能な音素符号変換装置、音素符号データベース、音声合成装置を提供する。
【解決手段】 符号コード群として構成される音節符号を読み込み、各音高ごとに発音開始時刻と発音終了時刻との時間差と符号コードの強さとの積で与えられるエネルギー値の総和であるエネルギー総和値を算出し、複数の音節符号間で、各音高ごとに全てのエネルギー総和値を乗算して統合エネルギー値を算出し、統合エネルギー値が高い上位の音高を抽出し、各音高に対応する強度、開始時刻、終了時刻を設定して音素符号を得る。音節符号としては、各音節を話者の人数分用意しておき、統合エネルギー値の算出の際、異なる話者同士の音節符号について、音高の補正を行いながら乗算を行なう。 (もっと読む)


【課題】音素に依存したピッチ変動を加味しつつ歌唱者毎のメロディの歌いまわしに表れる歌唱表現を的確にモデル化し、より自然に聴こえる歌唱音声の合成を可能にする技術を提供する。
【解決手段】歌唱音声の基本周波数の時間変化をメロディに依存したメロディ依存成分と音素に依存した音素依存成分とに分離し、成分毎にモデル化して歌唱合成用データベースに格納する。歌唱合成の実行段階では、歌唱合成用スコアの示す音符の配列と上記メロディ依存成分モデルとにしたがって、メロディの基本周波数の時間変化を表すピッチカーブを合成し、歌詞を構成する音素の区間毎にその音素に対応する音素依存成分モデルを利用して上記ピッチカーブを補正する。 (もっと読む)


【課題】所望の特定話者の声を有した合成音声を出力可能にし、かつ口調も選択可能にした音声合成装置を提供する。
【解決手段】基準話者の声質および口調の情報を有するHMMパラメータが格納された基準話者データベース14を備える。話者適応部21は、音声入力手段35から入力された特定話者の音声データを用いて話者適応を行い、基準話者データベース14のHMMパラメータを変換して特定話者データベース15に格納する。話者選択手段32は、基準話者データベース14と特定話者データベース15とから話者を選択する。口調のHMMパラメータは、基準話者データベース14に格納されている口調の情報から生成される。波形生成部12は、話者選択手段32により選択された話者のHMMパラメータと口調選択手段33により選択された口調のHMMパラメータとを用いて合成音声を出力する。 (もっと読む)


【課題】テキストの内容にかかわらず口調の選択を可能にした音声合成装置を提供する。
【解決手段】基準話者について異なる口調の情報を有するHMMパラメータが格納された複数個の基準話者データベース14a,14bを備える。波形生成部12は、口調選択手段33により選択された口調のHMMパラメータを格納した基準話者データベース14a,14bを選択し、選択した基準話者データベース14a,14bに格納されたHMMパラメータを用いて合成音声を出力する。 (もっと読む)


51 - 60 / 315