説明

国際特許分類[G10L13/06]の内容

物理学 (1,541,580) | 楽器;音響 (32,226) | 音声の分析または合成;音声認識;音響分析または処理 (17,022) | 音声の合成;テキストを音声に変換するシステム (2,199) | 音声合成器で使われる音声素片;結合規則 (315)

国際特許分類[G10L13/06]に分類される特許

31 - 40 / 315


【課題】高速に音声波形を生成する。
【解決手段】第1記憶部は、n個の帯域通過フィルタを雑音信号に適用したn個の帯域雑音信号を記憶する。第2記憶部は、n個の帯域通過フィルタをパルス信号に適用したn個の帯域パルス信号を記憶する。パラメータ入力部は、基本周波数、n個の帯域雑音強度およびスペクトルパラメータを入力する。切出部は、ピッチマークごとにn個の帯域雑音信号をシフトしながら切り出す。振幅制御部は、切り出した帯域雑音信号の振幅と帯域パルス信号の振幅とを帯域雑音強度に応じて変更する。生成部は、n個の帯域雑音信号とn個の帯域パルス信号とを加算した混合音源信号を生成する。重畳部は、ピッチマークに基づいて生成された混合音源信号を重畳する。声道フィルタ部は、重畳された混合音源信号にスペクトルパラメータを用いた声道フィルタを適用して音声波形を生成する。 (もっと読む)


【課題】定型部分と可変部分からなる文章の音声データを、録音音声と規則合成音声を組み合わせて生成する音声合成装置において、録音音声と合成音声を接続する際に音質および韻律の不連続が知覚されない、高品質な音声合成装置を提供する。
【解決手段】録音された、定型部分を含む録音音声データを予め格納する録音音声格納部5と、受け付けたテキストから、可変部分と少なくとも前記定型部分の一部を含む規則合成音声データを生成する規則合成部7と、前記テキストに対応する、前記録音音声データおよび前記規則合成音声データの音響特徴情報に基いて、前記録音音声データと前記規則合成音声データとが重複する区間における接続境界位置を算出する接続境界算出部8と、前記接続境界位置で区切って切り出した前記録音音声データと前記規則合成音声データとを接続して、前記テキストに対応する合成音声データを生成する接続合成部9とを備える。 (もっと読む)


【課題】簡単な操作で、リアルタイムに音声を生成する。
【解決手段】表示部12には、第1ホルマント周波数と第2ホルマント周波数の2次元平面上における分布が音声生成GUIとして表示されており、そのGUI上には、母音a,i,u,e,oを発したときの第1ホルマント周波数と第2ホルマント周波数が、「a」、「i」、「u、「e」、「o」としてそれぞれ示されている。ユーザは、発話内容を、マウス11Aを用いて音声生成GUI上で操作する。音声生成装置1は、マウス11Aの動作に追随するポインタPが描いた軌跡から、第1ホルマント周波数と第2ホルマント周波数の2次元平面上におけるXY座標位置を検出し、検出したX座標値で規定されている第1ホルマント周波数の音声と、Y座標値で規定されている第2ホルマント周波数の音声とを合成し、合成した疑似的な音声をスピーカ13から発声させる。 (もっと読む)


【課題】音素数が相違する複数の音声素片から適切な音声素片を選択する。
【解決手段】記憶装置12は、音素数が相違する2以上の音声素片を含む複数の音声素片の各々について素片データDVを記憶する。素片選択部26は、指定音毎に音声素片を選択する。具体的には、素片選択部26は、音素数が相違する2以上の音声素片が1個の指定音に対する選択の候補として存在する場合に音素数が多い音声素片を選択する。音声合成部28は、素片選択部26が選択した音声素片の素片データDVを利用して音声信号SOUTを生成する。 (もっと読む)


【課題】特徴量から高速かつ高精度に時系列信号を合成する。
【解決手段】時系列信号の周期成分の周波数スペクトルに対応する周期特徴量と任意に選択された基本周波数とを用い、それぞれの周波数が基本周波数の整数倍である複数の正弦波の重畳によって、基本周波数と周期特徴量とに対応する時間領域の第1信号を生成し、時系列信号の非周期成分の周波数スペクトルに対応する非周期特徴量を用い、複数の正弦波の重畳によって、非周期特徴量に対応する時間領域の第2信号を生成し、第1信号と第2信号との和を合成信号とする。 (もっと読む)


【課題】朗読口調以外の口調で発声した場合にも、音韻列及び韻律特徴のカバレッジを最大化する発声用テキストセットを生成することができる発声用テキストセット作成技術を提供する。
【解決手段】朗読口調の自然音声データから求めたパラメータの分布を、目的とするX口調の自然音声データから求めたパラメータの分布に変換するパラメータ分布変換関数を予め記憶しておき、発声用テキストセット候補を用いて音声合成プログラムにより音声合成処理を行い、音声合成データから所定のパラメータを求め、パラメータ分布変換関数を用いて、求めたパラメータの分布を変換し、変換後のパラメータ分布を用いて発声用テキストセット候補を評価する。 (もっと読む)


【課題】音声データを自動的に音声素片ごとに精度よく区分する。
【解決手段】音声データが表す音声を構成する各音声素片の境界時間の推定値である素片境界によって区分された各区分時間区間をそれぞれ1以上の状態境界で区分した複数の状態時間区間を求め、隣接する2つの区分時間区間からなる処理時間区間ごとに、当該処理時間区間に含まれる隣接した状態時間区間からなる組の集合の中から、当該組をなす隣接した状態時間区間それぞれの音声データの代表値の距離が最大となる組を選択し、選択した当該組をなす隣接した状態時間区間の状態境界又は素片境界を、当該処理時間区間での修正された素片境界とする。 (もっと読む)


【課題】音声波形データベースから全ての音声モデルを生成できなかった場合にも、代替音声モデルを生成することにより完全な音声素片データベースを生成することができる。
【解決手段】音声波形データを入力としダイフォン区間とダイフォンラベルを出力する音素−ダイフォン区間変換部1200と、音声波形データを入力とし音声パラメータ系列を出力する音声パラメータ系列変換部1300と、音声パラメータ系列を入力とし音声モデルを出力する音声モデル生成部1400と、ダイフォンラベルと定義済ダイフォンラベルリスト1500とを入力とし欠落ダイフォンラベルを出力する欠落ダイフォンラベル出力部1600と、音声モデルとダイフォンラベルとを入力としハーフフォンを出力するハーフフォン生成部1800と、ハーフフォンと欠落ダイフォンラベルとを入力とし、代替音声モデルを出力する代替音声モデル生成部1900とを備える。 (もっと読む)


【課題】音声波形の尤度を最大化するように、複数の音響モデルパラメータが複数の励振モデルパラメータと一緒に推定される音声合成方法を提供する。
【解決手段】テキスト入力を受けており、前記テキスト入力に対応する音声を確率論的モデルを使用して出力し、前記確率論的モデルは音響モデル及び励振モデルを具備し、前記音響モデルは単語または単語の部分を特徴に関連づける複数の確率分布を記述する複数のモデルパラメータを有し、前記励振モデルは、前記特徴を使用して前記音声を出力するために、声帯及び肺をモデル化するために使用される励振モデルパラメータを具備し、ここで音響パラメータ及び励振パラメータは一緒に推定され、前記音声を出力することを具備する。 (もっと読む)


【課題】利用効率の良い音片を作成することができる音声編集方法、装置及びその音片を用いた音声合成方法を提供する。
【解決手段】入力されたテキストから、音韻情報と韻律情報とを含む音声情報を生成し、少なくとも、音韻情報と韻律情報のいずれかに基づいて、音声情報を、音声情報の素片である複数の音片情報に分割し、複数の音片情報の中で、音片情報の内容のいずれかが一致又は類似する少なくとも2つの音片情報を探索し、一致又は類似する音片情報を代表する代表音片情報に対応する音片波形を記憶部に記憶する。 (もっと読む)


31 - 40 / 315