説明

国際特許分類[G10L13/06]の内容

物理学 (1,541,580) | 楽器;音響 (32,226) | 音声の分析または合成;音声認識;音響分析または処理 (17,022) | 音声の合成;テキストを音声に変換するシステム (2,199) | 音声合成器で使われる音声素片;結合規則 (315)

国際特許分類[G10L13/06]に分類される特許

41 - 50 / 315


【課題】品質劣化の原因となる音声素片の使用を効果的に禁止すること。
【解決手段】音声合成装置10は、音声素片系列を生成し、生成された音声素片系列を接続することによって音声を合成する。音声合成装置10はまた、合成された第1の音声素片系列の音声素片が、第1の音声素片系列と同一の合成単位を有する合成された第2の音声素片系列の音声素片と異なる場合には、第2の音声素片系列と音声素片が異なる第1の音声素片系列の音声素片の使用を禁止する。 (もっと読む)


【課題】画一的な操作により音声の曖昧さを制御することができる音声合成装置を提供する。
【解決手段】レゾナンス変換器22は、第1および第2のターゲットレゾナンス周波数を成分とするターゲットレゾナンスベクトルと、合成すべき音素における第1および第2のレゾナンス周波数を成分とするレゾナンスベクトルとを取得し、レゾナンスベクトルをターゲットレゾナンスベクトルに向けて明瞭度データに応じた量だけ変位させたベクトルの成分である第1および第2の合成用レゾナンス周波数を求める。調和成分生成器23は、第1および第2の合成用レゾナンス周波数においてレゾナンス曲線がピークとなる調和成分波形データを合成する。 (もっと読む)


【課題】基本周波数パラメータの計算精度が不充分な場合に、学習音声との間で生じる基本周波数分布のずれを低減する。
【解決手段】音声合成装置100は、一連の単位音声列に含まれる単位音声の種類を記述する音声合成用情報から合成音声波形を生成し、与えられた音声合成用情報に基づき、第1の特徴ベクトルの分布情報を用いて、第1の基本周波数時系列データを予測して生成する第1の基本周波数時系列データ生成部134と、与えられた音声合成用情報に基づき、基準となる第2の特徴ベクトルの分布情報を用いて、第2の基本周波数時系列データを予測して生成する第2の基本周波数時系列データ生成部135と、第2の基本周波数時系列データを用いて、第1の基本周波数時系列データを修正する基本周波数時系列データ修正部136とを備え、修正された第1の基本周波数時系列データに基づく合成音声波形を生成する。 (もっと読む)


【課題】 コーパスベースの音声合成に用いるデータベースの構築を容易にする。
【解決手段】本発明は、1又は複数の処理対象の音声データを利用して、コーパスベースの音声合成処理に用いるデータを作成するデータ作成システムに関する。そして、データ作成システムは、処理対象の音声データに対応する音韻の列のデータを保持する手段と、1又は複数の話者の音声データの特徴量と、その音声データに対応する音韻に係る境界位置の情報とをモデル化したモデルデータを1又は複数記憶している蓄積手段と、記処理対象の音声データと、保持した音韻の列のデータと、蓄積手段に蓄積されたいずれかのモデルデータを用いて、処理対象の音声データについて、各音韻に係る境界位置を示す境界位置情報を作成する手段と、処理対象の音声データと、作成した境界位置情報とを利用して、音声処理に用いるデータを作成する手段とを有することを特徴とする。 (もっと読む)


【課題】 合成音声の品質を向上させることが可能なデータ拡充を容易に実行できる音声合成装置を提供する。
【解決手段】 本発明は、波形選択型の音声合成装置に関する。そして、音素波形データ及び韻律情報を関連付けて複数記憶する第1音声データベースと、入力された目標韻律情報との相違度が低い音素波形データのセットを選択する第1波形選択手段と、音素波形データ及び韻律情報を関連付けて複数記憶する第2音声データベースと、第1波形選択手段が選択したセットの音素波形データを、第2音声データベース内の音声波形データと同様に扱い、音素波形データのセットを選択し直す第2波形選択手段とを有することを特徴とする。第2音声データベースを設けたので、当初の音素波形データのセットを選択させる元となる第1音声データベースを操作せず、第2音声データベースへデータを拡充でき、合成音声の品質を向上させるデータ拡充が容易になる。 (もっと読む)


【課題】音声と音声検索用の付加情報を高い精度で対応付け可能な、音声収録装置、音声収録方法およびプログラムを提供する。
【解決手段】収録すべき音声を表す収録文章Tを文単位で取得する収録文章取得部11と、収録文章を言語解析処理により呼気段落単位に分割する収録文章分割部12と、収録文章に対応する音声を呼気段落単位で収録する音声収録部13と、音声の収録結果から音声の始終端時点を検出する始終端検出部14と、収録文章に含まれる呼気段落間の無音区間長を算出する無音区間長算出部15と、音声の収録結果、始終端時点の検出結果、および無音区間の算出結果から、収録文章に対応する音声データと、音声の検索に用いる付加情報を生成するデータ生成部16と、収録文章に対応する音声データおよび付加情報を文単位で格納するデータ格納部17とを備える。 (もっと読む)


【課題】音声認識に伴う適応データの文脈依存性のモデリング。
【解決手段】一連の観測値を含む既知の話者から音声入力を受け取り、該一連の観測値から生じる一連の語の尤度を音響モデルを使用して判断し、該音響モデルは、1つの語またはその一部を1つの観測値に関連付ける確率分布を記述する複数のモデルパラメータを有しており、該音響モデルは、第1の学習データを使用して学習され、かつ第2の学習データを使用して前記話者に適応されており、所与の言語に生じる一連の観測値の尤度を言語モデルを使用して判断し、前記音響モデルおよび前記言語モデルによって判断された尤度を組み合わせて前記音声入力信号から識別された一連の語を出力し、該音響モデルは前記話者に対して文脈ベースであり、該文脈ベース情報は、複数の決定木を使用して前記音響モデルに含まれており、該決定木の構造は第2の学習データに基づいている。 (もっと読む)


【課題】五線譜に変換可能な音声合成機能を実現する上で、日本語音節単位で取得したデータをより少ない数で構成可能な音素単位に変換する際に、子音音素成分と母音音素成分を時間軸上で明瞭に分離可能とする音素符号変換装置を提供する。
【解決手段】音節波形データの各強度配列を時間軸方向に所定の倍率Qだけ拡大して周波数解析し、所定数P種類の周波数に対応したスペクトル強度を算出し、周波数、時刻を含むP個の符号コードを得て、P個の符号コードの周波数をQ倍、時刻を1/Q倍に補正した音節符号を得る。得た音節符号に対して、所定部分時間区間に含まれる各音高ごとに発音開始時刻と発音終了時刻との時間差と符号コードの強さとの積のエネルギー値の総和であるエネルギー総和値を算出し、複数の音節符号間で、後部に含まれる各音高ごとに全てのエネルギー総和値を乗算して統合エネルギー値を算出し、統合エネルギー値が高い上位の音高を抽出する。 (もっと読む)


【課題】効率的に合成音声の修正を行うことのできる合成音声修正装置を提供する。
【解決手段】任意のテキストの読みを示す表音文字列データに対応する合成音声を出力するとともに、当該テキストを画面表示する合成音声出力表示部と、画面表示した前記テキストにおいて、ユーザが指摘した修正位置を取得する修正位置取得部と、前記修正位置に基づいて、前記合成音声にかかる再合成区間を特定する再合成区間特定部と、特定した前記再合成区間のテキストの読みを示す表音文字列データに対応する合成音声の候補を再合成候補として生成する再合成候補生成部と、前記再合成候補を識別可能にしてユーザに提示する再合成候補提示部と、識別可能にしてユーザに提示した前記再合成候補の中からユーザが選択した再合成候補を少なくとも含む合成音声を出力する再合成音声出力部とを備える。 (もっと読む)


【課題】合成される音声の品質が低下することを防止しながら、当該合成される音声の基となる素片情報のデータ量を低減することが可能な素片情報生成装置を提供すること。
【解決手段】素片情報生成装置300は、時間間隔を表すフレーム周期を、音声の韻律に関する情報である韻律関連情報に基づいて決定するフレーム周期決定部301と、連続する2つの時間フレームの開始位置が上記決定されたフレーム周期だけ離れるように配置された複数の時間フレームのそれぞれに対して、音声を合成する音声合成処理の基となる基礎音声の一部である音声素片のうちの当該時間フレーム内の部分の特徴を表す特徴パラメータを抽出し、当該抽出された特徴パラメータの時系列データを含む素片情報を生成する素片情報生成部302と、を備える。 (もっと読む)


41 - 50 / 315