説明

国際特許分類[G10L13/06]の内容

物理学 (1,541,580) | 楽器;音響 (32,226) | 音声の分析または合成;音声認識;音響分析または処理 (17,022) | 音声の合成;テキストを音声に変換するシステム (2,199) | 音声合成器で使われる音声素片;結合規則 (315)

国際特許分類[G10L13/06]に分類される特許

61 - 70 / 315


【課題】従来、音声翻訳において使用する音声認識辞書、翻訳辞書、および音声合成辞書において不整合があった。
【解決手段】2以上の言語について、音声認識、翻訳、音声合成に利用する全言語用語情報を2以上格納し得る全言語対辞書格納部と、全言語について、用語の音声認識情報を含む音声認識用情報を取得し、1以上の音声認識サーバ装置に送信する音声認識用情報送信部と、全言語について、用語の表記を含む翻訳用情報を取得し、1以上の翻訳サーバ装置に送信する翻訳用情報送信部と、全言語について、用語の音声合成情報を含む音声合成用情報を取得し、1以上の音声合成サーバ装置に送信する音声合成用情報送信部とを具備する辞書サーバ装置により、辞書間の不整合を解消できる。 (もっと読む)


【課題】目的話者の声質に違和感を与えない他話者の音声素片を利用し、高品質な合成音声を効率よく作成する音声合成装置を提供する。
【解決手段】音声合成装置が、複数の音声素片のそれぞれの特徴量に基づき、それら複数の音声素片の間の音素特徴量適合度を算出する音素特徴量適合度推定部と、前記表記データ記憶部から取得する表記データに基づいて、前記目的とする合成音声を構成する音声素片の候補を前記音声データベース記憶部の中から選択するとともに、選択された前記音声素片の候補のうち、他話者の音声素片と比較対象となる音声素片との間の音素特徴量適合度を前記音素特徴量適合度推定部に算出させ、当該音素特徴量適合度に基づいて当該音声素片の候補を採用するか否かを決定し、その結果採用された前記音声素片によって構成された前記合成音声を出力する音声素片選択部を具備する。 (もっと読む)


【課題】メロディの歌いまわしに表れる歌唱者固有の歌唱表現を的確にモデル化することを可能にする技術を提供する。
【解決手段】歌唱曲の歌唱音声を表す波形データを解析し、その歌唱音声にてメロディを表していると推測される基本周波数の時間変動を表すメロディ成分データを生成する。次いで、上記歌唱曲の楽譜を表すスコアデータとメロディ成分データとを用いた機械学習により、上記歌唱音声における音符間の基本周波数の時間変動のうちメロディを表していると推測される変動成分を表現するメロディ成分モデルを音符の組み合わせ毎に生成し、そのメロディ成分モデルを規定するパラメータとそのメロディ成分モデルにより基本周波数の時間変動が表される音符の組み合わせを示す音符識別子とを対応付けてピッチカーブ生成用データベースに格納する。 (もっと読む)


【課題】 五線譜に自動変換した際に、演奏者が楽器で演奏可能な程度に簡略化された符号データ(MIDIデータ等)を基本として音声合成機能を実現する場合において、作業負荷を軽減するとともに、音声再生品質の明瞭性を改善することが可能な音素符号変換装置、音素符号データベース、および音声合成装置を提供する。
【解決手段】 符号コード群として構成される音節符号を読み込み、各音高ごとに発音開始時刻と発音終了時刻との時間差と符号コードの強さとの積で与えられるエネルギー値の総和であるエネルギー総和値を算出し、複数の音節符号間で、各音高ごとに全てのエネルギー総和値を乗算して統合エネルギー値を算出し、統合エネルギー値が高い上位の音高を抽出し、各音高に対応する強度、開始時刻、終了時刻を設定して音素符号を得る。 (もっと読む)


【課題】少ない処理量、少ない記憶容量で、高い品質の音声を生成することができる音声合成装置及び音声合成方法を得る。
【解決手段】音声素片辞書1には、音声素片の音声波形と、この音声素片の先行区間の音声波形とを含めて圧縮した圧縮音声波形が格納されている。音声波形伸張部3において、圧縮音声波形分離部が圧縮音声波形を圧縮音源信号と圧縮スペクトルとに分離し、音源信号伸張部が圧縮音源信号のうち第1の先行区間と音声素片区間とを伸張して音源信号を得ると共に、スペクトル伸張部が圧縮スペクトルのうち第2の先行区間と音声素片区間とを伸張してスペクトルを得て、合成部が音源信号とスペクトルとを第3の先行区間と音声素片区間に渡って合成して音声波形を得る。この音声波形から音声波形抽出部4が音声素片の音声波形を抽出して、音声生成部5が合成音声を生成する。 (もっと読む)


【課題】 演奏者が楽器で演奏可能な程度に、五線譜に自動変換できる簡略化した符号データを基本として音声合成機能を実現する場合において、作業負荷を軽減するとともに、音声再生品質の明瞭性を改善することが可能な音素符号補正装置、音素符号データベース、および音声合成装置を提供する。
【解決手段】 音素符号を構成する符号コード群の各符号コードについて、発音開始時刻と発音終了時刻との時間差と符号コードの強さとの積で与えられるエネルギー値が高い上位のものを抽出し、抽出された符号コードより強さのパラメータを削除した補正符号コード群で構成される音素符号に変換し、変換後の音素符号を構成する補正符号コードの発音開始時刻および発音終了時刻の各々に対して、所定の時間単位の整数倍になるように補正する。この結果、和音の発音時間が時間単位の整数倍の音素符号が得られる。 (もっと読む)


複数の言語で使用されるテキスト音声合成方法において、前記方法は、選択された言語のテキストを入力することと、入力された前記テキストを音響単位のシーケンスに分割することと、音響単位を音声ベクトルに関連付ける確率分布を表す複数のモデル・パラメータを有する音響モデルを使用して、前記音響単位のシーケンスを音声ベクトルのシーケンスに変換することと、前記音声ベクトルのシーケンスを、前記選択された言語の音声として出力することを含み、前記選択された言語における各々の確率分布の所定のタイプのパラメータは、同一のタイプの言語非依存パラメータの加重和として表現され、使用される加重値は、言語依存であり、前記音響単位のシーケンスを音声ベクトルのシーケンスへ変換することは、前記選択された言語のための前記言語依存加重値を検索することを含むテキスト音声合成方法。 (もっと読む)


【課題】入力された文字列または音声もしくは画像認識された文字列に対して、聞き取りやすい合成音声を作成する音声合成装置を提供する。
【解決手段】音声認識単位文字列解析部8では、音声認識単位文字列101をアクセント辞書11の見出しに一致するように連結して形態素単位文字列102とし、見出しに対応するアクセント型を設定する。未知語アクセント設定部9では、見出しに一致しない形態素単位文字列について、アクセント辞書11の各見出しとの一致度を算出して、最も一致度の大きい見出しに対応するアクセント型を設定する。音声合成部10では、形態素単位文字列・アクセント型105を用いて合成音声を作成する。 (もっと読む)


【課題】滑らかに変化する自然なスペクトルを生成することのできる音声モデルを生成する音声モデル生成装置を提供する。
【解決手段】学習モデル生成装置100は、音声信号の各フレームから当該フレームのスペクトル形状を表す特徴パラメータを算出する第1算出部120と、音声信号を複数フレームを有し、言語レベルを単位とする区間である言語区間に分割する分割部130と、言語区間に含まれる複数フレームそれぞれの特徴パラメータに基づいて、言語区間のスペクトルパラメータを算出するパラメータ化部140と、複数の言語区間それぞれに対して算出された複数のスペクトルパラメータを、言語情報に基づいて複数のクラスターにクラスタリングするクラスタリング部150と、同一のクラスターに属する複数のスペクトルパラメータから複数のスペクトルパラメータの特徴を示すスペクトルモデルを学習するモデル学習部160とを備える。 (もっと読む)


【課題】音声波形に内在する音源および声道フィルタの特徴を壊すことなく音声素片を融合することができる音声処理装置、方法、及びプログラムを提供する。
【解決手段】音韻・韻律入力受付部41が、目標音声に対応する音韻系列を合成単位で分割した複数のセグメントと、複数のセグメントの各々に対応する韻律情報の入力を受け付け、取得部43が、複数のセグメントの各々に対して、セグメント及び韻律情報に関連付けられた複数の音声素片を取得し、声道フィルタ成分融合部45が、取得された複数の音声素片の声道フィルタ成分をセグメント毎に融合し、音源成分融合部46が、取得された複数の音声素片の周期成分の音源成分を、基本周波数又は音源成分波形の形状に基づいて伸縮してセグメント毎に融合し、素片融合部44が、声道フィルタを用いて融合音源成分をフィルタリングすることにより、取得された複数の音声素片をセグメント毎に融合する。 (もっと読む)


61 - 70 / 315