説明

国際特許分類[G10L11/04]の内容

国際特許分類[G10L11/04]に分類される特許

1 - 10 / 206


【課題】語学学習において、学習者の音声の抑揚を、お手本の音声の抑揚に近づけられるようにする。
【解決手段】語学学習装置は、表示した例文の一つが選択されると、例文を発話した時の模範音声を再生する。そして、模範音声のピッチの時間的変化を示す第1ピッチ曲線を生成し、第1ピッチ曲線の道程を算出する。語学学習装置は模範音声の再生が終了すると、例文の発話を学習者に促す。語学学習装置1は、学習者の音声が入力されると入力された音声を記憶する。語学学習装置1は、記憶した学習者の音声の時間的変化を示す第2ピッチ曲線を生成し、第2ピッチ曲線の道程を算出する。この後、語学学習装置は、第1ピッチ曲線の道程と、第2ピッチ曲線の道程とを比較し、その道程の差に応じて、模範音声のピッチと学習者音声のピッチとの相違点を学習者へ出力する。 (もっと読む)


【課題】本発明は、内蔵又は標準FEC処理を持たないスピーチコーダにおいてパケットロス又はフレーム消去の隠蔽(FEC)を実行する方法及び装置に関する。
【解決手段】復号器を備えた受信器が、符号器によって送信された、圧縮されたスピーチ情報の符号化されたフレームを受信する。受信器の遺失フレーム検出器が、符号化されたフレームが、送信中に失われた又は破損されたかどうか又は消去されたかどうかを判断する。符号化されたフレームが消去されていなければ、符号化されたフレームは復号器によって復号され、一時メモリが復号器の出力によって更新される。所定の遅延期間が追加された後、音声フレームが出力される。遺失フレーム検出器が、符号化されたフレームが消去されたと判断した場合、FECモジュールが、信号にフレーム隠蔽処理を施す。FEC処理は、消去されたフレームに対して、自然に聞こえる合成スピーチを生成する。 (もっと読む)


【課題】増幅特性をより良く調整する。
【解決手段】音響信号処理装置100は、周囲の騒音レベルを分析する騒音レベル分析部90と、出力する音の音量を可変でき、前記音量の変化量に基づいてユーザの聴力特性を測定する聴力測定部40と、前記騒音レベルと聴力測定部40により測定された聴力特性データとに応じて、入力信号の最小音圧レベルから最大音圧レベルまでの範囲における前記最小音圧レベルから所定の範囲の低音圧レベル領域と前記最大音圧レベルから所定の範囲の高音圧レベル領域とを除く中間音圧レベル領域で、前記低音圧レベル領域側から前記中間音圧レベル領域内の第1の音圧レベルまで順次大きくし、前記第1の音圧レベルから前記高音圧レベル領域側まで順次小さくする出力信号特性を生成し、前記出力信号特性に応じて信号処理を行う信号処理部60aとを備える。 (もっと読む)


【課題】本発明は、内蔵又は標準FEC処理を持たないスピーチコーダにおいてパケットロス又はフレーム消去の隠蔽を実行する方法及び装置に関する。
【解決手段】復号器を備えた受信器が、圧縮されたスピーチ情報の符号化されたフレームを受信する。受信器の遺失フレーム検出器が、符号化されたフレームが、送信中に失われた又は破損されたかどうか又は消去されたかどうかを判断する。符号化されたフレームが消去されていなければ、符号化されたフレームは復号器によって復号される。所定の遅延期間が追加された後、音声フレームが出力される。遺失フレーム検出器が、符号化されたフレームが消去されたと判断した場合、FECモジュールが、信号にフレーム隠蔽処理を施す。FEC処理は、消去されたフレームに対して、自然に聞こえる合成スピーチを生成する。 (もっと読む)


【課題】合唱中の歌唱者の基本周波数生成系のフィルタ特性を推定することができるようにする。
【解決手段】基本周波数抽出部2によって、歌唱者の歌声音響信号と、合唱する他者の歌声音響信号と、音高目標値時系列とを入力として、それぞれの基本周波数時系列F0(t)、V(t)、U(t)を抽出する。数値微分算出部3によって、当該歌唱者の基本周波数時系列F0(t)の1階微分時系列及び2階微分時系列を各々算出する。フィルタ特性パラメータ推定部4によって、他者の基本周波数時系列V(t)に対する当該歌唱者の基本周波数時系列F0(t)の引き込み現象をモデル化した2階の線形微分方程式を用いて、2階の線形微分方程式のパラメータを、基本周波数生成系のフィルタ特性のパラメータとして推定する。 (もっと読む)


【課題】 自動生成するハーモニー音声信号に対し、元の入力音声信号が有するピッチ揺れを任意に反映させることのできるようにした音信号生成装置の提供。
【解決手段】 入力された音声信号に基づいてリード音を発生する。一方、該入力された音声信号の具体的ピッチを逐次検出し、該具体的ピッチから音名に対応する正規化されたピッチを検出する。前記具体的ピッチと正規化されたピッチとの差に関連する差分情報を求める。前記差分情報を複数のピッチ調整情報に従って変更することで、複数の変更後の差分情報を生成する。前記正規化されたピッチに対して或る音程を持つピッチを、生成すべき音信号の目標ピッチとして決定する。前記目標ピッチを前記変更後の差分情報に応じてそれぞれ変調したピッチを持つ複数のハーモニー音を発生する。 (もっと読む)


【課題】背景音と音声が混合している場合でも、安定して適応的な話速変換倍率を決定する。
【解決手段】話速変換倍率決定装置1aは、入力信号の有音区間と無音区間とを判別する有音無音判定部102と、有音区間にて入力信号の基本周波数を算出するとともに安定区間と不安定区間とを決定する基本周波数算出部104と、安定区間にて基本周波数の時間変化を平滑化する周波数平滑化部106と、不安定区間及び無音区間にて基本周波数を内挿した擬似基本周波数を算出する擬似基本周波数算出部108と、平滑化された基本周波数及び擬似基本周波数を接続して基本周波数の概形の標本値を得る基本周波数概形連結部110とを有し、基本周波数の概形の標本値を物理指標として出力する物理指標算出部2と、この物理指標に基づいて話速変換倍率を算出する話速変換倍率指定部120とを備える。 (もっと読む)


【課題】 音声合成の際に,アクセント修正または韻律修正を高精度に行える技術を提供することを目的とする。
【解決手段】 音声合成装置1は,テキスト情報5のモーラ数に対応するリズム情報を生成するタイミング制御部11,リズム情報をスピーカ,画面に出力するリズム情報出力部12,リズム情報に同期した第1入力音声を取得する音声入力部13,第1入力音声から音声のピッチ周波数情報を抽出するピッチ抽出部14,リズム情報とピッチ周波数情報から,第1入力音声のモーラ境界を修正したモーラ境界情報を生成するモーラ境界修正部15,および,テキスト情報5と第1入力音声のモーラ境界情報とピッチ周波数情報から,アクセント情報6を抽出するアクセント抽出部16を備える。 (もっと読む)


【課題】目標成分が途切れる場合でも基本周波数を正確に特定する。
【解決手段】周波数検出部62は、音響信号xの単位区間Tu毎に候補周波数Fc(1)〜Fc(N)を特定する。第1処理部71は、単位区間Tu毎に選択した候補周波数Fc(n)を複数の単位区間Tuにわたり配列した系列であって目標成分の基本周波数Ftarの時系列の可能性が高い推定系列RAを探索する。第2処理部72は、単位区間Tu毎の目標成分の発音状態Svおよび非発音状態Suの何れかの状態を複数の単位区間Tuにわたり配列した状態系列RBを探索する。情報生成部68は、状態系列RBの発音状態Svに対応する単位区間Tuについて推定系列RAのうち当該単位区間Tuでの候補周波数Fc(n)を目標成分の基本周波数Ftarとして指定し、状態系列RBの非発音状態Suに対応する単位区間Tuについて非発音を示す周波数情報DFを単位区間Tu毎に生成する。 (もっと読む)


【課題】ハウリングを防止しつつ、適切なマスカ音を生成する音声処理装置を提供する。
【解決手段】音声解析部13は、入力された音声信号からフォルマントやピッチ等の音声特徴量を抽出する。マスカ音生成部14は、抽出した音声特徴量に基づいて、データベース15に記憶されている音源(汎用マスカ音)を加工し、出力用マスカ音を生成する。汎用マスカ音は、例えば、男性および女性を含む複数人の音声を録音したものであり、語彙的には何ら意味をなさない(会話内容が理解できない)撹乱音が含まれている。マスカ音生成部14は、撹乱音のフォルマントを入力音声信号のフォルマントに一致させる。生成されたマスカ音は、語彙的には何ら意味をなさないものであり、かつ声質や音高は話者と近似している撹乱音が含まれているため、聴取者は、実際の話者の発言内容を理解することが困難となる。 (もっと読む)


1 - 10 / 206