説明

国際特許分類[G10L11/04]の内容

国際特許分類[G10L11/04]に分類される特許

51 - 60 / 206


【課題】パラレルコーパスを必要とせず、基本周波数が変化する範囲、パワーが変化する範囲、持続時間あるいは音楽表現に伴って声質が変化する範囲が非常に広い歌唱音声に適用可能な声質変換音声生成装置を提供する。
【解決手段】音韻種類毎に音域を示す声質属性情報が付加された目標音声の声質パラメータを記憶している声質属性情報付声質パラメータ記憶部110と、各々が入力音声の時間軸上の範囲に対応付けられた音韻種類および音域を含む入力音声の声質属性情報と、入力音声の声質を示す声質パラメータとを取得し、入力音声の時間軸上の範囲毎に、当該範囲に含まれる入力音声の声質属性情報と一致する声質属性情報が付加された目標音声の声質パラメータを取得し、目標音声の声質パラメータと、入力音声の声質パラメータとを用いて、声質パラメータを合成する元歌データ入力部100およびパラメータ変換部120とを備える。 (もっと読む)


【課題】 入力歌声の音響信号から「人間らしい歌声」を合成するための歌声合成パラメータデータを自動推定する歌声合成パラメータデータ推定システムを提供する。
【解決手段】 音高パラメータ推定部9が、入力歌声の音響信号の少なくとも音高の特徴量と音節境界が指定された歌詞データとに基づいて、入力歌声の音響信号の音高の特徴量に合成された歌声の音響信号の音高の特徴量を近づけることができる音高パラメータを推定する。音量パラメータ推定部11が、入力歌声の音響信号の音量の特徴量を合成された歌声の音響信号の音量の特徴量に対して相対値化し、入力歌声の音響信号の相対値化した音量についての特徴量に合成された歌声の音響信号の音量の特徴量を近づけることができる音量パラメータを推定する。 (もっと読む)


【課題】 元の音声波形を分析して抽出されるパラメータを用いて常に適切な音声波形を合成できるようにする技術を提供する。
【解決手段】 分析フェーズでは、A/D変換器8から出力された音声データをフレーム単位で分析する。パラメータとしては、PARCOR係数、その音声データが表す音声が有声音である度合いを示す有声音比率、などを抽出する。合成フェーズでは、指定されたピッチで生成したRosenberg 波、ピッチを持たないホワイトノイズ波を有声音比率に応じて混合する形で駆動音源波形を生成する。合成フィルタ部45は、その駆動音源波形、及びPARCOR係数を用いて1フレーム分の音声データを合成する。 (もっと読む)


【課題】遠隔監視などで音声情報をモニターする場合に、モニターに必要な環境音は残しつつ、発言者の音声プライバシーのために、音声情報に含まれるスピーチの明瞭性を低減させること。
【解決手段】本発明の音声信号合成方法は、受信部にて音声信号を受信し、母音領域識別部が音声信号中の母音領域を識別し、声道関数解析部が母音領域を構成する声道伝達関数および励振を解析し、音声合成部が、音声信号の母音領域の少なくとも一部の声道伝達関数の情報を、置換用音声の声道伝達関数の情報を用いて変更し、元の母音とは異なる音で再生されるように、変更された声道伝達関数を用いて音声を合成することによって、変更音声信号を合成する。これにより、スピーチは不明瞭化される一方で、コンテキスト情報を失わずにモニターをすることが可能となる。 (もっと読む)


【課題】周期的な雑音下においても音声区間を正しく検出できる音声区間検出装置および音声区間検出方法を提供する。
【解決手段】音を音入力回路2によって音の信号に変換し、連続した音の信号をフレーム分割回路3によって所定時間間隔のフレームに分割する。分割された各フレームごとに、パワー情報抽出回路4が音の信号に含まれるパワー情報を抽出し、調波情報抽出回路5が音の信号に含まれる調波情報を抽出する。音声区間決定回路6は、抽出されたパワー情報と、調波情報とに基づいて、音声区間を決定し、音声認識回路7が音声区間の音声を認識する。 (もっと読む)


【課題】声調の大きな変化を伴う言語における高精度な音声認識及び自然な合成音声出力のための方法、手段及びプログラムを提供する。
【解決手段】音声素片の始点及び終点のF0を線形近似又は大局的にスムージングする方法を用い、F0傾きを観測して統計モデルを学習し、ランタイムにおいてもF0傾きを評価し、コスト計算に基づいてF0を修正した合成音声を出力する。音節内のF0傾きの時間変化は、音節内を適宜等分して各領域ごとに決定木を学習してモデル化する。観測したF0傾きに誤差範囲を想定して尤度を評価する。これらを連携させることにより、高精度な音声認識及び自然な声調の合成音声出力が可能になる。 (もっと読む)


【課題】 無声音声と口唇画像とから有音音声を合成する際に、発話者が意図する抑揚を合成音声に反映させる。
【解決手段】 本発明は、発話者の無声音声と撮像口唇画像とが同期して入力され、有音音声を合成する音声合成装置に関する。映像信号分析手段は、入力口唇画像から有声音の母音情報を抽出し、母音発声時の口唇の開閉大きさと、予め設定した基準大きさとの比率をピッチ比率として抽出する。音声信号分析手段は、入力無声音声と、映像信号分析手段が抽出した母音に対応する無声母音の音響モデルとから、子音情報を抽出し、音素列と単語を対応付けた内蔵する辞書と、どの単語の並びであるかを計算する言語モデルとから、テキスト情報を抽出し、入力無声音声のパワー変化から発声全体の継続時間長を抽出する。音声合成手段は、上述の両分析手段によって抽出された各種情報から、抑揚を付与した有音音声を合成する。 (もっと読む)


【課題】入力音声信号に基づく高調波成分を入力音声信号に付加する場合でも、歪みの少ない音を得ること。
【解決手段】本装置は、入力音声信号からスピーカの再生周波数帯域以下の周波数帯域である基本波帯域成分を抽出する基本波抽出回路4と、基本波帯域成分の高調波を発生する高調波発生回路5と、基本波帯域成分のレベルを低域レベルとして検出する低域レベル検出回路12と、入力音声信号から前記基本波帯域成分より上の高調波帯域成分を抽出する高域成分抽出回路10と、高調波帯域成分のレベルを高域レベルとして検出する高域レベル検出回路11と、高域レベルに対する低域レベルの比率と高調波が歪みとなるか否かの閾値とに基づいて高調波が歪みとならないように高調波発生回路5における高調波の発生量を制御する制御量演算回路13とを有する。 (もっと読む)


【課題】入力音声の各部分ごとの局所的な発話速度を、所望の速度に変換した音声を出力することができるようにし、入力音声の発話速度の局所的なばらつきを少なくし、聞き取りやすい音声を出力することができる、音声分析合成装置を提供する。
【解決手段】音声分析部100おいて、音声信号から、音声スペクトルや音源のパラメータ等を抽出し、また音声変換部200により、調音パラメータの速度情報に基づき、音声スペクトルや音源のパラメータ等に所定の変換を施し、ボコーダ型の音声合成部300により音声信号を生成する。 (もっと読む)


【課題】楽曲に含まれる音声成分を適切に特定できるようにする。
【解決手段】基本音声成分のスペクトル分布において隣接する周波数の成分をつなぐ包絡線に沿って存在する成分を分布させたモデルVm[k]を、その包絡線の経路が異なるものそれぞれについて、対象楽曲におけるスペクトル分布Vr[k]と対比し(類似算出手段160)、その非類似度が低くなっているモデルVm[k]で規定される成分を対象楽曲に含まれる音声成分と推定している(成分推定手段180)。具体的にいえば、非類似度Eの改善量ΔEが所定のしきい値未満となったとき,つまり非類似度Eとしての相対値が充分に高くなったと推定されるときのモデルVm[k]で規定される成分を対象楽曲に含まれる音声成分として推定している。 (もっと読む)


51 - 60 / 206