説明

音声効果付与装置及び音声効果付与プログラム

【課題】 簡便な方法で入力音声に抑揚の変化を与える。
【解決手段】 ピッチ検出部2は、入力部1から入力された音声を分析して、そのピッチを検出する。出力ピッチ計算部3は、入力音声のピッチの短時間平均値と、現在のピッチと前記ピッチの短時間平均値の差に係数Aを乗算した値を加算して、新しい出力ピッチを計算する。ピッチ変換器5は、入力音声を前記出力ピッチ計算部3で計算された新しい出力ピッチに変換して出力する。ピッチでなく、音量なども同様に変化させることができる。パラメータ指定部4から前記短時間平均計算の対象となる時間と前記係数Aを指定することにより、抑揚変化の具合を任意に変更することができる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は入力音声に抑揚の変化を与える音声効果付与装置及び音声効果付与プログラムに関する。
【背景技術】
【0002】
音声を発声させるときに、そのピッチや音量を制御することで抑揚を制御することは知られている。
例えば、発音させるピッチを上昇させるときのピッチ変化速度を、ピッチを下降させるときのピッチ変化速度より遅い速度とすることで、より自然な歌唱音を合成することが提案されている(特許文献1)。
【特許文献1】特開平11−15489号公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
上記特許文献1においては、ピッチ変化速度の制御は、変化するピッチ間の補間レートの設定により行うようになされており、簡便な方法ではなかった。
そこで本発明は、より簡便な方法で、入力音声に抑揚の変化を与えることができる音声効果付与装置及び音声効果付与プログラムを提供することを目的としている。
【課題を解決するための手段】
【0004】
上記目的を達成するために、本発明の音声効果付与装置は、入力信号を分析して特徴パラメータを抽出する手段と、該抽出した特徴パラメータの短時間平均値と、その特徴パラメータの現在値と前記短時間平均値との差に係数を乗算した値とを加算して、前記特徴パラメータの新しい値を計算する特徴パラメータ計算手段と、前記入力信号に前記特徴パラメータ計算手段から出力される特徴パラメータの新しい値を適用する入力信号変換手段とを有するものである。
また、前記特徴パラメータは、入力音声のピッチ又は音量とされているものである。
さらに、前記係数又は前記短時間平均計算の対象となる時間をランダムに変化させることができるようになされているものである。
さらにまた、本発明の音声効果付与プログラムは、コンピュータに、入力信号を分析して特徴パラメータを抽出するステップと、該抽出した特徴パラメータの短時間平均値と、その特徴パラメータの現在値と前記短時間平均値との差に係数を乗算した値とを加算して、前記特徴パラメータの新しい値を計算するステップと、前記入力信号に前記特徴パラメータの新しい値を適用するステップとを実行させるものである。
【発明の効果】
【0005】
本発明の音声効果付与装置及び音声効果付与プログラムによれば、入力音声の所定時間区間のピッチや音量などの特徴パラメータに基づいて、新たな特徴パラメータを決定するようにしているため、簡便に抑揚を制御することができる。
また、前記係数や所定時間をランダムに変化させることで、より多彩な抑揚変化を得ることができる。
【発明を実施するための最良の形態】
【0006】
図1は、本発明の音声効果付与装置の一実施の形態の構成を示す機能ブロック図である。なお、ここでは、ピッチを変化させるものとして説明するが、音量を変化させる場合についても同様に構成することができる。
図1において、1は音声信号を入力する入力部、2は入力音声を所定時間区間のフレーム単位で分析してそのピッチを検出するピッチ検出部、3は該ピッチ検出部2で検出されたピッチの遷移に基づいて出力ピッチを計算する出力ピッチ計算部、4は前記出力ピッチ計算部3における演算に用いるパラメータを指定するパラメータ指定部、5は前記入力信号を前記出力ピッチ計算部3により計算された出力ピッチに変換するピッチ変換部、6はピッチ変換された音声信号を出力する出力部である。
【0007】
このように構成された音声効果付与装置において、入力部1から入力された音声信号は、ピッチ検出部2において各フレームごとに周波数分析されて、そのピーク周波数の並びからピッチが計算される。なお、ピッチ検出の方法は、これに限られることなく、任意の方法を用いることができる。
前記ピッチ検出部2で検出されたピッチは出力ピッチ計算部3に入力され、該出力ピッチ計算部3では、パラメータ指定部4から供給されるパラメータに基づいて出力音声信号のピッチが計算される。
該出力ピッチ計算部3の出力はピッチ変換部5に供給され、入力音声のピッチは、ここで、前記出力ピッチ計算部3により計算された出力ピッチに変換される。このピッチ変換部5におけるピッチ変換の方法は、どのような方法でもよく、例えば、PSOLA(Pitch Synchronous Overlap Add)法などを用いることができる。
ピッチ変換部5でピッチ変換された音声信号は、出力部6から出力される。
【0008】
次に、前記出力ピッチ計算部3において実行される出力ピッチ計算処理について、図2のフローチャートを参照して説明する。
まず、前記ピッチ検出部2で検出された入力音声のピッチを入力し、それをPitchとする(ステップS1)。
次に、該ピッチの過去の所定時間区間の平均値(短時間平均値)を計算するために、該平均計算の対象となる時間区間に対応するフレーム数分のピッチのデータをバッファに記憶する(ステップS2)。例えば、過去数100ms間のピッチの平均値を計算する場合には、それに対応する個数のフレームのピッチデータをバッファリングする。
そして、ステップS2でバッファリングしたピッチをもとに、ピッチの短時間平均値を求める。これを、PitchAveとする(ステップS3)。
なお、この平均計算の対象となる時間は、前記パラメータ指定部4を用いてユーザが指定することができ、この時間を外部からコントロールすることにより、その抑揚変化の仕方を制御することができる。
次に、PitchAve+A×(Pitch−PitchAve)を計算して、これを出力ピッチとする(ステップS4)。すなわち、現在のピッチ(Pitch)とピッチの短時間平均値(PitchAve)との差に係数Aを乗算した値を、ピッチの短時間平均値(PitchAve)に加算した値を出力ピッチとしている。
ここで、乗算の係数Aは抑揚変化をコントロールするための係数であり、前記パラメータ指定部4から指定することができる。
そして、該出力ピッチをピッチ変換部5に出力する(ステップS5)。これにより、入力音声とは異なるピッチ変化をもった音声が得られることとなる。
【0009】
図3は、上述の方法で実際にピッチを変化させたときのピッチ軌跡の一例を示す図である。
この図に示すように、係数A=1のときは、出力ピッチは入力ピッチと同じとなる。
また、A<1のときは図中のSmoothed Pitchの軌跡となり、出力ピッチの遷移は入力ピッチの遷移よりもなだらかな形となる。これにより、なめらかな唄い方に変換される。
一方、A>1のときは図中のStretched Pitchの軌跡のようになる。このときは、入力ピッチよりも遷移が強調された出力ピッチとなり、よりはっきりとした唄い方となる。
この係数Aの値によって、このカーブを様々に変化させることができ、抑揚変化を制御することができる。
ここで、例えば係数Aの値を入力音声のアタック部のたびに変更するようなコントロールを行えば、より変化にとんだ抑揚変化が得られる。
【0010】
なお、上述した実施の形態はピッチを制御するものであったが、同様に音量を制御することによっても、抑揚を変化させることができる。
この場合には、前記ピッチ検出部2に代えて、入力音声の各フレームごとの音量(パワー)を検出する音量検出部、前記出力ピッチ計算部3に代えて、前述と同様に、入力音量の短時間平均値と、入力音量の現在値と前記短時間平均値との差に係数Aを乗算した値とを加算して出力音量を求める出力音量計算部、及び、前記ピッチ変換部5に代えて、入力音声の出力音量を出力音量計算部からの出力音量に対応した音量に制御する音量変換部を用いればよい。
そして、前述と同様に、前記パラメータ指定部4から前記短時間平均計算の対象となる時間及び前記係数Aといったパラメータを指定することができるようにする。
これにより、パラメータ指定部4から指定するパラメータを制御することにより任意の抑揚変化を与えることが可能となる。
【0011】
さらにまた、ピッチや音量以外の特徴パラメータを同様の方法で変化させることにより、入力音声を異なった音質の音声に変化させて出力することができる。
この場合には、前記ピッチ検出部2に代えて、対象となる特徴パラメータを抽出する特徴パラメータ抽出部、前記出力ピッチ計算部3に代えて、その特徴パラメータの短時間平均値と、その特徴パラメータの現在値と前記短時間平均値との差に係数Aを乗算した値とを加算して特徴パラメータの新たな値を計算する特徴パラメータ計算部、及び、前記ピッチ変換器5に代えて、新たな特徴パラメータに基づいて入力音声を変換する変換部を設ければよい。
例えば、入力音声の第1フォルマントの周波数を変化させる対象とする場合には、入力音声の第1フォルマントの周波数を検出し、該検出した現在の第1フォルマントの周波数と第1フォルマントの周波数の短時間平均値との差に係数を乗じた値と第1のフォルマントの周波数の短時間平均値との和を新たな第1フォルマントの周波数として、入力音声の第1フォルマントの周波数を該新たな第1フォルマントの周波数に変換して出力すればよい。
【0012】
なお、上述した各実施の形態において、短時間平均の算出の対象となる時間と前記係数Aの値をランダムに変更させることにより、より多彩な抑揚変化を得ることができる。
例えば、同じソースの入力音声を出力するときであっても、前記パラメータ(短時間平均の算出の対象となる時間と前記係数Aの値)をランダムに指定して出力することにより、毎回異なる唄い方で出力することができ、自然な感じの出力とすることができる。
さらに、異なるパラメータにより出力された音声信号をミキシングするときには、複数の人が同時に歌っている効果を出すことができる。
【図面の簡単な説明】
【0013】
【図1】本発明の音声効果付与装置の一実施の形態の構成を示すブロック図である。
【図2】出力ピッチ計算部3において実行される出力ピッチ計算処理の流れを示す図である。
【図3】ピッチを変化させたときのピッチ軌跡の一例を示す図である。
【符号の説明】
【0014】
1:入力部、2:ピッチ検出部、3:出力ピッチ計算部、4:パラメータ指定部、5:ピッチ変換部、6:出力部

【特許請求の範囲】
【請求項1】
入力信号を分析して特徴パラメータを抽出する手段と、
該抽出した特徴パラメータの短時間平均値と、その特徴パラメータの現在値と前記短時間平均値との差に係数を乗算した値とを加算して、前記特徴パラメータの新しい値を計算する特徴パラメータ計算手段と、
前記入力信号に前記特徴パラメータ計算手段から出力される特徴パラメータの新しい値を適用する入力信号変換手段と
を有することを特徴とする音声効果付与装置。
【請求項2】
前記特徴パラメータは、入力音声のピッチ又は音量であることを特徴とする請求項1記載の音声効果付与装置。
【請求項3】
前記係数又は前記短時間平均計算の対象となる時間をランダムに変化させることができるようになされていることを特徴とする請求項1又は2に記載の音声効果付与装置。
【請求項4】
コンピュータに、
入力信号を分析して特徴パラメータを抽出するステップと、
該抽出した特徴パラメータの短時間平均値と、その特徴パラメータの現在値と前記短時間平均値との差に係数を乗算した値とを加算して、前記特徴パラメータの新しい値を計算するステップと、
前記入力信号に前記特徴パラメータの新しい値を適用するステップと
を実行させることを特徴とする音声効果付与プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate


【公開番号】特開2006−10907(P2006−10907A)
【公開日】平成18年1月12日(2006.1.12)
【国際特許分類】
【出願番号】特願2004−186013(P2004−186013)
【出願日】平成16年6月24日(2004.6.24)
【出願人】(000004075)ヤマハ株式会社 (5,930)