説明

基本周波数モデルパラメータ推定装置、方法、及びプログラム

【課題】合唱中の歌唱者の基本周波数生成系のフィルタ特性を推定することができるようにする。
【解決手段】基本周波数抽出部2によって、歌唱者の歌声音響信号と、合唱する他者の歌声音響信号と、音高目標値時系列とを入力として、それぞれの基本周波数時系列F0(t)、V(t)、U(t)を抽出する。数値微分算出部3によって、当該歌唱者の基本周波数時系列F0(t)の1階微分時系列及び2階微分時系列を各々算出する。フィルタ特性パラメータ推定部4によって、他者の基本周波数時系列V(t)に対する当該歌唱者の基本周波数時系列F0(t)の引き込み現象をモデル化した2階の線形微分方程式を用いて、2階の線形微分方程式のパラメータを、基本周波数生成系のフィルタ特性のパラメータとして推定する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、基本周波数モデルパラメータ推定装置、方法、及びプログラムに係り、特に、音響信号から、基本周波数生成系のフィルタ特性のパラメータを推定する基本周波数モデルパラメータ推定装置、方法、及びプログラムに関する。
【背景技術】
【0002】
従来、歌声情報処理に関する多くの研究では、これまで歌唱者が単独で歌った独唱を研究対象とした。その中でも、独唱の歌声の基本周波数(F0)系列に着目した様々な研究が現在盛んに行われている(例えば、非特許文献1)。これは、歌声の基本周波数系列には、歌唱者が歌おうとする音高目標値系列と歌唱力・歌唱スタイル・個人性・感情に基づく様々な動的変動成分(オーバーシュートやビブラートなど)とが複雑に重ね合わされており、これらを特徴抽出できれば、ハミング検索、鼻歌採譜、類似歌声検索、歌唱力自動評価、及び歌声合成のような様々な応用が期待されるためである。従来研究では、この基本周波数系列の生成過程は、バネ質量モデル(2階の線形微分方程式)に基づいて、以下の(1)式のように表現されている。
【0003】
【数1】

【0004】
ここで、U(t)は、歌唱者が歌おうとする音高目標値系列(楽譜に記載される歌唱旋律)のFに相当する。F0(t)とU(t)はどちらも時間tの関数である。上記(1)式は、U(t)が外力(駆動源)となって、歌唱者のF0が生成されるモデルとして見ることができる。mはバネ質量モデルでいう質量、λは減衰定数、kはバネ定数に相当する。
【0005】
また、上記(1)式のU(t)とm、λ、kとを手作業あるいは規則に従って与えて生成される基本周波数系列を利用して、表情豊かな歌声合成音を実現することが提案されている(非特許文献2)。U(t)とm、λ、kとがいずれも未知の下で、観測される基本周波数系列のみから、これらを同時に推定するフレームワークが提案されている(非特許文献3)。
【0006】
また、合唱を対象とし、自身の歌声を他者の歌声に追従させる動作(引き込み現象)にかかる時間に着目して、歌唱技量を評価する技術が知られている(非特許文献4)。
【先行技術文献】
【非特許文献】
【0007】
【非特許文献1】後藤真孝,齋藤毅,中野倫靖,藤原弘将, “歌声情報処理:歌声を対象とした音楽情報処理,” 情報処理学会音楽情報科学研究会,Vol.2010-MUS-86, No.4, 2010
【非特許文献2】T. Saitou, M. Unoki, and M. Akagi, “Development of an F0 control Model Based on F0 Dynamic Characteristics for Singing-Voice Synthesis,” Speech Communication, vol.46, pp. 405−417, 2005
【非特許文献3】Y. Ohishi, H. Kameoka, D. Mochihashi, H. Nagano, K. Kashino,“Statistical Modeling of F0 Dynamics in Singing Voices Based on Gaussian Processes with Multiple Oscillation Bases,” International Conference on Spoken Language Processing (INTERSPEECH 2010), pp. 2598−2601, 2010.
【非特許文献4】野田雄也, “合唱における基本周波数の同期現象に関する基礎研究,”JAIST 修士論文, 2008.
【発明の概要】
【発明が解決しようとする課題】
【0008】
しかしながら、上記の非特許文献1〜3に記載の技術は、複数の歌唱者が同時に歌唱する合唱を対象とした技術ではない。合唱の場合、上述の「引き込み現象」のように、独唱にはない現象が見られる。また、上記の非特許文献4では、引き込みにかかる時間に着目しているものの、この引き込み現象を詳細に記述するモデルの構築には至っていない。
【0009】
本発明は、上記の事情を考慮してなされたもので、合唱中の歌唱者の基本周波数生成系のフィルタ特性を推定することができる基本周波数モデルパラメータ推定装置、方法、及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0010】
上記の目的を達成するために本発明に係る基本周波数モデルパラメータ推定装置は、歌唱者の歌声を示す第1音響信号と、前記歌唱者と同時に合唱する他者の歌声を示す第2音響信号と、歌唱旋律を示す音高目標値時系列とを入力として、前記第1音響信号の基本周波数時系列、前記第2音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列を各々抽出する基本周波数抽出手段と、前記基本周波数抽出手段によって抽出された前記第1音響信号の基本周波数時系列の1階微分時系列及び2階微分時系列を各々算出する数値微分算出手段と、前記第2音響信号の基本周波数時系列に対する前記第1音響信号の基本周波数時系列の引き込み現象をモデル化し、かつ、前記第1音響信号の基本周波数時系列、前記第2音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列、前記1階微分時系列、及び前記2階微分時系列の関係を表わす2階の微分方程式を用いて、前記基本周波数抽出手段によって抽出された前記第1音響信号の基本周波数時系列、前記第2音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列と、前記数値微分算出手段によって算出された前記1階微分時系列及び前記2階微分時系列とに基づいて、前記2階の微分方程式のパラメータを、基本周波数生成系のフィルタ特性のパラメータとして推定するパラメータ推定手段と、を含んで構成されている。
【0011】
本発明に係る基本周波数モデルパラメータ推定方法は、基本周波数抽出手段と、数値微分算出手段と、パラメータ推定手段とを含む基本周波数モデルパラメータ推定装置における基本周波数モデルパラメータ推定方法であって、前記基本周波数モデルパラメータ推定装置は、前記基本周波数抽出手段によって、歌唱者の歌声を示す第1音響信号と、前記歌唱者と同時に合唱する他者の歌声を示す第2音響信号と、歌唱旋律を示す音高目標値時系列とを入力として、前記第1音響信号の基本周波数時系列、前記第2音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列を各々抽出するステップと、前記数値微分算出手段によって、前記基本周波数抽出手段によって抽出された前記第1音響信号の基本周波数時系列の1階微分時系列及び2階微分時系列を各々算出するステップと、前記パラメータ推定手段によって、前記第2音響信号の基本周波数時系列に対する前記第1音響信号の基本周波数時系列の引き込み現象をモデル化し、かつ、前記第1音響信号の基本周波数時系列、前記第2音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列、前記1階微分時系列、及び前記2階微分時系列の関係を表わす2階の微分方程式を用いて、前記基本周波数抽出手段によって抽出された前記第1音響信号の基本周波数時系列、前記第2音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列と、前記数値微分算出手段によって算出された前記1階微分時系列及び前記2階微分時系列とに基づいて、前記2階の微分方程式のパラメータを、基本周波数生成系のフィルタ特性のパラメータとして推定するステップと、を含んで実行することを特徴としている。
【0012】
本発明に係る基本周波数モデルパラメータ推定装置及び基本周波数モデルパラメータ推定方法によれば、前記基本周波数抽出手段によって、歌唱者の歌声を示す第1音響信号と、前記歌唱者と同時に合唱する他者の歌声を示す第2音響信号と、歌唱旋律を示す音高目標値時系列とを入力として、前記第1音響信号の基本周波数時系列、前記第2音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列を各々抽出する。前記数値微分算出手段によって、前記基本周波数抽出手段によって抽出された前記第1音響信号の基本周波数時系列の1階微分時系列及び2階微分時系列を各々算出する。
【0013】
そして、前記パラメータ推定手段によって、前記第2音響信号の基本周波数時系列に対する前記第1音響信号の基本周波数時系列の引き込み現象をモデル化し、かつ、前記第1音響信号の基本周波数時系列、前記第2音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列、前記1階微分時系列、及び前記2階微分時系列の関係を表わす2階の微分方程式を用いて、前記基本周波数抽出手段によって抽出された前記第1音響信号の基本周波数時系列、前記第2音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列と、前記数値微分算出手段によって算出された前記1階微分時系列及び前記2階微分時系列とに基づいて、前記2階の微分方程式のパラメータを、基本周波数生成系のフィルタ特性のパラメータとして推定する。
【0014】
このように、合唱する他者の第2音響信号の基本周波数時系列に対する歌唱者の第1音響信号の基本周波数時系列の引き込み現象をモデル化した2階の微分方程式のパラメータを、基本周波数生成系のフィルタ特性のパラメータとして推定することにより、合唱中の歌唱者の基本周波数生成系のフィルタ特性を推定することができる。
【0015】
上記の2階の微分方程式を、以下の式で表すようにすることができる。
【0016】
【数2】

【0017】
ただし、F0(t)は、前記第1音響信号の基本周波数時系列を表わし、V(t)は、前記第2音響信号の基本周波数時系列を表わし、U(t)は、前記音高目標値時系列の基本周波数時系列を表わす。d20(t)/dt2は、前記2階微分時系列を表わし、dF0(t)/dtは、前記1階微分時系列を表わす。a1、a2、a3、a4は、前記基本周波数生成系のフィルタ特性のパラメータである。
【0018】
上記のパラメータ推定手段は、前記基本周波数抽出手段によって抽出された前記第1音響信号の基本周波数時系列、前記第2音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列と、前記数値微分算出手段によって算出された前記1階微分時系列及び前記2階微分時系列とを用いた重回帰分析により、前記2階の線形微分方程式のパラメータを推定するようにすることができる。
【0019】
本発明に係る基本周波数モデルパラメータ推定装置は、前記基本周波数抽出手段によって抽出された前記第1音響信号の基本周波数時系列、前記第2音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列と、前記数値微分算出手段によって算出された前記1階微分時系列及び前記2階微分時系列とを正規化する正規化手段を更に含み、前記パラメータ推定手段は、前記正規化手段によって正規化された前記第1音響信号の基本周波数時系列、前記第2音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列と、前記数値微分算出手段によって算出された前記1階微分時系列及び前記2階微分時系列とに基づいて、前記2階の線形微分方程式のパラメータを推定するようにすることができる。
【0020】
本発明に係る基本周波数モデルパラメータ推定方法は、正規化手段によって、前記基本周波数抽出手段によって抽出された前記第1音響信号の基本周波数時系列、前記第2音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列と、前記数値微分算出手段によって算出された前記1階微分時系列及び前記2階微分時系列とを正規化するステップを更に含み、前記基本周波数生成系のフィルタ特性のパラメータを推定するステップは、前記パラメータ推定手段によって、前記正規化手段によって正規化された前記第1音響信号の基本周波数時系列、前記第2音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列と、前記数値微分算出手段によって算出された前記1階微分時系列及び前記2階微分時系列とに基づいて、前記2階の線形微分方程式のパラメータを推定するようにすることができる。
【0021】
本発明に係るプログラムは、上記の基本周波数モデルパラメータ推定装置の各手段としてコンピュータを機能させるためのプログラムである。
【発明の効果】
【0022】
以上説明したように、本発明の基本周波数モデルパラメータ推定装置、方法、及びプログラムによれば、合唱する他者の第2音響信号の基本周波数時系列に対する歌唱者の第1音響信号の基本周波数時系列の引き込み現象をモデル化した2階の微分方程式のパラメータを、基本周波数生成系のフィルタ特性のパラメータとして推定することにより、合唱中の歌唱者の基本周波数生成系のフィルタ特性を推定することができる、という効果が得られる。
【図面の簡単な説明】
【0023】
【図1】提案モデルのイメージ図である。
【図2】本発明の実施の形態に係る基本周波数モデルパラメータ推定装置の構成を示す概略図である。
【図3】本発明の実施の形態に係る基本周波数モデルパラメータ推定装置における音響信号分析処理ルーチンの内容を示すフローチャートである。
【発明を実施するための形態】
【0024】
以下、図面を参照して本発明の実施の形態を詳細に説明する。
【0025】
<概要>
まず、本発明で提案する基本周波数モデルパラメータ推定装置で用いる合唱歌唱モデルについて説明する。
【0026】
本発明では、2階の線形微分方程式に基づいて、合唱歌唱における当該歌唱者のF0 の引き込み現象を記述する合唱歌唱モデルを提案する。具体的には、以下の(2)式で表現され、図1にその概略図を示す。
【0027】
【数3】

【0028】
ここで、V(t)は当該歌唱者と同時に歌う他の歌唱者の歌声のF0に相当する。上記(2)式は、合唱する他の歌唱者の基本周波数時系列V(t)に対する当該歌唱者の基本周波数時系列F0(t)の引き込み現象をモデル化し、かつ、当該歌唱者の基本周波数時系列V(t)、他の歌唱者の基本周波数時系列V(t)、及び音高目標値時系列の基本周波数時系列U(t)、当該歌唱者の1階微分時系列F0(t)/dt、当該歌唱者の2階微分時系列F0(t)2/dt2の関係を表わす2階の線形微分方程式である。
【0029】
また、上記(2)式は、U(t)とV(t)とが外力となって、当該歌唱者の歌声のF0が生成されるモデルとして見ることができる。上記(1)式の独唱の場合との違いは、新たにV(t)が外力として加わっている点である。ここで、mはバネ質量モデルでいう質量、λは減衰定数、ku、kvはバネ定数に相当する。
【0030】
さらに、上記(2)式を以下の(3)式のように変形し、a1,a2,a3,a4が合唱中における当該歌唱者の技量や歌唱スタイルなどを記述説明する、当該歌唱者の基本周波数生成系のフィルタ特性パラメータと考える。
【0031】
【数4】

【0032】
例えば、歌唱訓練が乏しく、楽譜通りに歌えない素人歌唱者は、a4 に比べてa3 の値が大きくなる。これは合唱中に素人歌唱者が他の歌唱者の歌声を当てにする(他の歌唱者のF0の変動に強く影響を受ける)ためである。一方で、歌唱訓練を受けたことのある経験者は、a3 に比べてa4 の値が大きくなる。これは、経験者が素人歌唱者に比べて、楽譜上の音符列を正しく認識して歌い、他者の歌声の影響を受けにくいためである。
【0033】
次に、当該歌唱者の基本周波数生成系のフィルタ特性パラメータの推定方法について説明する。
【0034】
0(t)、U(t)、V(t)が与えられたときに、以下のように、上記(3)式のパラメータa1,a2,a3,a4を推定する。
【0035】
まず、F0(t)、U(t)、V(t)を、F0n、Un、Vn(n=1, …, N、ただしNは時間フレームの総数) のように離散時間で表現する。
【0036】
そして、F0(t)の1階微分と2階微分を、以下の(4)式、(5)式のように数値微分によって近似する。
【0037】
【数5】

【0038】
上記(4)式、(5)式により、上記(3)式は、以下の(6)式で記述できる。
【0039】
【数6】

【0040】
したがって、観測可能なF0n、ΔF0n、Δ20n、Un、Vn(n=1,…,N)を利用した重回帰分析によって、パラメータa1,a2,a3,a4を推定する。なお、重回帰分析としては、例えば、非特許文献(C. M. Bishop, “Pattern Recognition and Machine Learning,” Springer, 2010.)に記載されている手法と同様の手法を用いればよいため、詳細な説明を省略する。
【0041】
<システム構成>
次に、当該歌唱者の歌声音響信号、歌唱者と同時に歌唱する他者の歌声音響信号、及び音高目標値時系列を入力として、当該歌唱者の基本周波数生成系のフィルタ特性パラメータを推定して出力する基本周波数モデルパラメータ推定装置に、本発明を適用した場合を例にして、本発明の実施の形態を説明する。なお、当該歌唱者の歌声音響信号は、第1音響信号の一例であり、他者の歌声音響信号は、第2音響信号の一例であり、
【0042】
本実施の形態に係る基本周波数モデルパラメータ推定装置は、CPUと、RAMと、後述する音響信号分析処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
【0043】
図2に示すように、基本周波数モデルパラメータ推定装置は、記憶部1と、基本周波数抽出部2と、数値微分算出部3と、フィルタ特性パラメータ推定部4と、パラメータ出力部5とを備えている。
【0044】
記憶部1は、観測された当該歌唱者の歌声音響信号の時系列データ、観測された歌唱者と同時に歌唱する他者の歌声音響信号の時系列データ、及び音高目標値の時系列データを記憶する。
【0045】
基本周波数抽出部2は、当該歌唱者の歌声音響信号の時系列データ、他者の歌声音響信号の時系列データ、及び音高目標値の時系列データの各々から、基本周波数の時系列データを抽出し、それらを離散時間で表現するように変換して、当該歌唱者の基本周波数の時系列データF0n、他者の基本周波数の時系列データVn、音高目標値の基本周波数の時系列データUn(n=1,…,N)とする。この基本周波数の抽出処理は、周知技術により実現でき、例えば、非特許文献(A de Cheveign´e and H. Kawahara,“ YIN, a fundamental frequency estimator for speech and music,” Journal of the Acoustical Society of America, vol.111, no.4, pp. 1917-1930, 2002)で提案される基本周波数推定法YIN を利用して、5msごとに基本周波数を推定する。
【0046】
数値微分算出部3は、推定された当該歌唱者の基本周波数の時系列データから、上記(4)式、(5)式に従って、各時刻の数値微分を算出することにより、1階微分の時系列データΔF0n及び2階微分の時系列データΔ20n (n=1,…,N)を算出する。
【0047】
フィルタ特性パラメータ推定部4は、基本周波数抽出部2で抽出したF0n、Vn、Un、および数値微分算出部3で計算されたΔF0n20n(n=1,…,N)の各々を、各標準偏差で除算することにより、各値を正規化し、正規化されたF0n、Vn、Un、ΔF0n20n(n=1,…,N)に基づいて、重回帰分析により、上記(6)式のパラメータa1,a2,a3,a4を、フィルタ特性パラメータとして推定する。
【0048】
パラメータ出力部5は、フィルタ特性パラメータ推定部4で推定したフィルタ特性パラメータa1,a2,a3,a4を出力する。
【0049】
<基本周波数モデルパラメータ推定装置の作用>
次に、本実施の形態に係る基本周波数モデルパラメータ推定装置の作用について説明する。まず、分析対象の音響信号として、観測された当該歌唱者の歌声音響信号の時系列データ、歌唱者と同時に歌唱する他者の歌声音響信号の時系列データ、及び音高目標値の時系列データが、基本周波数モデルパラメータ推定装置に入力され、記憶部1に格納される。そして、基本周波数モデルパラメータ推定装置において、図3に示す音響信号分析処理ルーチンが実行される。
【0050】
まず、ステップ100において、記憶部1から、当該歌唱者の歌声音響信号の時系列データ、歌唱者と同時に歌唱する他者の歌声音響信号の時系列データ、及び音高目標値の時系列データを読み込み、各時系列データに対して、基本周波数の時系列データF0n、Vn、Un(n=1,…,N)を抽出する。
【0051】
そして、ステップ102において、上記ステップ100で抽出された当該歌唱者の基本周波数の時系列データF0nについて、1階微分の時系列データΔF0n及び2階微分の時系列データΔ20nを算出する。次のステップ104では、上記ステップ100で抽出された当該歌唱者の基本周波数の時系列データF0n、他者の基本周波数の時系列データVn、及び音高目標値の基本周波数の時系列データUnの各々を正規化すると共に、上記ステップ102で算出された1階微分の時系列データΔF0n及び2階微分の時系列データΔ20nの各々を正規化する。
【0052】
そして、ステップ106において、上記ステップ104で正規化された、当該歌唱者の基本周波数の時系列データF0n、他者の基本周波数の時系列データVn、音高目標値の基本周波数の時系列データUn、1階微分の時系列データΔF0n、及び2階微分の時系列データΔ20nに基づいて、重回帰分析により、上記(6)式におけるパラメータa1,a2,a3,a4を推定する。
【0053】
そして、ステップ108で、上記ステップ106で推定されたパラメータa1,a2,a3,a4を出力して、音響信号分析処理ルーチンを終了する。
【0054】
次に、上記の実施の形態に係る手法を適用して実験を行った結果について説明する。ここでは、上記の実施の形態に係る基本周波数モデルパラメータ推定装置を実装して、推定されたフィルタ特性パラメータa1,a2,a3,a4を定性的に評価した。
【0055】
まず、実験に用いるための歌声を準備した。歌唱力の異なる歌声を収集するために、大学の混声合唱団に所属するバスパートの男性歌唱者(歌唱訓練歴平均4.5年、以後、経験者と呼ぶ)4名と歌唱訓練を受けたことのない男性学生(以後、素人と呼ぶ)3名に協力を依頼した。収録場所は低残響室とし、歌唱者にはヘッドフォンを装着させ、右耳から伴奏音(歌唱旋律)を左耳からは自身の歌声と他者の歌声が聴こえるように設定した。歌唱曲は「ふるさと」とし、その1番詞のバスパートの斉唱を収録した。まず初めに、経験者1名が伴奏音とプロの声楽家の歌声をヘッドフォンで聴きながら歌唱した歌声を収録した。この歌声を随伴歌唱と呼び、ヘッドフォンの左耳から流れてくる他者の歌声として利用した。そして、残りの3名の経験者と3名の素人がそれぞれ、随伴歌唱と伴奏音(音高目標値の時系列データ)をヘッドフォンで聴きながら歌唱した歌声を3回収録した。同時に、伴奏音だけを聴きながらの歌声(独唱)も3回収録した。
【0056】
また、重回帰分析を行う前に、抽出された基本周波数F0n,ΔF0n20n,Un,Vnを各々の標準偏差で割り、基本周波数の正規化を行った。随伴歌唱受聴時の歌唱から重回帰分析によって求めたパラメータa1,a2,a3,a4の推定結果を以下の表1に示す。独唱歌唱の重回帰分析の結果を以下の表2に示す。εは重回帰分析によって得られる誤差成分である。
【0057】
【表1】

【0058】
【表2】

【0059】
独唱に対しては、上記(6)式のVの項の係数a3を推定しない。随伴歌唱受聴時のa4/(a3 +a4)の値が、素人よりも経験者が高い値となった。このことから経験者は、たとえ随伴歌唱を聴きながら歌唱したとしても、自身のもつ目標音高(楽譜に記載される歌唱旋律)に重きをおいて歌唱すると言える。また、独唱に比べて随伴歌唱を受聴することでa4 の値が減少している。これは、楽譜情報のみを意識して歌った独唱時と比べて、随伴歌唱を受聴することで楽譜情報を意識して歌唱する重みが低減したことを示す。a1 の絶対値は素人に比べ経験者が低い値であり、a1 は粘性項に相当するため、経験者のF0が減衰せずビブラートを維持する歌唱法であることが分かる。
【0060】
以上の実験より、経験者と素人による合唱歌唱では、ヘッドフォンから受聴する歌唱旋律と随伴歌唱への注視の比重が異なることを確認した。
【0061】
以上説明したように、本発明の実施の形態に係る基本周波数モデルパラメータ推定装置によれば、合唱する他者の歌声音響信号の基本周波数時系列に対する歌唱者の歌声音響信号の基本周波数時系列の引き込み現象をモデル化した2階の線形微分方程式のパラメータを、基本周波数生成系のフィルタ特性のパラメータとして推定することにより、合唱中の歌唱者の基本周波数生成系のフィルタ特性を精度よく推定することができる。
【0062】
また、抽出される各基本周波数時系列を正規化してから、2階の線形微分方程式のパラメータを推定することにより、個人の声の高さの違いを吸収することができる。
【0063】
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
【0064】
例えば、2階の線形微分方程式を用いて、合唱する他者の歌声音響信号の基本周波数時系列に対する歌唱者の歌声音響信号の基本周波数時系列の引き込み現象をモデル化した場合を例に説明したが、これに限定されるものではなく、例えば、2階の非線形微分方程式を用いてモデル化してもよい。
【0065】
また、合唱している他者が1名である場合を例に説明したが、これに限定されるものではなく、合唱している他者が複数名であってもよい。この場合には、合唱している複数の他者の歌唱音響信号を入力として用いればよい。
【0066】
また、重回帰分析により、2階の微分方程式のパラメータを推定する場合を例に説明したが、これに限定されるものではなく、従来既知の他の手法により、各種の基本周波数の時系列データに基づいて、2階の微分方程式のパラメータを推定するようにしてもよい。
【0067】
上述の基本周波数モデルパラメータ推定装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
【0068】
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
【符号の説明】
【0069】
1 記憶部
2 基本周波数抽出部
3 数値微分算出部
4 フィルタ特性パラメータ推定部
5 パラメータ出力部

【特許請求の範囲】
【請求項1】
歌唱者の歌声を示す第1音響信号と、前記歌唱者と同時に合唱する他者の歌声を示す第2音響信号と、歌唱旋律を示す音高目標値時系列とを入力として、前記第1音響信号の基本周波数時系列、前記第2音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列を各々抽出する基本周波数抽出手段と、
前記基本周波数抽出手段によって抽出された前記第1音響信号の基本周波数時系列の1階微分時系列及び2階微分時系列を各々算出する数値微分算出手段と、
前記第2音響信号の基本周波数時系列に対する前記第1音響信号の基本周波数時系列の引き込み現象をモデル化し、かつ、前記第1音響信号の基本周波数時系列、前記第2音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列、前記1階微分時系列、及び前記2階微分時系列の関係を表わす2階の微分方程式を用いて、前記基本周波数抽出手段によって抽出された前記第1音響信号の基本周波数時系列、前記第2音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列と、前記数値微分算出手段によって算出された前記1階微分時系列及び前記2階微分時系列とに基づいて、前記2階の微分方程式のパラメータを、基本周波数生成系のフィルタ特性のパラメータとして推定するパラメータ推定手段と、
を含む基本周波数モデルパラメータ推定装置。
【請求項2】
前記2階の微分方程式を、以下の式で表した請求項1記載の基本周波数モデルパラメータ推定装置。
【数1】

ただし、F0(t)は、前記第1音響信号の基本周波数時系列を表わし、V(t)は、前記第2音響信号の基本周波数時系列を表わし、U(t)は、前記音高目標値時系列の基本周波数時系列を表わす。d20(t)/dt2は、前記2階微分時系列を表わし、dF0(t)/dtは、前記1階微分時系列を表わす。a1、a2、a3、a4は、前記基本周波数生成系のフィルタ特性のパラメータである。
【請求項3】
前記パラメータ推定手段は、前記基本周波数抽出手段によって抽出された前記第1音響信号の基本周波数時系列、前記第2音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列と、前記数値微分算出手段によって算出された前記1階微分時系列及び前記2階微分時系列とを用いた重回帰分析により、前記2階の線形微分方程式のパラメータを推定する請求項1または2記載の基本周波数モデルパラメータ推定装置。
【請求項4】
前記基本周波数抽出手段によって抽出された前記第1音響信号の基本周波数時系列、前記第2音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列と、前記数値微分算出手段によって算出された前記1階微分時系列及び前記2階微分時系列とを正規化する正規化手段を更に含み、
前記パラメータ推定手段は、前記正規化手段によって正規化された前記第1音響信号の基本周波数時系列、前記第2音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列と、前記数値微分算出手段によって算出された前記1階微分時系列及び前記2階微分時系列とに基づいて、前記2階の線形微分方程式のパラメータを推定する請求項1〜請求項3の何れか1項記載の基本周波数モデルパラメータ推定装置。
【請求項5】
基本周波数抽出手段と、数値微分算出手段と、パラメータ推定手段とを含む基本周波数モデルパラメータ推定装置における基本周波数モデルパラメータ推定方法であって、
前記基本周波数モデルパラメータ推定装置は、
前記基本周波数抽出手段によって、歌唱者の歌声を示す第1音響信号と、前記歌唱者と同時に合唱する他者の歌声を示す第2音響信号と、歌唱旋律を示す音高目標値時系列とを入力として、前記第1音響信号の基本周波数時系列、前記第2音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列を各々抽出するステップと、
前記数値微分算出手段によって、前記基本周波数抽出手段によって抽出された前記第1音響信号の基本周波数時系列の1階微分時系列及び2階微分時系列を各々算出するステップと、
前記パラメータ推定手段によって、前記第2音響信号の基本周波数時系列に対する前記第1音響信号の基本周波数時系列の引き込み現象をモデル化し、かつ、前記第1音響信号の基本周波数時系列、前記第2音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列、前記1階微分時系列、及び前記2階微分時系列の関係を表わす2階の微分方程式を用いて、前記基本周波数抽出手段によって抽出された前記第1音響信号の基本周波数時系列、前記第2音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列と、前記数値微分算出手段によって算出された前記1階微分時系列及び前記2階微分時系列とに基づいて、前記2階の微分方程式のパラメータを、基本周波数生成系のフィルタ特性のパラメータとして推定するステップと、
を含んで実行することを特徴とする基本周波数モデルパラメータ推定方法。
【請求項6】
前記2階の微分方程式を、以下の式で表した請求項5記載の基本周波数モデルパラメータ推定方法。
【数2】

ただし、F0(t)は、前記第1音響信号の基本周波数時系列を表わし、V(t)は、前記第2音響信号の基本周波数時系列を表わし、U(t)は、前記音高目標値時系列の基本周波数時系列を表わす。d20(t)/dt2は、前記2階微分時系列を表わし、dF0(t)/dtは、前記1階微分時系列を表わす。a1、a2、a3、a4は、前記基本周波数生成系のフィルタ特性のパラメータである。
【請求項7】
前記基本周波数生成系のフィルタ特性のパラメータを推定するステップは、前記パラメータ推定手段によって、前記基本周波数抽出手段によって抽出された前記第1音響信号の基本周波数時系列、前記第2音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列と、前記数値微分算出手段によって算出された前記1階微分時系列及び前記2階微分時系列とを用いた重回帰分析により、前記2階の線形微分方程式のパラメータを推定する請求項5または6記載の基本周波数モデルパラメータ推定方法。
【請求項8】
正規化手段によって、前記基本周波数抽出手段によって抽出された前記第1音響信号の基本周波数時系列、前記第2音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列と、前記数値微分算出手段によって算出された前記1階微分時系列及び前記2階微分時系列とを正規化するステップを更に含み、
前記基本周波数生成系のフィルタ特性のパラメータを推定するステップは、前記パラメータ推定手段によって、前記正規化手段によって正規化された前記第1音響信号の基本周波数時系列、前記第2音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列と、前記数値微分算出手段によって算出された前記1階微分時系列及び前記2階微分時系列とに基づいて、前記2階の線形微分方程式のパラメータを推定する請求項5〜請求項7の何れか1項記載の基本周波数モデルパラメータ推定方法。
【請求項9】
コンピュータを、請求項1〜請求項4の何れか1項記載の基本周波数モデルパラメータ推定装置の各手段として機能させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate


【公開番号】特開2012−181320(P2012−181320A)
【公開日】平成24年9月20日(2012.9.20)
【国際特許分類】
【出願番号】特願2011−43706(P2011−43706)
【出願日】平成23年3月1日(2011.3.1)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【出願人】(504139662)国立大学法人名古屋大学 (996)
【Fターム(参考)】