基本周波数モデルパラメータ推定装置、方法、及びプログラム

【課題】合唱中の歌唱者の基本周波数生成系のフィルタ特性を推定することができるようにする。
【解決手段】基本周波数抽出部２によって、歌唱者の歌声音響信号と、合唱する他者の歌声音響信号と、音高目標値時系列とを入力として、それぞれの基本周波数時系列Ｆ₀（ｔ）、Ｖ（ｔ）、Ｕ（ｔ）を抽出する。数値微分算出部３によって、当該歌唱者の基本周波数時系列Ｆ₀（ｔ）の１階微分時系列及び２階微分時系列を各々算出する。フィルタ特性パラメータ推定部４によって、他者の基本周波数時系列Ｖ（ｔ）に対する当該歌唱者の基本周波数時系列Ｆ₀（ｔ）の引き込み現象をモデル化した２階の線形微分方程式を用いて、２階の線形微分方程式のパラメータを、基本周波数生成系のフィルタ特性のパラメータとして推定する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、基本周波数モデルパラメータ推定装置、方法、及びプログラムに係り、特に、音響信号から、基本周波数生成系のフィルタ特性のパラメータを推定する基本周波数モデルパラメータ推定装置、方法、及びプログラムに関する。
【背景技術】
【０００２】
従来、歌声情報処理に関する多くの研究では、これまで歌唱者が単独で歌った独唱を研究対象とした。その中でも、独唱の歌声の基本周波数（Ｆ₀）系列に着目した様々な研究が現在盛んに行われている（例えば、非特許文献１）。これは、歌声の基本周波数系列には、歌唱者が歌おうとする音高目標値系列と歌唱力・歌唱スタイル・個人性・感情に基づく様々な動的変動成分（オーバーシュートやビブラートなど）とが複雑に重ね合わされており、これらを特徴抽出できれば、ハミング検索、鼻歌採譜、類似歌声検索、歌唱力自動評価、及び歌声合成のような様々な応用が期待されるためである。従来研究では、この基本周波数系列の生成過程は、バネ質量モデル（２階の線形微分方程式）に基づいて、以下の（１）式のように表現されている。
【０００３】
【数１】

【０００４】
ここで、Ｕ（ｔ）は、歌唱者が歌おうとする音高目標値系列（楽譜に記載される歌唱旋律）のＦ_０に相当する。Ｆ₀（ｔ）とＵ（ｔ）はどちらも時間ｔの関数である。上記（１）式は、Ｕ（ｔ）が外力（駆動源）となって、歌唱者のＦ₀が生成されるモデルとして見ることができる。ｍはバネ質量モデルでいう質量、λは減衰定数、ｋはバネ定数に相当する。
【０００５】
また、上記（１）式のＵ（ｔ）とｍ、λ、ｋとを手作業あるいは規則に従って与えて生成される基本周波数系列を利用して、表情豊かな歌声合成音を実現することが提案されている（非特許文献２）。Ｕ（ｔ）とｍ、λ、ｋとがいずれも未知の下で、観測される基本周波数系列のみから、これらを同時に推定するフレームワークが提案されている（非特許文献３）。
【０００６】
また、合唱を対象とし、自身の歌声を他者の歌声に追従させる動作（引き込み現象）にかかる時間に着目して、歌唱技量を評価する技術が知られている（非特許文献４）。
【先行技術文献】
【非特許文献】
【０００７】
【非特許文献１】後藤真孝，齋藤毅，中野倫靖，藤原弘将, “歌声情報処理：歌声を対象とした音楽情報処理,” 情報処理学会音楽情報科学研究会，Vol.2010-MUS-86, No.4, 2010
【非特許文献２】T. Saitou, M. Unoki, and M. Akagi, “Development of an F0 control Model Based on F0 Dynamic Characteristics for Singing-Voice Synthesis,” Speech Communication, vol.46, pp. 405−417, 2005
【非特許文献３】Y. Ohishi, H. Kameoka, D. Mochihashi, H. Nagano, K. Kashino,“Statistical Modeling of F0 Dynamics in Singing Voices Based on Gaussian Processes with Multiple Oscillation Bases,” International Conference on Spoken Language Processing (INTERSPEECH 2010), pp. 2598−2601, 2010.
【非特許文献４】野田雄也, “合唱における基本周波数の同期現象に関する基礎研究,”JAIST 修士論文, 2008.
【発明の概要】
【発明が解決しようとする課題】
【０００８】
しかしながら、上記の非特許文献１〜３に記載の技術は、複数の歌唱者が同時に歌唱する合唱を対象とした技術ではない。合唱の場合、上述の「引き込み現象」のように、独唱にはない現象が見られる。また、上記の非特許文献４では、引き込みにかかる時間に着目しているものの、この引き込み現象を詳細に記述するモデルの構築には至っていない。
【０００９】
本発明は、上記の事情を考慮してなされたもので、合唱中の歌唱者の基本周波数生成系のフィルタ特性を推定することができる基本周波数モデルパラメータ推定装置、方法、及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【００１０】
上記の目的を達成するために本発明に係る基本周波数モデルパラメータ推定装置は、歌唱者の歌声を示す第１音響信号と、前記歌唱者と同時に合唱する他者の歌声を示す第２音響信号と、歌唱旋律を示す音高目標値時系列とを入力として、前記第１音響信号の基本周波数時系列、前記第２音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列を各々抽出する基本周波数抽出手段と、前記基本周波数抽出手段によって抽出された前記第１音響信号の基本周波数時系列の１階微分時系列及び２階微分時系列を各々算出する数値微分算出手段と、前記第２音響信号の基本周波数時系列に対する前記第１音響信号の基本周波数時系列の引き込み現象をモデル化し、かつ、前記第１音響信号の基本周波数時系列、前記第２音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列、前記１階微分時系列、及び前記２階微分時系列の関係を表わす２階の微分方程式を用いて、前記基本周波数抽出手段によって抽出された前記第１音響信号の基本周波数時系列、前記第２音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列と、前記数値微分算出手段によって算出された前記１階微分時系列及び前記２階微分時系列とに基づいて、前記２階の微分方程式のパラメータを、基本周波数生成系のフィルタ特性のパラメータとして推定するパラメータ推定手段と、を含んで構成されている。
【００１１】
本発明に係る基本周波数モデルパラメータ推定方法は、基本周波数抽出手段と、数値微分算出手段と、パラメータ推定手段とを含む基本周波数モデルパラメータ推定装置における基本周波数モデルパラメータ推定方法であって、前記基本周波数モデルパラメータ推定装置は、前記基本周波数抽出手段によって、歌唱者の歌声を示す第１音響信号と、前記歌唱者と同時に合唱する他者の歌声を示す第２音響信号と、歌唱旋律を示す音高目標値時系列とを入力として、前記第１音響信号の基本周波数時系列、前記第２音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列を各々抽出するステップと、前記数値微分算出手段によって、前記基本周波数抽出手段によって抽出された前記第１音響信号の基本周波数時系列の１階微分時系列及び２階微分時系列を各々算出するステップと、前記パラメータ推定手段によって、前記第２音響信号の基本周波数時系列に対する前記第１音響信号の基本周波数時系列の引き込み現象をモデル化し、かつ、前記第１音響信号の基本周波数時系列、前記第２音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列、前記１階微分時系列、及び前記２階微分時系列の関係を表わす２階の微分方程式を用いて、前記基本周波数抽出手段によって抽出された前記第１音響信号の基本周波数時系列、前記第２音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列と、前記数値微分算出手段によって算出された前記１階微分時系列及び前記２階微分時系列とに基づいて、前記２階の微分方程式のパラメータを、基本周波数生成系のフィルタ特性のパラメータとして推定するステップと、を含んで実行することを特徴としている。
【００１２】
本発明に係る基本周波数モデルパラメータ推定装置及び基本周波数モデルパラメータ推定方法によれば、前記基本周波数抽出手段によって、歌唱者の歌声を示す第１音響信号と、前記歌唱者と同時に合唱する他者の歌声を示す第２音響信号と、歌唱旋律を示す音高目標値時系列とを入力として、前記第１音響信号の基本周波数時系列、前記第２音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列を各々抽出する。前記数値微分算出手段によって、前記基本周波数抽出手段によって抽出された前記第１音響信号の基本周波数時系列の１階微分時系列及び２階微分時系列を各々算出する。
【００１３】
そして、前記パラメータ推定手段によって、前記第２音響信号の基本周波数時系列に対する前記第１音響信号の基本周波数時系列の引き込み現象をモデル化し、かつ、前記第１音響信号の基本周波数時系列、前記第２音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列、前記１階微分時系列、及び前記２階微分時系列の関係を表わす２階の微分方程式を用いて、前記基本周波数抽出手段によって抽出された前記第１音響信号の基本周波数時系列、前記第２音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列と、前記数値微分算出手段によって算出された前記１階微分時系列及び前記２階微分時系列とに基づいて、前記２階の微分方程式のパラメータを、基本周波数生成系のフィルタ特性のパラメータとして推定する。
【００１４】
このように、合唱する他者の第２音響信号の基本周波数時系列に対する歌唱者の第１音響信号の基本周波数時系列の引き込み現象をモデル化した２階の微分方程式のパラメータを、基本周波数生成系のフィルタ特性のパラメータとして推定することにより、合唱中の歌唱者の基本周波数生成系のフィルタ特性を推定することができる。
【００１５】
上記の２階の微分方程式を、以下の式で表すようにすることができる。
【００１６】
【数２】

【００１７】
ただし、Ｆ₀（ｔ）は、前記第１音響信号の基本周波数時系列を表わし、Ｖ（ｔ）は、前記第２音響信号の基本周波数時系列を表わし、Ｕ（ｔ）は、前記音高目標値時系列の基本周波数時系列を表わす。ｄ²Ｆ₀（ｔ）／ｄｔ²は、前記２階微分時系列を表わし、ｄＦ₀（ｔ）／ｄｔは、前記１階微分時系列を表わす。ａ₁、ａ₂、ａ₃、ａ₄は、前記基本周波数生成系のフィルタ特性のパラメータである。
【００１８】
上記のパラメータ推定手段は、前記基本周波数抽出手段によって抽出された前記第１音響信号の基本周波数時系列、前記第２音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列と、前記数値微分算出手段によって算出された前記１階微分時系列及び前記２階微分時系列とを用いた重回帰分析により、前記２階の線形微分方程式のパラメータを推定するようにすることができる。
【００１９】
本発明に係る基本周波数モデルパラメータ推定装置は、前記基本周波数抽出手段によって抽出された前記第１音響信号の基本周波数時系列、前記第２音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列と、前記数値微分算出手段によって算出された前記１階微分時系列及び前記２階微分時系列とを正規化する正規化手段を更に含み、前記パラメータ推定手段は、前記正規化手段によって正規化された前記第１音響信号の基本周波数時系列、前記第２音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列と、前記数値微分算出手段によって算出された前記１階微分時系列及び前記２階微分時系列とに基づいて、前記２階の線形微分方程式のパラメータを推定するようにすることができる。
【００２０】
本発明に係る基本周波数モデルパラメータ推定方法は、正規化手段によって、前記基本周波数抽出手段によって抽出された前記第１音響信号の基本周波数時系列、前記第２音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列と、前記数値微分算出手段によって算出された前記１階微分時系列及び前記２階微分時系列とを正規化するステップを更に含み、前記基本周波数生成系のフィルタ特性のパラメータを推定するステップは、前記パラメータ推定手段によって、前記正規化手段によって正規化された前記第１音響信号の基本周波数時系列、前記第２音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列と、前記数値微分算出手段によって算出された前記１階微分時系列及び前記２階微分時系列とに基づいて、前記２階の線形微分方程式のパラメータを推定するようにすることができる。
【００２１】
本発明に係るプログラムは、上記の基本周波数モデルパラメータ推定装置の各手段としてコンピュータを機能させるためのプログラムである。
【発明の効果】
【００２２】
以上説明したように、本発明の基本周波数モデルパラメータ推定装置、方法、及びプログラムによれば、合唱する他者の第２音響信号の基本周波数時系列に対する歌唱者の第１音響信号の基本周波数時系列の引き込み現象をモデル化した２階の微分方程式のパラメータを、基本周波数生成系のフィルタ特性のパラメータとして推定することにより、合唱中の歌唱者の基本周波数生成系のフィルタ特性を推定することができる、という効果が得られる。
【図面の簡単な説明】
【００２３】
【図１】提案モデルのイメージ図である。
【図２】本発明の実施の形態に係る基本周波数モデルパラメータ推定装置の構成を示す概略図である。
【図３】本発明の実施の形態に係る基本周波数モデルパラメータ推定装置における音響信号分析処理ルーチンの内容を示すフローチャートである。
【発明を実施するための形態】
【００２４】
以下、図面を参照して本発明の実施の形態を詳細に説明する。
【００２５】
＜概要＞
まず、本発明で提案する基本周波数モデルパラメータ推定装置で用いる合唱歌唱モデルについて説明する。
【００２６】
本発明では、２階の線形微分方程式に基づいて、合唱歌唱における当該歌唱者のＦ₀ の引き込み現象を記述する合唱歌唱モデルを提案する。具体的には、以下の（２）式で表現され、図１にその概略図を示す。
【００２７】
【数３】

【００２８】
ここで、Ｖ（ｔ）は当該歌唱者と同時に歌う他の歌唱者の歌声のＦ₀に相当する。上記（２）式は、合唱する他の歌唱者の基本周波数時系列Ｖ（ｔ）に対する当該歌唱者の基本周波数時系列Ｆ₀（ｔ）の引き込み現象をモデル化し、かつ、当該歌唱者の基本周波数時系列Ｖ（ｔ）、他の歌唱者の基本周波数時系列Ｖ（ｔ）、及び音高目標値時系列の基本周波数時系列Ｕ（ｔ）、当該歌唱者の１階微分時系列Ｆ₀（ｔ）／ｄｔ、当該歌唱者の２階微分時系列Ｆ₀（ｔ）²／ｄｔ²の関係を表わす２階の線形微分方程式である。
【００２９】
また、上記（２）式は、Ｕ（ｔ）とＶ（ｔ）とが外力となって、当該歌唱者の歌声のＦ₀が生成されるモデルとして見ることができる。上記（１）式の独唱の場合との違いは、新たにＶ（ｔ）が外力として加わっている点である。ここで、ｍはバネ質量モデルでいう質量、λは減衰定数、ｋ_u、ｋ_vはバネ定数に相当する。
【００３０】
さらに、上記（２）式を以下の（３）式のように変形し、ａ₁,ａ₂,ａ₃,ａ₄が合唱中における当該歌唱者の技量や歌唱スタイルなどを記述説明する、当該歌唱者の基本周波数生成系のフィルタ特性パラメータと考える。
【００３１】
【数４】

【００３２】
例えば、歌唱訓練が乏しく、楽譜通りに歌えない素人歌唱者は、ａ₄に比べてａ₃の値が大きくなる。これは合唱中に素人歌唱者が他の歌唱者の歌声を当てにする（他の歌唱者のＦ₀の変動に強く影響を受ける）ためである。一方で、歌唱訓練を受けたことのある経験者は、ａ₃に比べてａ₄の値が大きくなる。これは、経験者が素人歌唱者に比べて、楽譜上の音符列を正しく認識して歌い、他者の歌声の影響を受けにくいためである。
【００３３】
次に、当該歌唱者の基本周波数生成系のフィルタ特性パラメータの推定方法について説明する。
【００３４】
Ｆ₀（ｔ）、Ｕ（ｔ）、Ｖ（ｔ）が与えられたときに、以下のように、上記（３）式のパラメータａ₁，ａ₂，ａ₃，ａ₄を推定する。
【００３５】
まず、Ｆ₀（ｔ）、Ｕ（ｔ）、Ｖ（ｔ）を、Ｆ_0n、Ｕ_n、Ｖ_n（ｎ＝１, …, Ｎ、ただしＮは時間フレームの総数）のように離散時間で表現する。
【００３６】
そして、Ｆ₀（ｔ）の１階微分と２階微分を、以下の（４）式、（５）式のように数値微分によって近似する。
【００３７】
【数５】

【００３８】
上記（４）式、（５）式により、上記（３）式は、以下の（６）式で記述できる。
【００３９】
【数６】

【００４０】
したがって、観測可能なＦ_0n、ΔＦ_0n、Δ²Ｆ_0n、Ｕ_n、Ｖ_n（ｎ＝１,…,Ｎ）を利用した重回帰分析によって、パラメータａ₁,ａ₂,ａ₃,ａ₄を推定する。なお、重回帰分析としては、例えば、非特許文献（C. M. Bishop, “Pattern Recognition and Machine Learning,” Springer, 2010.）に記載されている手法と同様の手法を用いればよいため、詳細な説明を省略する。
【００４１】
＜システム構成＞
次に、当該歌唱者の歌声音響信号、歌唱者と同時に歌唱する他者の歌声音響信号、及び音高目標値時系列を入力として、当該歌唱者の基本周波数生成系のフィルタ特性パラメータを推定して出力する基本周波数モデルパラメータ推定装置に、本発明を適用した場合を例にして、本発明の実施の形態を説明する。なお、当該歌唱者の歌声音響信号は、第１音響信号の一例であり、他者の歌声音響信号は、第２音響信号の一例であり、
【００４２】
本実施の形態に係る基本周波数モデルパラメータ推定装置は、ＣＰＵと、ＲＡＭと、後述する音響信号分析処理ルーチンを実行するためのプログラムを記憶したＲＯＭとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
【００４３】
図２に示すように、基本周波数モデルパラメータ推定装置は、記憶部１と、基本周波数抽出部２と、数値微分算出部３と、フィルタ特性パラメータ推定部４と、パラメータ出力部５とを備えている。
【００４４】
記憶部１は、観測された当該歌唱者の歌声音響信号の時系列データ、観測された歌唱者と同時に歌唱する他者の歌声音響信号の時系列データ、及び音高目標値の時系列データを記憶する。
【００４５】
基本周波数抽出部２は、当該歌唱者の歌声音響信号の時系列データ、他者の歌声音響信号の時系列データ、及び音高目標値の時系列データの各々から、基本周波数の時系列データを抽出し、それらを離散時間で表現するように変換して、当該歌唱者の基本周波数の時系列データＦ_0n、他者の基本周波数の時系列データＶ_n、音高目標値の基本周波数の時系列データＵ_n（ｎ＝１,…,Ｎ）とする。この基本周波数の抽出処理は、周知技術により実現でき、例えば、非特許文献（A de Cheveign´e and H. Kawahara,“ YIN, a fundamental frequency estimator for speech and music,” Journal of the Acoustical Society of America, vol.111, no.4, pp. 1917-1930, 2002）で提案される基本周波数推定法YIN を利用して、５ｍｓごとに基本周波数を推定する。
【００４６】
数値微分算出部３は、推定された当該歌唱者の基本周波数の時系列データから、上記（４）式、（５）式に従って、各時刻の数値微分を算出することにより、１階微分の時系列データΔＦ_0n及び２階微分の時系列データΔ²Ｆ_0n（ｎ＝１,…,Ｎ）を算出する。
【００４７】
フィルタ特性パラメータ推定部４は、基本周波数抽出部２で抽出したＦ_0n、Ｖ_n、Ｕ_n、および数値微分算出部３で計算されたΔＦ_0n,Δ²Ｆ_0n（ｎ＝１，…，Ｎ）の各々を、各標準偏差で除算することにより、各値を正規化し、正規化されたＦ_0n、Ｖ_n、Ｕ_n、ΔＦ_0n,Δ²Ｆ_0n（ｎ＝１，…，Ｎ）に基づいて、重回帰分析により、上記（６）式のパラメータａ₁,ａ₂,ａ₃,ａ₄を、フィルタ特性パラメータとして推定する。
【００４８】
パラメータ出力部５は、フィルタ特性パラメータ推定部４で推定したフィルタ特性パラメータａ₁,ａ₂,ａ₃,ａ₄を出力する。
【００４９】
＜基本周波数モデルパラメータ推定装置の作用＞
次に、本実施の形態に係る基本周波数モデルパラメータ推定装置の作用について説明する。まず、分析対象の音響信号として、観測された当該歌唱者の歌声音響信号の時系列データ、歌唱者と同時に歌唱する他者の歌声音響信号の時系列データ、及び音高目標値の時系列データが、基本周波数モデルパラメータ推定装置に入力され、記憶部１に格納される。そして、基本周波数モデルパラメータ推定装置において、図３に示す音響信号分析処理ルーチンが実行される。
【００５０】
まず、ステップ１００において、記憶部１から、当該歌唱者の歌声音響信号の時系列データ、歌唱者と同時に歌唱する他者の歌声音響信号の時系列データ、及び音高目標値の時系列データを読み込み、各時系列データに対して、基本周波数の時系列データＦ_0n、Ｖ_n、Ｕ_n（ｎ＝１,…,Ｎ）を抽出する。
【００５１】
そして、ステップ１０２において、上記ステップ１００で抽出された当該歌唱者の基本周波数の時系列データＦ_0nについて、１階微分の時系列データΔＦ_0n及び２階微分の時系列データΔ²Ｆ_0nを算出する。次のステップ１０４では、上記ステップ１００で抽出された当該歌唱者の基本周波数の時系列データＦ_0n、他者の基本周波数の時系列データＶ_n、及び音高目標値の基本周波数の時系列データＵ_nの各々を正規化すると共に、上記ステップ１０２で算出された１階微分の時系列データΔＦ_0n及び２階微分の時系列データΔ²Ｆ_0nの各々を正規化する。
【００５２】
そして、ステップ１０６において、上記ステップ１０４で正規化された、当該歌唱者の基本周波数の時系列データＦ_0n、他者の基本周波数の時系列データＶ_n、音高目標値の基本周波数の時系列データＵ_n、１階微分の時系列データΔＦ_0n、及び２階微分の時系列データΔ²Ｆ_0nに基づいて、重回帰分析により、上記（６）式におけるパラメータａ₁,ａ₂,ａ₃,ａ₄を推定する。
【００５３】
そして、ステップ１０８で、上記ステップ１０６で推定されたパラメータａ₁,ａ₂,ａ₃,ａ₄を出力して、音響信号分析処理ルーチンを終了する。
【００５４】
次に、上記の実施の形態に係る手法を適用して実験を行った結果について説明する。ここでは、上記の実施の形態に係る基本周波数モデルパラメータ推定装置を実装して、推定されたフィルタ特性パラメータａ₁,ａ₂,ａ₃,ａ₄を定性的に評価した。
【００５５】
まず、実験に用いるための歌声を準備した。歌唱力の異なる歌声を収集するために、大学の混声合唱団に所属するバスパートの男性歌唱者(歌唱訓練歴平均４．５年、以後、経験者と呼ぶ)４名と歌唱訓練を受けたことのない男性学生(以後、素人と呼ぶ)３名に協力を依頼した。収録場所は低残響室とし、歌唱者にはヘッドフォンを装着させ、右耳から伴奏音（歌唱旋律）を左耳からは自身の歌声と他者の歌声が聴こえるように設定した。歌唱曲は「ふるさと」とし、その１番詞のバスパートの斉唱を収録した。まず初めに、経験者１名が伴奏音とプロの声楽家の歌声をヘッドフォンで聴きながら歌唱した歌声を収録した。この歌声を随伴歌唱と呼び、ヘッドフォンの左耳から流れてくる他者の歌声として利用した。そして、残りの３名の経験者と３名の素人がそれぞれ、随伴歌唱と伴奏音（音高目標値の時系列データ）をヘッドフォンで聴きながら歌唱した歌声を３回収録した。同時に、伴奏音だけを聴きながらの歌声(独唱)も３回収録した。
【００５６】
また、重回帰分析を行う前に、抽出された基本周波数Ｆ_0n,ΔＦ_0n,Δ²Ｆ_0n,Ｕ_n,Ｖ_nを各々の標準偏差で割り、基本周波数の正規化を行った。随伴歌唱受聴時の歌唱から重回帰分析によって求めたパラメータａ₁,ａ₂,ａ₃,ａ₄の推定結果を以下の表１に示す。独唱歌唱の重回帰分析の結果を以下の表２に示す。εは重回帰分析によって得られる誤差成分である。
【００５７】
【表１】

【００５８】
【表２】

【００５９】
独唱に対しては、上記（６）式のＶの項の係数ａ₃を推定しない。随伴歌唱受聴時のａ₄／（ａ₃＋ａ₄）の値が、素人よりも経験者が高い値となった。このことから経験者は、たとえ随伴歌唱を聴きながら歌唱したとしても、自身のもつ目標音高（楽譜に記載される歌唱旋律）に重きをおいて歌唱すると言える。また、独唱に比べて随伴歌唱を受聴することでａ₄の値が減少している。これは、楽譜情報のみを意識して歌った独唱時と比べて、随伴歌唱を受聴することで楽譜情報を意識して歌唱する重みが低減したことを示す。ａ₁の絶対値は素人に比べ経験者が低い値であり、ａ₁は粘性項に相当するため、経験者のＦ₀が減衰せずビブラートを維持する歌唱法であることが分かる。
【００６０】
以上の実験より、経験者と素人による合唱歌唱では、ヘッドフォンから受聴する歌唱旋律と随伴歌唱への注視の比重が異なることを確認した。
【００６１】
以上説明したように、本発明の実施の形態に係る基本周波数モデルパラメータ推定装置によれば、合唱する他者の歌声音響信号の基本周波数時系列に対する歌唱者の歌声音響信号の基本周波数時系列の引き込み現象をモデル化した２階の線形微分方程式のパラメータを、基本周波数生成系のフィルタ特性のパラメータとして推定することにより、合唱中の歌唱者の基本周波数生成系のフィルタ特性を精度よく推定することができる。
【００６２】
また、抽出される各基本周波数時系列を正規化してから、２階の線形微分方程式のパラメータを推定することにより、個人の声の高さの違いを吸収することができる。
【００６３】
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
【００６４】
例えば、２階の線形微分方程式を用いて、合唱する他者の歌声音響信号の基本周波数時系列に対する歌唱者の歌声音響信号の基本周波数時系列の引き込み現象をモデル化した場合を例に説明したが、これに限定されるものではなく、例えば、２階の非線形微分方程式を用いてモデル化してもよい。
【００６５】
また、合唱している他者が１名である場合を例に説明したが、これに限定されるものではなく、合唱している他者が複数名であってもよい。この場合には、合唱している複数の他者の歌唱音響信号を入力として用いればよい。
【００６６】
また、重回帰分析により、２階の微分方程式のパラメータを推定する場合を例に説明したが、これに限定されるものではなく、従来既知の他の手法により、各種の基本周波数の時系列データに基づいて、２階の微分方程式のパラメータを推定するようにしてもよい。
【００６７】
上述の基本周波数モデルパラメータ推定装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。
【００６８】
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
【符号の説明】
【００６９】
１記憶部
２基本周波数抽出部
３数値微分算出部
４フィルタ特性パラメータ推定部
５パラメータ出力部

【特許請求の範囲】
【請求項１】
歌唱者の歌声を示す第１音響信号と、前記歌唱者と同時に合唱する他者の歌声を示す第２音響信号と、歌唱旋律を示す音高目標値時系列とを入力として、前記第１音響信号の基本周波数時系列、前記第２音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列を各々抽出する基本周波数抽出手段と、
前記基本周波数抽出手段によって抽出された前記第１音響信号の基本周波数時系列の１階微分時系列及び２階微分時系列を各々算出する数値微分算出手段と、
前記第２音響信号の基本周波数時系列に対する前記第１音響信号の基本周波数時系列の引き込み現象をモデル化し、かつ、前記第１音響信号の基本周波数時系列、前記第２音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列、前記１階微分時系列、及び前記２階微分時系列の関係を表わす２階の微分方程式を用いて、前記基本周波数抽出手段によって抽出された前記第１音響信号の基本周波数時系列、前記第２音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列と、前記数値微分算出手段によって算出された前記１階微分時系列及び前記２階微分時系列とに基づいて、前記２階の微分方程式のパラメータを、基本周波数生成系のフィルタ特性のパラメータとして推定するパラメータ推定手段と、
を含む基本周波数モデルパラメータ推定装置。
【請求項２】
前記２階の微分方程式を、以下の式で表した請求項１記載の基本周波数モデルパラメータ推定装置。
【数１】

ただし、Ｆ₀（ｔ）は、前記第１音響信号の基本周波数時系列を表わし、Ｖ（ｔ）は、前記第２音響信号の基本周波数時系列を表わし、Ｕ（ｔ）は、前記音高目標値時系列の基本周波数時系列を表わす。ｄ²Ｆ₀（ｔ）／ｄｔ²は、前記２階微分時系列を表わし、ｄＦ₀（ｔ）／ｄｔは、前記１階微分時系列を表わす。ａ₁、ａ₂、ａ₃、ａ₄は、前記基本周波数生成系のフィルタ特性のパラメータである。
【請求項３】
前記パラメータ推定手段は、前記基本周波数抽出手段によって抽出された前記第１音響信号の基本周波数時系列、前記第２音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列と、前記数値微分算出手段によって算出された前記１階微分時系列及び前記２階微分時系列とを用いた重回帰分析により、前記２階の線形微分方程式のパラメータを推定する請求項１または２記載の基本周波数モデルパラメータ推定装置。
【請求項４】
前記基本周波数抽出手段によって抽出された前記第１音響信号の基本周波数時系列、前記第２音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列と、前記数値微分算出手段によって算出された前記１階微分時系列及び前記２階微分時系列とを正規化する正規化手段を更に含み、
前記パラメータ推定手段は、前記正規化手段によって正規化された前記第１音響信号の基本周波数時系列、前記第２音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列と、前記数値微分算出手段によって算出された前記１階微分時系列及び前記２階微分時系列とに基づいて、前記２階の線形微分方程式のパラメータを推定する請求項１〜請求項３の何れか１項記載の基本周波数モデルパラメータ推定装置。
【請求項５】
基本周波数抽出手段と、数値微分算出手段と、パラメータ推定手段とを含む基本周波数モデルパラメータ推定装置における基本周波数モデルパラメータ推定方法であって、
前記基本周波数モデルパラメータ推定装置は、
前記基本周波数抽出手段によって、歌唱者の歌声を示す第１音響信号と、前記歌唱者と同時に合唱する他者の歌声を示す第２音響信号と、歌唱旋律を示す音高目標値時系列とを入力として、前記第１音響信号の基本周波数時系列、前記第２音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列を各々抽出するステップと、
前記数値微分算出手段によって、前記基本周波数抽出手段によって抽出された前記第１音響信号の基本周波数時系列の１階微分時系列及び２階微分時系列を各々算出するステップと、
前記パラメータ推定手段によって、前記第２音響信号の基本周波数時系列に対する前記第１音響信号の基本周波数時系列の引き込み現象をモデル化し、かつ、前記第１音響信号の基本周波数時系列、前記第２音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列、前記１階微分時系列、及び前記２階微分時系列の関係を表わす２階の微分方程式を用いて、前記基本周波数抽出手段によって抽出された前記第１音響信号の基本周波数時系列、前記第２音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列と、前記数値微分算出手段によって算出された前記１階微分時系列及び前記２階微分時系列とに基づいて、前記２階の微分方程式のパラメータを、基本周波数生成系のフィルタ特性のパラメータとして推定するステップと、
を含んで実行することを特徴とする基本周波数モデルパラメータ推定方法。
【請求項６】
前記２階の微分方程式を、以下の式で表した請求項５記載の基本周波数モデルパラメータ推定方法。
【数２】

ただし、Ｆ₀（ｔ）は、前記第１音響信号の基本周波数時系列を表わし、Ｖ（ｔ）は、前記第２音響信号の基本周波数時系列を表わし、Ｕ（ｔ）は、前記音高目標値時系列の基本周波数時系列を表わす。ｄ²Ｆ₀（ｔ）／ｄｔ²は、前記２階微分時系列を表わし、ｄＦ₀（ｔ）／ｄｔは、前記１階微分時系列を表わす。ａ₁、ａ₂、ａ₃、ａ₄は、前記基本周波数生成系のフィルタ特性のパラメータである。
【請求項７】
前記基本周波数生成系のフィルタ特性のパラメータを推定するステップは、前記パラメータ推定手段によって、前記基本周波数抽出手段によって抽出された前記第１音響信号の基本周波数時系列、前記第２音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列と、前記数値微分算出手段によって算出された前記１階微分時系列及び前記２階微分時系列とを用いた重回帰分析により、前記２階の線形微分方程式のパラメータを推定する請求項５または６記載の基本周波数モデルパラメータ推定方法。
【請求項８】
正規化手段によって、前記基本周波数抽出手段によって抽出された前記第１音響信号の基本周波数時系列、前記第２音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列と、前記数値微分算出手段によって算出された前記１階微分時系列及び前記２階微分時系列とを正規化するステップを更に含み、
前記基本周波数生成系のフィルタ特性のパラメータを推定するステップは、前記パラメータ推定手段によって、前記正規化手段によって正規化された前記第１音響信号の基本周波数時系列、前記第２音響信号の基本周波数時系列、及び前記音高目標値時系列の基本周波数時系列と、前記数値微分算出手段によって算出された前記１階微分時系列及び前記２階微分時系列とに基づいて、前記２階の線形微分方程式のパラメータを推定する請求項５〜請求項７の何れか１項記載の基本周波数モデルパラメータ推定方法。
【請求項９】
コンピュータを、請求項１〜請求項４の何れか１項記載の基本周波数モデルパラメータ推定装置の各手段として機能させるためのプログラム。

【図１】