説明

追従性評価システム,カラオケシステムおよびプログラム

【課題】どの程度テンポに合わせて歌唱できているのかといったことを判定するための技術を提供する。
【解決手段】模範音声および歌唱音声を照合することにより、歌唱変化タイミングと模範変化タイミングとの時間差が算出され(s170,s180)、この時間差の系列における時間差の変化パターンに含まれる周期性が低いほど、対象楽曲に対する歌唱の追従性として高い評価値を決定し(s190,s200)、この評価値をカラオケ装置3側で表示させる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ユーザが対象楽曲を歌唱した際の歌唱音声につき、その対象楽曲に対する歌唱の追従性を評価するための追従性評価システムに関する。
【背景技術】
【0002】
近年、対象楽曲を歌唱してなる歌唱音声から抽出されたピッチ変化の傾向と、その対象楽曲におけるピッチ変化の傾向とに基づいて、その対象楽曲に対する歌唱の遅速を判定する、といった技術が提案されている(特許文献1参照)。
【特許文献1】特開平10−149180号公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
ただ、上記技術では、対象楽曲に対して「歌唱が遅れている」,「歌唱が速すぎる」または「丁度良い」ことを判定することしかできないため、その歌唱がどの程度対象楽曲に追従できているか,より具体的にいえばどの程度そのテンポに合わせて歌唱できているのかといったことまで判定することはできなかった。
【0004】
本発明は、このような課題を解決するためになされたものであり、その目的は、どの程度テンポに合わせて歌唱できているのかといったことを判定するための技術を提供することである。
【課題を解決するための手段】
【0005】
上記課題を解決するためには、追従性評価システムとして以下に示す第1の構成(請求項1)のようなものを考えることができる。
この構成においては、ユーザが対象楽曲を歌唱した際の歌唱音声を示す歌唱データに基づき、その対象楽曲を適切に歌唱した場合における模範音声を示す模範データを取得する模範データ取得手段と、該模範データ取得手段により取得された模範データで示される模範音声,および,前記歌唱データで示される歌唱音声を照合することで、前記模範音声において連続する構成音が変化する変化タイミング(以降「模範変化タイミング」という)それぞれが、前記歌唱音声において連続する構成音の変化する変化タイミング(以降「歌唱変化タイミング」という)のいずれに対応するのかを特定するタイミング特定手段と、前記模範変化タイミング毎に、該模範変化タイミングと該模範変化タイミングに対応するものとして前記タイミング特定手段が特定した歌唱変化タイミングとの時間差を算出する時間差算出手段と、該時間差算出手段により算出された時間差それぞれを、該算出に際して参照された前記変化タイミングの到来する順に分布させた場合における時間差の系列に基づいて、該系列における時間差の変化パターンに含まれる周期性が低いほど、前記対象楽曲に対する歌唱の追従性として高い評価値を出力する評価出力手段と、を備えている。
【0006】
このように構成された追従性評価システムでは、模範音声および歌唱音声を照合することにより、歌唱変化タイミングと模範変化タイミングとの時間差がそれぞれ算出され、この時間差の系列における時間差の変化パターンに含まれる周期性が低いほど、対象楽曲に対する歌唱の追従性として高い評価値を出力する。
【0007】
歌唱変化タイミングと模範変化タイミングとの時間差の系列は、対象楽曲に対する歌唱に追従できている,つまりテンポに合わせて適切に歌唱できていれば、その時間差の変化パターンに含まれる周期性が大きくなることはない。
【0008】
それは、歌唱変化タイミングと模範変化タイミングとの時間差が、模範楽曲における構成音の変化タイミングに対する歌唱時のズレだからであり、対象楽曲のテンポに合わせて適切に歌唱できていれば、その時間差が大きくなることはなく、時間差の系列における各時間差が大きな周期性を示すこともないからである。
【0009】
一方、対象楽曲のテンポに合わせて適切に歌唱できず、実際のテンポから遅れて歌唱したり速く歌唱してしまう場合には、模範変化タイミングにおける構成音の変化タイミングに対する歌唱時のズレ(時間差)が大きくなった後、そのズレに気付いた歌唱者が模範変化タイミングに合わせて構成音を変化させる、といった歌唱行動を繰り返すことが予想される。
【0010】
この場合、時間差の系列における各時間差が、大きくなった後それまでよりも小さくなるといった変化パターンを繰り返すようになり、これが周期的な変化となる。そして、この変化の周期性は、対象楽曲に対する歌唱に追従できていない,つまりテンポに合わせて歌唱できていないほど大きくなる。
【0011】
そのため、上述のように、歌唱変化タイミングと模範変化タイミングとの時間差の系列における変化パターンに含まれる周期性が低いほど、対象楽曲をそのテンポに合わせて適切に歌唱できているといえ、歌唱に対する追従性が高いということができる。
【0012】
つまり、上記構成のように、周期性が低いほど対象楽曲に対する歌唱の追従性として高い評価値を出力するようにすることで、その評価値を、その歌唱がどの程度対象楽曲に追従できているか,つまりどの程度そのテンポに合わせて歌唱できているのかといったことを判定した結果とすることができる。
【0013】
この構成において「評価値を出力する」とは、例えば、表示部やスピーカから評価値を示すメッセージを出力させたり、後述するカラオケ装置など別の装置にその評価値を渡して表示させたり、といったことである。
【0014】
また、この構成において、模範音声おける模範変化タイミングが、歌唱音声における歌唱変化タイミングのいずれに対応するのかを特定するに際しては、どのような手法により模範音声および歌唱音声を照合することとしてもよい。具体的な例としては、例えば、模範音声および歌唱音声それぞれの時間軸に沿った音声レベルの推移パターン(具体的な例としては、音声レベルの推移を示す波形など)を照合して変化タイミングを特定することが考えられる。
【0015】
このためには、上記第1の構成を以下に示す第1−1の構成のようにするとよい。
この構成において、前記タイミング特定手段は、前記模範音声および前記歌唱音声それぞれの時間軸に沿った音声レベルの推移パターンを照合することで、前記模範音声において連続する構成音が変化する模範変化タイミングそれぞれが、前記歌唱音声において連続する構成音が変化する歌唱変化タイミングのいずれに対応するのかを特定する。
【0016】
この構成であれば、模範音声および歌唱音声それぞれにおける音声レベルの推移パターンを照合することで、模範音声の時間軸に沿った音声レベルの推移パターンのうち、歌唱音声における構成音の歌唱変化タイミングにおける音声レベルの変化度合に所定のしきい値以上近似している模範変化タイミングを特定し、これを、その近似する歌唱変化タイミングに対応する模範変化タイミングであると特定することができる。
【0017】
この構成において照合に用いられる模範音声における音声レベルの推移パターンとしては、時間軸に沿った実際の音声レベルの推移を示す波形などを用いればよく、模範音声となる構成音それぞれの音声レベル,音価を示す情報列(具体的な例としては楽譜データ)などを用いてもよい。
【0018】
また、模範音声および歌唱音声を照合するに際しては、模範音声および歌唱音声それぞれの時間軸に沿った音高の推移パターン(具体的な例としては、音高の推移を示す波形など)を照合して変化タイミングを特定することが考えられる。
【0019】
このためには、上記第1の構成を以下に示す第2の構成(請求項2)のようにするとよい。
この構成において、前記タイミング特定手段は、前記模範音声および前記歌唱音声それぞれの時間軸に沿った音高の推移パターンを照合することで、前記模範音声において連続する構成音の音高が変化する模範変化タイミングそれぞれが、前記歌唱音声において連続する構成音の音高が変化する歌唱変化タイミングのいずれに対応するのかを特定する。
【0020】
この構成であれば、模範音声および歌唱音声それぞれにおける音高の推移パターンを照合することで、模範音声の時間軸に沿った音高の推移パターンのうち、歌唱音声における構成音の歌唱変化タイミングにおける音高の変化度合に所定のしきい値以上近似している模範変化タイミングを特定し、これを、その近似する歌唱変化タイミングに対応する模範変化タイミングであると特定することができる。
【0021】
この構成において照合に用いられる模範音声における音高の推移パターンとしては、時間軸に沿った実際の音高の推移を示す波形などを用いればよく、模範音声となる構成音それぞれの音高,音価を示す情報列(具体的な例としては楽譜データ)などを用いてもよい。
【0022】
なお、この構成では、模範音声において同一音高で連続する構成音が含まれていると、その模範変化タイミングが、歌唱音声における歌唱変化タイミングのいずれに対応する模範変化タイミングかを特定することが難しくなるため、上述した音声レベルの推移パターンによる照合方法を併用することが望ましい。
【0023】
このためには、上記第2の構成を以下に示す第3の構成(請求項3)のようにするとよい。
この構成において、前記タイミング特定手段は、前記模範音声および前記歌唱音声それぞれの時間軸に沿った音高の推移パターンを照合することで、前記模範音声において連続する構成音の音高が変化する模範変化タイミングそれぞれが、前記歌唱音声において連続する構成音の音高が変化する歌唱変化タイミングのいずれに対応する模範変化タイミングかを特定すると共に、前記模範音声および前記歌唱音声それぞれの時間軸に沿った音声レベルの推移パターンを照合することで、前記模範音声において同一音高で連続する構成音の模範変化タイミングそれぞれが、前記歌唱音声における歌唱変化タイミングのいずれに対応するのかを特定する。
【0024】
この構成であれば、模範音声および歌唱音声それぞれにおける音高の推移パターンを照合することで変化タイミングの対応関係を特定した後、音声レベルの推移パターンを照合することにより、模範音声において同一音高で連続する構成音の模範変化タイミングが、歌唱音声における歌唱変化タイミングのいずれに対応する模範変化タイミングかを特定することができる。
【0025】
そのため、模範音声において同一音高で連続する構成音が含まれていたとしても、その模範変化タイミングが、歌唱音声における歌唱変化タイミングのいずれに対応するのかを適切に特定することができるようになる。
【0026】
また、上記各構成において、歌唱の追従性を示す評価値を決定するに際しては、「時間差の系列」における時間差の変化パターンに含まれる周期性を特定する必要があるところ、その特定は、評価値を決定するタイミングで行うこととすればよく、また、その決定に先立って行うこととしてもよい。
【0027】
この後者のためには、上記各構成を以下に示す第4の構成(請求項4)のようにするとよい。
この構成においては、前記時間差算出手段により算出された時間差それぞれを、該算出に際して参照された前記変化タイミングの到来する順に分布させた場合における時間差の系列に基づいて、該系列における時間差の変化パターンに含まれる周期性を特定する周期特定手段,を備えている。そして、前記評価出力手段は、前記周期特定手段により特定された周期性が低いほど、前記対象楽曲に対する歌唱の追従性として高い評価値を出力する。
【0028】
この構成であれば、歌唱の追従性を示す評価値を決定するのに先立ち、時間差の系列における時間差の変化パターンに含まれる周期性を特定しておくことができる。
この構成における周期性の特定方法については、特に限定されないが、例えば、時間差の系列を、時間差の大きさを振幅として変化する波形とみなし、その波形の周波数成分の分布で規定される周期性を特定できるようにする、ことが考えられる。
【0029】
このための構成としては、上記第4の構成を以下に示す第5の構成(請求項5)のようにすることが考えられる。
この構成において、前記周期特定手段は、前記時間差の系列を、その算出に際して参照された前記変化タイミングの到来する順に時間差の大きさを振幅として変化する波形とみなし、該波形の周波数成分の分布を算出することにより、該分布で規定される周期性を特定して、前記評価出力手段は、前記周期特定手段により算出された周波数成分の分布に基づき、該分布している周波数成分の尖鋭度が小さいほど、前記時間差の変化パターンに含まれる周期性が低いものとして高い評価値を出力する。
【0030】
この構成であれば、「時間差の系列」を、時間差の大きさが振幅として変化する波形とみなし、その波形の周波数成分の分布を算出したうえで、その周波数成分における尖鋭度(いわゆるQ値)が小さいほど時間差の変化パターンに含まれる周期性が低いものとして、そのような場合に高い評価値を出力することしている。
【0031】
上記周波数成分の分布は、時間差の系列における周期性が大きければ、当然、特定の周波数成分のスペクトル強度が大きくなっているはずであり、周波数成分の分布においてピークが現れる。この場合、そのようにスペクトル強度が大きくなっている周波数成分については、その尖鋭度として大きな値を示すものとなっているはずである。逆に,時間差の系列における周期性が小さければ,尖鋭度は小さな値を示す.
そのため、上記構成のように、尖鋭度が小さいほど時間差の変化パターンに含まれる周期性が低いものとして、そのような場合に高い評価値を出力する構成であれば、その評価値を、対象楽曲に対する歌唱の追従性としての高い評価とすることができる。
【0032】
また、この構成においては、周波数成分の分布においてスペクトル強度が大きくなっているものであれば、いずれの周波数成分の尖鋭度に基づいて評価値を決定することとしてもよいが、そのスペクトル強度が最も大きい周波数成分の尖鋭度に基づいて決定するようにすればよい。
【0033】
この構成において、前記評価出力手段は、前記周期特定手段により算出された周波数成分の分布に基づき、該分布においてスペクトル強度が最も大きい周波数成分について、該周波数成分の尖鋭度が小さいほど、前記時間差の変化パターンに含まれる周期性が低いものとして高い評価値を決定する。
【0034】
この構成であれば、周波数成分の分布においてスペクトル強度が最も大きくなっている周波数成分の尖鋭度に基づいて評価値を決定することができる。
また、上記各構成は、以下に示す第7の構成(請求項7)のようにするとよい。
【0035】
この構成においては、ユーザによる対象楽曲の歌唱時における歌唱音声を示す歌唱データを、該歌唱された対象楽曲を識別可能な識別情報と共に取得する歌唱データ取得手段を備えており、前記模範データ取得手段は、前記歌唱データ取得手段により歌唱データと共に取得された識別情報で識別される対象楽曲につき、その対象楽曲を適切に歌唱した場合における模範音声を示す模範データを取得する。
【0036】
この構成であれば、ユーザによる対象楽曲の歌唱毎に、歌唱データを生成,取得すると共に、その歌唱データに基づいて評価値を決定して出力することができる。
なお、上記各構成における追従性評価システムは、1つの装置として構成してもよいし、それぞれ通信可能に接続された複数の装置が協調して動作するように構成してもよい。
【0037】
また、上記課題を解決するための構成としては、カラオケシステムを以下に示す第8の構成(請求項8)のようにしてもよい。
この構成においては、第1〜第7のいずれかの構成に係る追従性評価システムと、前記歌唱データで示される歌唱音声を時系列に沿って所定の区間毎に分割した単位区間それぞれについて、該単位区間の音声に関する歌唱パラメータを、該単位区間において発声すべき正しい音声に基づく理想パラメータと対比することにより、その歌唱楽曲を採点する歌唱採点手段と、該歌唱採点手段により採点された採点結果を報知する結果報知手段と、を備えている。そして、歌唱採点手段は、前記歌唱パラメータと前記理想パラメータとの対比による採点結果を、前記評価出力手段により出力された評価値に応じて加減点させることにより、最終的な採点結果を決定する。
【0038】
この構成であれば、上記各構成と同様の作用,効果を得ることができる。
さらに、上述したように出力された評価値を考慮した採点結果を報知することができる。
【0039】
また、上記課題を解決するためには、上記第1〜第8のいずれかにおける全ての手段として機能させるための各種処理手順をコンピュータシステムに実行させるためのプログラム(請求項9)としてもよい。
【0040】
このプログラムを実行するコンピュータシステムであれば、上記第1〜第8のいずれかに係る追従性評価システムの一部を構成することができる。
なお、上述したプログラムは、コンピュータシステムによる処理に適した命令の順番付けられた列からなるものであって、各種記録媒体や通信回線を介して追従性評価システム,カラオケシステムや、これを利用するユーザ等に提供されるものである。
【発明を実施するための最良の形態】
【0041】
以下に本発明の実施形態を図面と共に説明する。
(1)全体構成
追従性評価システム1は、周知のコンピュータシステムからなるサーバ2と、1以上のカラオケ装置3それぞれとが、ネットワーク100を介して通信可能に接続されてなるものである。
【0042】
サーバ2は、サーバ全体を制御する制御部21,各種情報を記憶する記憶部23,ネットワーク100を介した通信を制御する通信部25,キーボードやディスプレイなどからなるユーザインタフェース(U/I)部27,記録メディアを介して情報を入出力するメディアドライブ29などを備えている。
【0043】
カラオケ装置3は、装置全体を制御する制御部31,演奏楽曲の伴奏内容および歌詞を示す楽曲データや映像データなどを記憶する記憶部33,ネットワーク100を介した通信を制御する通信部35,各種映像の表示を行う表示部41,複数のキー・スイッチなどからなる操作部43,マイク45からの音声の入力とスピーカ47からの音声の出力とを制御する音声入出力部49などを備えている。
(2)サーバ2による追従性評価処理
以下に、サーバ2の制御部21が、内蔵メモリまたは記憶部23に記憶されているプログラムに従って実行する追従性評価処理の処理手順を図2に基づいて説明する。この追従性評価処理は、いずれかのカラオケ装置3から歌唱データを受信する(s110)ことにより開始される。
【0044】
この歌唱データは、ユーザがカラオケ装置3を使用して楽曲を歌唱した後で送信されてくるデータであり、その歌唱に係る音声の時系列に沿った音声信号をデジタル信号として示すものである。また、この歌唱データは、その歌唱に係る楽曲の識別情報(楽曲番号)が付加された状態で送信されてくるものである。なお、この歌唱データは、カラオケ装置3による歌唱とは無関係に取得されることとしてもよい。
【0045】
この追従性評価処理が起動されると、まず、その起動に際して受信した歌唱データで示される音声波形に基づいて、この音声波形が離散周波数スペクトルに変換される(s120)。
【0046】
ここでは、まず、音声波形v[i](i:時間インデックス)(図3(a)参照)を、デジタル信号としてのサンプリングのポイントを所定数n0ずつズラして時間長N0(例えば、数十ms)の時間窓w[n]で順番に切り出してなる波形素片vw[p](p=1,2,…,N0)が、下記の式1により求められる。
【0047】
【数1】

なお、この時間素片vw[p]は、時間窓w[n]の順番(番号)m,および,デジタル信号におけるサンプリング周波数Fsに基づいて下記の式2により決められる時間領域t[m]の音声波形を示すものである。
【0048】
【数2】

そして、こうして求められた波形素片vw[p]が、以下の式3により離散フーリエ変換されることにより、音声波形v[i]を変換してなる離散周波数スペクトルV[i’]が求められる。
【0049】
【数3】

次に、上記s120で変換された離散周波数スペクトルV[i’]に基づいて、この離散周波数スペクトルに含まれている調波構造の成分における基本周波数が推定される(s130)。
【0050】
ここでは、基本周波数F0とその高調波成分(倍音成分)からなる調波構造モデルVHM[i’](下記の式4)を用いて、このモデルVHM[i’]と、上記s120にて変換された離散周波数スペクトルV[i’](i’:周波数インデックス)と、の相関関係が最大になるF0が、上述した時間領域t[m]について求められ、こうして求められるF0が基本周波数vf0[m]として推定される。
【0051】
【数4】

こうして推定された基本周波数vf0[m]は、各時間窓に対応する周波数を分布させると、図3(b)に示すように、歌唱データで示される音声波形に含まれる基本周波数の推移,つまり音高の推移パターンを示すものとなる。
【0052】
次に、上記s110にて受信した歌唱データに付加された楽曲(以降「歌唱楽曲」という)の識別情報(楽曲番号)に基づき、その楽曲において発声すべき正しい音声(以降「模範音声」という)を示す模範データが、記憶部23における模範データ用の記憶領域にあらかじめ記憶されている複数種類の模範データの中から読み出される(s140)。
【0053】
この模範データは、歌唱楽曲における模範音声の時間軸に沿った音高の推移パターンを、その模範音声となる構成音それぞれの発声開始タイミングcst[k],音高cf0[k],音価clen[k]および音声レベルcvol[k]にて規定したものであり、本実施形態では、各構成音を音符として表した楽譜データである。
【0054】
次に、上記s140にて読み出された模範データで示される模範音声,および,上記s110にて受信した歌唱データで示される歌唱音声それぞれの時間軸に沿った音高の推移パターンを照合することで、模範音声において連続する構成音が変化する変化タイミング(以降「模範変化タイミング」という)それぞれが、歌唱音声において連続する構成音の変化する変化タイミング(以降「歌唱変化タイミング」という)のいずれに対応するのかが特定される(s150)。
【0055】
ここでは、まず、上記s140にて読み出された模範データで示される模範音声における音高の推移パターンに基づき、模範音声において連続する構成音の変化が開始されてから終了するまでの間の所定タイミング(本実施形態では中間地点)それぞれが模範変化タイミングとして特定される。
【0056】
続いて、歌唱音声および模範音声それぞれにおいて各模範変化タイミングを中心とする基準期間(例えば、隣接する構成音それぞれまでの期間)分の音高の推移パターンそれぞれが同一基準期間同士で照合される(図3(c)参照)。ここでは、模範音声における各基準期間の推移パターンに対し、歌唱音声における同一基準区間の推移パターンを時間軸に沿って移動させ、両推移パターンの類似度(相関関係)が最大となった際の類似度および時間軸に沿った時間差が算出される。なお、ここでの類似度(相関関係)および時間差を算出するための手法については特に限定されないが、例えば、特開2005−107330号公報に記載されている手法を用いることが考えられる。
【0057】
そして、上記照合により類似度および時間差が算出された模範変化タイミングそれぞれが、この模範変化タイミングとの照合の対象となった歌唱音声の基準期間に含まれる歌唱変化タイミングに対応するものとして特定される。
【0058】
次に、上記s110にて受信した歌唱データで示される音声波形に基づいて、この音声波形が音声レベルの推移を示すレベル波形に変換される(s160)。
ここでは、まず、上記s120と同様に、音声波形v[i](図4(a)参照)を、デジタル信号としてのサンプリングのポイントを所定数n0ずつズラして時間長N0の時間窓w[n]で順番に切り出してなる波形素片vw[p]が上記の式1により求められる。
【0059】
そして、こうして求められた波形素片vw[p]が、以下の式5により、音声レベルの推移を示すレベル波形vp[m]に変換される。
【0060】
【数5】

こうして変換されたレベル波形vp[m]は、各時間窓に対応する音声レベルを分布させると、図4(b)に示すように、歌唱データで示される音声波形における音声レベルの推移パターンを示すものとなる。
【0061】
次に、上記s140にて読み出された模範データで示される模範音声,および,上記s110にて受信した歌唱データで示される歌唱音声それぞれの時間軸に沿った音声レベルの推移パターンを照合することで、模範音声において同一音高で連続する構成音の模範変化タイミングそれぞれが、歌唱音声における歌唱変化タイミングのいずれに対応するのかが特定される(s170)。
【0062】
ここでは、まず、上記s140にて読み出された模範データで示される音声レベルの推移パターンのうち、同一音高で連続する構成音に対応する区間の推移パターンに基づき、この推移パターンにおいて連続する構成音の変化が開始されてから終了するまでの間の所定タイミング(本実施形態では中間)それぞれが模範変化タイミングとして特定される。
【0063】
続いて、歌唱音声および模範音声それぞれにおいて各模範変化タイミングを中心とする基準期間(例えば、隣接する構成音それぞれを含む期間)分の音声レベルの推移パターンそれぞれが同一基準期間同士で照合される(図4(c)参照)。ここでは、上記と同様、模範音声における各基準期間の推移パターンに対し、歌唱音声における同一基準区間の推移パターンを時間軸に沿って移動させ、両推移パターンの類似度(相関関係)が最大となった際の類似度および時間軸に沿った時間差が算出される。
【0064】
そして、上記照合により類似度および時間差が算出された模範変化タイミングそれぞれが、この模範変化タイミングとの照合の対象となった歌唱音声の基準期間に含まれる歌唱変化タイミングに対応するものとして特定し直される。
【0065】
なお、ここでは、同一音高で連続する構成音に対応する区間の推移パターンについてのみの照合を行っているが、この区間であるか否かに拘わらず照合を行うこととしてもよい。この場合、このs170にて類似度および時間差が算出された模範変化タイミングのうち、上記s150にて同様に算出がなされた模範変化タイミングよりも、その類似度として大きな値が算出された模範変化タイミングのみを、この模範変化タイミングとの照合の対象となった歌唱音声の基準期間に含まれる歌唱変化タイミングに対応するものとして特定し直すこととすればよい。
【0066】
次に、上記s140にて読み出された模範データで示される模範音声の模範変化タイミング毎に、その模範変化タイミングと、この模範変化タイミングに対応するものとして上記s150またはs170で特定された歌唱変化タイミングとの時間差の系列が生成される(s180)。ここでは、上記s150,s170における特定の過程で算出された時間差が、その変化タイミングが到来する順に配列され、こうして分布されてなる時間差の系列vdt[k](k:変化タイミングのインデックス)が生成される。
【0067】
この時間差の系列は、対象楽曲に対する歌唱の追従性が高い区間に対応する時間差が小さい値を示し、追従性が低い区間に対応する時間差が大きくなる。このように追従性が低い区間は、追従性の高低を規定する時間差が大きくなり、歌唱者が歌唱に伴って違和感を持つ結果、その時間差をリセットすべく早口でまたはゆっくりと歌唱するといった行動をとることが一般的である。
【0068】
そして、このような行動は、対象楽曲のテンポに追従して歌唱することができていれば、繰り返し生じることはないが、対象楽曲のテンポに追従できていないほど、繰り返し生じることになる。つまり、時間差の系列は、対象楽曲のテンポに追従できていない場合に時間差が小さくなる区間が生じ、そのテンポに追従できていない度合いが大きくなるほど、そのように時間差が小さくなる区間の発生頻度が高くなり、そのような区間が系列全体でみた場合に周期的に繰り返されたものとなる。
【0069】
次に、上記s180にて生成された時間差の系列に基づいて、この系列における時間差の変化パターンに含まれる周期性が特定される(s190)。
ここでは、時間差の系列を、その算出に際して参照された変化タイミングの到来する順に時間差の大きさを振幅として変化する波形とみなし(図5(a)参照)、その波形の周波数スペクトルの分布VDT[k]を下記の式6にて算出することにより、この分布で規定される周期性が特定される。
【0070】
【数6】

こうして特定された周波数スペクトルの分布VTD[k]は、各変化タイミングについてスペクトル強度を分布させると、図5(b)に示すように、時間差の変化パターンに含まれる周期性が高いほど、その周期性に応じた周波数成分のスペクトル強度が大きくなる。つまり、この周波数スペクトルの分布VTD[k]は、スペクトル強度が大きいほど、そのスペクトル強度に対応する周波数成分についての周期性が高いということを示す。
【0071】
そして、上記s190にて特定された周期性に基づいて、上記s110で受信された歌唱データで示される歌唱音声における歌唱の追従性を評価してなる評価値が決定される(s200)。
【0072】
ここでは、上記s190にて特定された周波数スペクトルの分布VTD[k]において、その分布している所定の周波数成分(例えば、最もスペクトル強度の大きい周波数成分)の尖鋭度Qが小さいほど、時間差の変化パターンに含まれる周期性が低いものとして高い評価値を決定する。
【0073】
具体的には、上記周波数成分におけるピークとなる時間インデックスkを「k0」とし、そのピークから1/2の大きさになる時間インデックスkの幅を「Δk」とした場合にk0とΔkとの比(k0/Δk)により尖鋭度Qが求められ、この尖鋭度Qの逆数が評価値SC(=1/Q)として決定される。
【0074】
なお、このs200では、上述した評価値SCの決定だけでなく、歌唱データに基づいて周知の採点を行い、その採点結果を、評価値SCに応じて加減点させることにより、最終的な採点結果を決定することとしてもよい。ここでの採点は、例えば、歌唱データで示される歌唱音声を時系列に沿って所定の区間毎に分割した単位区間それぞれについて、その単位区間の音声に関する歌唱パラメータを、その単位区間において発声すべき正しい音声に基づく理想パラメータと対比することにより、単位区間それぞれにおけるパラメータの誤差に応じた値を採点結果とすればよい。
【0075】
そして、このs200にて決定された評価値SC(または評価値と採点結果;以降「評価値等」という)が、楽曲データの送信元であるカラオケ装置3へと返信された後(s210)、本追従性評価処理が終了する。
【0076】
この評価値等を受信したカラオケ装置3では、後述する楽曲演奏処理により、その評価値等の表示部41への表示を行うこととなる。
(3)カラオケ装置3による楽曲演奏処理
以下に、カラオケ装置3の制御部31が内蔵メモリまたは記憶部33に記憶されたプログラムに従って実行する楽曲演奏処理の処理手順を図6に基づいて説明する。この楽曲演奏処理は、カラオケ装置3が起動した以降、繰り返し実行される。
【0077】
この楽曲演奏処理が起動されると、まず、ユーザにより歌唱すべき楽曲を選択するための操作が行われるまで待機状態となる(s310:NO)。
その後、楽曲を選択するための操作が行われたら(s310:YES)、そうして選択された楽曲(指定楽曲)の楽曲番号が取得される(s320)。
【0078】
次に、上記s320にて取得された楽曲番号に基づき、この楽曲番号で識別される指定楽曲を演奏するための楽曲データをカラオケ装置3に要求するための情報として、その楽曲番号,および,これと共に取得されたユーザIDを伴う通知要求が生成され(s330)、これがサーバ2に送信される(s340)。
【0079】
この通知要求を受信したサーバ2は、この通知要求に伴う楽曲番号で識別される指定楽曲を演奏するための楽曲データを返信してくるように構成されている。
こうして、上記s340で通知要求を送信した後、サーバ2から返信されてくる楽曲データが受信されたら(s350)、この楽曲データが記憶部33に記憶される(s360)。
【0080】
次に、上記s360にて記憶部33に記憶された楽曲データに基づく指定楽曲の演奏が開始されると共に(s380)、その演奏に際してマイク45から入力された音声,つまり指定楽曲を歌唱してなる音声を示す歌唱データの生成が開始される(s390)。
【0081】
こうして、指定楽曲の演奏が開始された以降、その演奏が終了するまで待機状態となった後(s400:NO)、演奏が終了したら(s400:YES)、上記s390にて開始された歌唱データの生成が終了され、その時点までに生成された歌唱データが取得される(s410)。
【0082】
次に、上記s410にて取得された歌唱データがサーバ2へと送信される(s420)。この歌唱データを受信したサーバ2は、上述した追従性評価処理により追従性の評価を行った後、その評価結果である評価値または採点結果(評価値等)を返信してくる。
【0083】
なお、ここでは、歌唱データそのものをサーバ2へと送信しているが、サーバ2側で評価値等を決定するために必要なパラメータのみをサーバ2へと送信することとしてもよい。
【0084】
そして、上記s420により歌唱データがサーバ2へと送信されてから、このサーバ2から送信されてくる評価値等が受信され(s430)、この評価値等が表示部41に表示された後(s440)、本楽曲演奏処理が終了する。
(4)作用,効果
このように構成された追従性評価システム1では、模範音声および歌唱音声を照合することにより、歌唱変化タイミングと模範変化タイミングとの時間差が算出され(図2のs170,s180)、この時間差の系列における時間差の変化パターンに含まれる周期性が低いほど、対象楽曲に対する歌唱の追従性として高い評価値を決定し(同図s190,s200)、この評価値をカラオケ装置3側で表示させている(図6のs440)。
【0085】
歌唱変化タイミングと模範変化タイミングとの時間差の系列は、対象楽曲に対する歌唱に追従できている,つまりテンポに合わせて適切に歌唱できていれば、その時間差の変化パターンに含まれる周期性が大きくなることはない。
【0086】
それは、歌唱変化タイミングと模範変化タイミングとの時間差が、模範変化タイミングにおける構成音の変化タイミングに対する歌唱時のズレだからであり、対象楽曲のテンポに合わせて適切に歌唱できていれば、その時間差が大きくなることはなく、時間差の系列における各時間差が周期的に変化することもないからである。
【0087】
一方、対象楽曲のテンポに合わせて適切に歌唱できず、実際のテンポから遅れて歌唱したり速く歌唱してしまう場合には、模範変化タイミングにおける構成音の変化タイミングに対する歌唱時のズレ(時間差)が大きくなった後、そのズレに気付いた歌唱者が模範変化タイミングに合わせて構成音を変化させる、といった歌唱行動を繰り返すことが予想される。
【0088】
この場合、時間差の系列における各時間差が、大きくなった後それまでよりも小さくなるといった変化パターンを繰り返すようになり、これが周期的な変化となる。そして、この変化の周期性は、対象楽曲に対する歌唱に追従できていない,つまりテンポに合わせて歌唱できていないほど大きくなる。
【0089】
そのため、上述のように、歌唱変化タイミングと模範変化タイミングとの時間差の系列における変化パターンに含まれる周期性が低いほど、対象楽曲をそのテンポに合わせて適切に歌唱できているといえ、歌唱に対する追従性が高いということができる。
【0090】
つまり、上記構成のように、周期性が低いほど対象楽曲に対する歌唱の追従性として高い評価値を出力するようにすることで、その評価値を、その歌唱がどの程度対象楽曲に追従できているか,つまりどの程度そのテンポに合わせて歌唱できているのかといったことを判定した結果とすることができる。
【0091】
また、上記実施形態においては、模範音声および歌唱音声それぞれにおける音高の推移パターンを照合することで、模範音声の時間軸に沿った音高の推移パターンのうち、歌唱音声における構成音の歌唱変化タイミングにおける音高の変化度合に所定のしきい値以上近似している模範変化タイミングを特定し、これを、その近似する歌唱変化タイミングに対応する模範変化タイミングであると特定することができる(図2のs150)。
【0092】
また、上記実施形態においては、模範音声および歌唱音声それぞれにおける音高の推移パターンを照合することで変化タイミングの対応関係を特定した後(図2のs150)、音声レベルの推移パターンを照合することにより、模範音声において同一音高で連続する構成音の模範変化タイミングが、歌唱音声における歌唱変化タイミングのいずれに対応する模範変化タイミングかを特定することができる(同図s170)。
【0093】
そのため、模範音声において同一音高で連続する構成音が含まれていたとしても、その模範変化タイミングが、歌唱音声における歌唱変化タイミングのいずれに対応するのかを適切に特定することができるようになる(図4参照)。
【0094】
また、上記実施形態においては、歌唱の追従性を示す評価値を決定するのに先立ち、時間差の系列における時間差の変化パターンに含まれる周期性を特定しておくことができる(図2のs190)。
【0095】
また、上記実施形態においては、「時間差の系列」を、時間差の大きさが振幅として変化する波形とみなし(図5(a)参照)、その波形における周波数スペクトルの分布VTD[k]を算出したうえで(図2のs190)、その周波数成分における尖鋭度(いわゆるQ値)が小さいほど時間差の変化パターンに含まれる周期性が低いものとして、そのような場合に高い評価値を決定することしている(同図s200)。
【0096】
上記周波数スペクトルの分布VTD[k]は、時間差の系列における周期性が大きければ、当然、特定の周波数成分のスペクトル強度が大きくなっているはずであり(図5(b)参照)、この場合、そのようにスペクトル強度が大きくなっている周波数成分については、その尖鋭度として大きな値を示すものとなっているはずである。逆に,時間差の系列における周期性が低い場合には,尖鋭度は小さな値となる。
【0097】
そのため、上記構成のように、尖鋭度が小さいほど時間差の変化パターンに含まれる周期性が低いものとして、そのような場合に高い評価値を出力する構成であれば、その評価値を、対象楽曲に対する歌唱の追従性としての高い評価とすることができる。
【0098】
また、上記実施形態においては、周波数成分の分布においてスペクトル強度が最も大きくなっている周波数成分の尖鋭度に基づいて評価値を決定することができる(図5(b)参照)。
【0099】
また、上記実施形態においては、カラオケ装置3側でユーザによる歌唱が行われる毎に、その歌唱に係る歌唱データを取得したうえで(図2のs110)、この歌唱データに基づいて評価値を決定,出力することができる(同図s200,図6のs440)。
【0100】
また、上記実施形態において、歌唱についての採点を行ったうえで、その採点結果を評価値に応じて加減点するように構成した場合であれば、上述したように決定された評価値を考慮した採点結果を報知することができる(図6のs440)。
(5)変形例
以上、本発明の実施の形態について説明したが、本発明は、上記実施形態に何ら限定されることはなく、本発明の技術的範囲に属する限り種々の形態をとり得ることはいうまでもない。
【0101】
例えば、上記実施形態においては、カラオケ装置3の表示部41への表示という態様で評価値を出力するように構成されている(図6のs440)。しかし、この評価値の出力は、例えば、評価値を示すメッセージをサーバ2の表示部やスピーカなどで出力することで実現してもよい。
【0102】
また、上記実施形態においては、模範音声および歌唱音声それぞれにおける音高の推移パターンの照合を行ったうえで(図2のs150)、模範音声および歌唱音声それぞれにおける音声レベルの推移パターンを照合するように構成されている(同図s170)。
【0103】
しかし、この音高の推移パターンの照合を行うことなく、音声レベルの推移パターンのみの照合により、変化タイミングの対応関係を特定するように構成してもよい。
また、上記実施形態においては、周波数成分の分布においてスペクトル強度が最も大きくなっている周波数成分の尖鋭度を参照して評価値を決定している(図5(b)参照)。しかし、この評価値を決定する際の周波数成分の尖鋭度としては、他の周波数成分の尖鋭度を参照することとしてもよい。
【0104】
また、上記実施形態においては、模範データが、模範音声の構成音それぞれを音符として表した楽譜データである場合を例示した。しかし、この模範データは、模範音声における音高または音声レベルの波形を示すデータとしてもよい。
【0105】
また、上記実施形態では、追従性評価システム1として、サーバ2およびカラオケ装置3が協調して動作するように構成された場合を例示した。しかし、この追従性評価システム1は、カラオケ装置3側に実装された機能をサーバ2に実装させることにより、このサーバ2単体からなる構成としてもよい。
【0106】
また、上記実施形態におけるサーバ2は、このサーバ2による処理の一部,例えば履歴蓄積処理の一部または全部を他の装置と協調して実施することにより、全体としてサーバ2として機能するようにできることはいうまでもない。
【0107】
また、上記実施形態においては、模範変化タイミングと歌唱変化タイミングとの時間差を算出するにあたり、推移パターンを照合するように構成されているものを例示した。しかし、この対応関係を特定するにあたっては、両変化タイミングの時間差を算出するにあたっては、歌唱音声を音声認識してなる文字およびその歌唱されたタイミングを、対象楽曲の歌詞を構成する文字およびその歌唱されるタイミングと対比することにより、その時間差を算出することとしてもよい。
【0108】
また、上記実施形態においては、図2のs130で基本周波数を推定するにあたり、上記式4のモデルVHM[i’]を用いるように構成されたものを例示した。しかし、この基本周波数を推定する際に用いるモデルは、このモデルに限られない。例えば、下記に示す式7のモデルを用いることが考えられる。
【0109】
【数7】

なお、この式7における「σ」は、スペクトルの広がりを調整するためのパラメータであり、分布のピーク値から所定割合X%(数十%;本実施形態の条件では約37%)の値に小さくなるまでの周波数インデックスiのズレを示す。この値が小さいほど調波構造の各成文は細く尖った形状となり、逆に大きいほど太くなめらかな形状となる。そして、この「σ」の値としては、上記所定割合X%よりも小さい値(具体的な例としては10〜20%程度)に設定しておけばよい。
(6)本発明との対応関係
以上説明した実施形態において、図2のs140が本発明における模範データ取得手段であり、同図s150,s170が本発明におけるタイミング特定手段であり、同図s150,s170,s180が本発明における時間差算出手段であり、同図s200が本発明における歌唱採点手段であり、同図s200,s210,図6のs440が本発明における評価出力手段であり、同図s190が本発明における周期特定手段であり、図6のs390,s410が本発明における歌唱データ取得手段であり、同図s440が本発明における結果報知手段である。
【図面の簡単な説明】
【0110】
【図1】追従性評価システムの全体構成を示すブロック図
【図2】履歴蓄積処理を示すフローチャート
【図3】音高の推移パターンに基づいて変化タイミングの対応関係を特定する様子を示す図
【図4】音声レベルの推移パターンに基づいて変化タイミングの対応関係を特定する様子を示す図
【図5】時間差の系列における変化パターンの周期性を特定する様子を示す図
【図6】楽曲演奏処理を示すフローチャート
【符号の説明】
【0111】
1…追従性評価システム、2…サーバ、21…制御部、23…記憶部、25…通信部、27…ユーザインタフェース部、29…メディアドライブ、3…カラオケ装置、31…制御部、33…記憶部、35…通信部、41…表示部、43…操作部、45…マイク、47…スピーカ、49…音声入出力部、100…ネットワーク。

【特許請求の範囲】
【請求項1】
ユーザが対象楽曲を歌唱した際の歌唱音声を示す歌唱データに基づき、その対象楽曲を適切に歌唱した場合における模範音声を示す模範データを取得する模範データ取得手段と、
該模範データ取得手段により取得された模範データで示される模範音声,および,前記歌唱データで示される歌唱音声を照合することで、前記模範音声において連続する構成音が変化する変化タイミング(以降「模範変化タイミング」という)それぞれが、前記歌唱音声において連続する構成音の変化する変化タイミング(以降「歌唱変化タイミング」という)のいずれに対応するのかを特定するタイミング特定手段と、
前記模範変化タイミング毎に、該模範変化タイミングと該模範変化タイミングに対応するものとして前記タイミング特定手段が特定した歌唱変化タイミングとの時間差を算出する時間差算出手段と、
該時間差算出手段により算出された時間差それぞれを、該算出に際して参照された前記変化タイミングの到来する順に分布させた場合における時間差の系列に基づいて、該系列における時間差の変化パターンに含まれる周期性が低いほど、前記対象楽曲に対する歌唱の追従性として高い評価値を出力する評価出力手段と、を備えている
ことを特徴とする追従性評価システム。
【請求項2】
前記タイミング特定手段は、前記模範音声および前記歌唱音声それぞれの時間軸に沿った音高の推移パターンを照合することで、前記模範音声において連続する構成音の音高が変化する模範変化タイミングそれぞれが、前記歌唱音声において連続する構成音の音高が変化する歌唱変化タイミングのいずれに対応するのかを特定する
ことを特徴とする請求項1に記載の追従性評価システム。
【請求項3】
前記タイミング特定手段は、前記模範音声および前記歌唱音声それぞれの時間軸に沿った音高の推移パターンを照合することで、前記模範音声において連続する構成音の音高が変化する模範変化タイミングそれぞれが、前記歌唱音声において連続する構成音の音高が変化する歌唱変化タイミングのいずれに対応する模範変化タイミングかを特定すると共に、前記模範音声および前記歌唱音声それぞれの時間軸に沿った音声レベルの推移パターンを照合することで、前記模範音声において同一音高で連続する構成音の模範変化タイミングそれぞれが、前記歌唱音声における歌唱変化タイミングのいずれに対応するのかを特定する
ことを特徴とする請求項2に記載の追従性評価システム。
【請求項4】
前記時間差算出手段により算出された時間差それぞれを、該算出に際して参照された前記変化タイミングの到来する順に分布させた場合における時間差の系列に基づいて、該系列における時間差の変化パターンに含まれる周期性を特定する周期特定手段,を備え、
前記評価出力手段は、前記周期特定手段により特定された周期性が低いほど、前記対象楽曲に対する歌唱の追従性として高い評価値を出力する
ことを特徴とする請求項1から3のいずれかに記載の追従性評価システム。
【請求項5】
前記周期特定手段は、前記時間差の系列を、その算出に際して参照された前記変化タイミングの到来する順に時間差の大きさを振幅として変化する波形とみなし、該波形の周波数成分の分布を算出することにより、該分布で規定される周期性を特定して、
前記評価出力手段は、前記周期特定手段により算出された周波数成分の分布に基づき、該分布している周波数成分の尖鋭度が小さいほど、前記時間差の変化パターンに含まれる周期性が低いものとして高い評価値を出力する
ことを特徴とする請求項4に記載の追従性評価システム。
【請求項6】
前記評価出力手段は、前記周期特定手段により算出された周波数成分の分布に基づき、該分布においてスペクトル強度が最も大きい周波数成分について、該周波数成分の尖鋭度が小さいほど、前記時間差の変化パターンに含まれる周期性が低いものとして高い評価値を決定する
ことを特徴とする請求項5に記載の追従性評価システム。
【請求項7】
ユーザによる対象楽曲の歌唱時における歌唱音声を示す歌唱データを、該歌唱された対象楽曲を識別可能な識別情報と共に取得する歌唱データ取得手段を備えており、
前記模範データ取得手段は、前記歌唱データ取得手段により歌唱データと共に取得された識別情報で識別される対象楽曲につき、その対象楽曲を適切に歌唱した場合における模範音声を示す模範データを取得する
ことを特徴とする請求項1から6に記載の追従性評価システム。
【請求項8】
請求項1から7のいずれかに記載の追従性評価システムと、
前記歌唱データで示される歌唱音声を時系列に沿って所定の区間毎に分割した単位区間それぞれについて、該単位区間の音声に関する歌唱パラメータを、該単位区間において発声すべき正しい音声に基づく理想パラメータと対比することにより、その歌唱楽曲を採点する歌唱採点手段と、
該歌唱採点手段により採点された採点結果を報知する結果報知手段と、を備えており、
該歌唱採点手段は、前記歌唱パラメータと前記理想パラメータとの対比による採点結果を、前記評価出力手段により出力された評価値に応じて加減点させることにより、最終的な採点結果を決定する
ことを特徴とするカラオケシステム。
【請求項9】
請求項1から8のいずれかに記載の全ての手段として機能させるための各種処理手順をコンピュータシステムに実行させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図5】
image rotate

【図6】
image rotate

【図3】
image rotate

【図4】
image rotate


【公開番号】特開2010−85664(P2010−85664A)
【公開日】平成22年4月15日(2010.4.15)
【国際特許分類】
【出願番号】特願2008−254039(P2008−254039)
【出願日】平成20年9月30日(2008.9.30)
【出願人】(000005267)ブラザー工業株式会社 (13,856)
【Fターム(参考)】