説明

追従性評価システム,カラオケシステムおよびプログラム

【課題】どの程度テンポに合わせて歌唱できているのかといったことを判定する。
【解決手段】歌唱音声および模範音声を照合して各構成音kの発声時間vlen[k]それぞれを特定すると共に(s180)、これを対応する模範発声時間clen[k]と対比して非再現性nvlen[k]を特定し(s190)、この非再現性nvlen[k]の系列に含まれる周期性が低いほど、対象楽曲に対する歌唱の追従性として高い評価値を出力する(s210)。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ユーザが対象楽曲を歌唱した際の歌唱音声につき、その対象楽曲に対する歌唱の追従性を評価するための追従性評価システムに関する。
【背景技術】
【0002】
近年、対象楽曲を歌唱してなる歌唱音声から抽出されたピッチ変化の傾向と、その対象楽曲におけるピッチ変化の傾向とに基づいて、その対象楽曲に対する歌唱の遅速を判定する、といった技術が提案されている(特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開平10−149180号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
ただ、上記技術では、対象楽曲に対して「歌唱が遅れている」,「歌唱が速すぎる」または「丁度良い」ことを判定することしかできないため、その歌唱がどの程度対象楽曲に追従できているか,より具体的にいえばどの程度そのテンポに合わせて歌唱できているのかといったことまで判定することはできなかった。
【0005】
本発明は、このような課題を解決するためになされたものであり、その目的は、どの程度テンポに合わせて歌唱できているのかといったことを判定するための技術を提供することである。
【課題を解決するための手段】
【0006】
上記課題を解決するため第1の構成は、ユーザが対象楽曲を歌唱した際の歌唱音声を構成する構成音の変化するタイミング(以降「歌唱変化タイミング」という)それぞれが、その対象楽曲を適切に歌唱した場合における模範音声における構成音が変化するタイミング(以降「模範変化タイミング」という)cst[k](k=1〜n)のいずれに対応するかを照合するタイミング照合手段と、前記歌唱変化タイミングそれぞれにつき、該歌唱変化タイミングに対応するものとして前記タイミング照合手段に照合された前記模範変化タイミングを基準とするタイミングのズレ量vdt[k]を特定するズレ特定手段と、それぞれ隣接する前記模範変化タイミングcst[k],cst[k+1],および,該模範変化タイミングについて前記ズレ特定手段が特定したズレ量vdt[k],vdt[k+1]に基づいて、前記歌唱音声における構成音それぞれの発声時間vlen[k]を特定する発声特定手段と、前記発声特定手段により特定された発声時間vlen[k]それぞれを、該発声時間vlen[k]の特定時に参照された模範変化タイミングcst[k],cst[k+1]の区間を適切に発声した場合における模範発声時間clen[k]と対比することにより、発声時間vlen[k]における模範発声時間clen[k]の非再現性nvlen[k]を特定する再現性特定手段と、前記再現性特定手段により特定された非再現性nvlen[k]それぞれを、該特定に際して参照された前記模範変化タイミングcst[k]の到来する順に分布させた場合における非再現性の系列に基づいて、該系列における非再現性の変化パターンに含まれる周期性が低いほど、前記対象楽曲に対する歌唱の追従性として高い評価値を出力する評価出力手段と、を備えている。
【0007】
このように構成された追従性評価システムでは、歌唱音声および模範音声を照合して各構成音の発声時間それぞれを特定すると共に、これを対応する模範発声時間と対比して非再現性を特定し、この非再現性の系列に含まれる周期性が低いほど、対象楽曲に対する歌唱の追従性として高い評価値を出力する。
【0008】
非再現性の系列は、対象楽曲に対する歌唱に追従できている,つまりテンポに合わせて適切に歌唱できていれば、その系列における変化パターンに大きな周期性が現れることはない。それは、対象楽曲のテンポに合わせて適切に歌唱できていれば、模範発声時間の非再現性が大きくなることはなく、一定の大きさで推移するため、大きな周期性を持った変化パターンとはなりえないからである。
【0009】
一方、対象楽曲のテンポに合わせて適切に歌唱できず、実際のテンポから遅れて歌唱したり速く歌唱してしまう場合には、模範発声時間の非再現性が大きくなった後、非再現性の大きさに起因する歌唱タイミングのズレに気付いた歌唱者が模範変化タイミングに合わせて構成音の音高を変化させる、といった歌唱行動を繰り返すことが予想される。
【0010】
この場合、模範発声時間の非再現性が、大きくなった後それまでよりも小さくなるといった変化パターンを繰り返すようになり、これが系列において大きな周期性として現れるようになる。そして、この周期性は、対象楽曲に対する歌唱に追従できていない,つまりテンポに合わせて歌唱できていないほど大きくなる。
【0011】
そのため、上述のように、模範発声時間の非再現性の系列に含まれる周期性が低いほど、対象楽曲をそのテンポに合わせて適切に歌唱できているといえ、歌唱に対する追従性が高いということができる。
【0012】
つまり、上記構成のように、周期性が低いほど対象楽曲に対する歌唱の追従性として高い評価値を出力するようにすることで、その評価値を、その歌唱がどの程度対象楽曲に追従できているか,つまりどの程度そのテンポに合わせて歌唱できているのかといったことを判定した結果とすることができる。
【0013】
この構成において「評価値を出力する」とは、例えば、表示部やスピーカから評価値を示すメッセージを出力させたり、後述するカラオケ装置など別の装置にその評価値を渡して処理させたり、といったことである。
【0014】
また、この構成において、歌唱音声における構成音それぞれの発声時間vlen[k]を特定するに際しては、例えば、{cst[k+1]+vdt[k+1]}−{cst[k]+vdt[k]}といった数式に従って算出した値を、発声時間vlen[k]として特定するようにすることが考えられる。
【0015】
また、上記構成における「非再現性」とは、歌唱音声における実際の発声時間が、同一構成音の模範発声時間をどの程度再現できていないのか、を示すものであり、例えば、発声時間vlen[k]と模範発声時間clen[k]との比(=vlen[k]/clen[k],または,clen[k]/vlen[k])として算出した値を、「1」から離れるほど大きくなる非再現性nvlen[k]として特定するようにすることが考えられる。
【0016】
また、上記構成において、模範音声おける模範変化タイミングが、歌唱音声における歌唱変化タイミングのいずれに対応するのかを特定するに際しては、どのような手法で模範音声と歌唱音声とを照合することとしてもよい。
【0017】
具体的な例としては、例えば、模範音声および歌唱音声それぞれの時間軸に沿った音高の推移パターン(具体的な例としては、音高の推移を示す波形など)を照合して変化タイミングを特定することが考えられる。
【0018】
このためには、上記第1の構成を以下に示す第2の構成(請求項2)のようにするとよい。
この構成において、前記タイミング照合手段は、前記歌唱音声および前記模範音声それぞれの時間軸に沿った音高の推移パターンを照合することで、前記歌唱音声において音高が変化する前記歌唱変化タイミングそれぞれが、前記模範音声における前記模範変化タイミングcst[k]のいずれに対応するのかを特定する。
【0019】
この構成であれば、模範音声および歌唱音声それぞれにおける音高の推移パターンを照合することで、例えば、模範音声の時間軸に沿った音高の推移パターンのうち、歌唱音声における構成音の歌唱変化タイミングにおける推移パターンに所定のしきい値以上近似している模範変化タイミングを特定し、これを、その近似する歌唱変化タイミングに対応する模範変化タイミングであると特定することができる。
【0020】
この構成において照合に用いられる模範音声における音高の推移パターンとしては、時間軸に沿った実際の音高の推移を示す波形などを用いればよく、模範音声となる構成音それぞれの音高,音価を示す情報列(具体的な例としては楽譜データ)などを用いてもよい。
【0021】
なお、この構成では、模範音声において同一音高で連続する構成音が含まれていると、その模範変化タイミングが、音高の推移だけで対応関係を特定することが難しくなるため、別の照合方法を併用することが望ましい。この場合における「別の照合方法」としては、例えば、音声レベルの推移パターンによる照合方法が考えられる。
【0022】
この構成において、前記タイミング照合手段は、前記歌唱音声の時間軸に沿った区間のうち、前記模範変化タイミングとの対応関係を特定した歌唱変化タイミングで挟まれ,かつ,前記対応関係を特定していない前記模範変化タイミングcst[k]に対応する区間について、該区間において音声レベルが一定以下になるタイミングを、前記対応関係が特定されなかった前記模範変化タイミングcst[k]に対応する前記歌唱変化タイミングとして特定する。
【0023】
この構成であれば、模範音声および歌唱音声それぞれにおける音高の推移パターンを照合することで変化タイミングの対応関係を特定した後、ここで対応関係が特定されなかった区間について、音声レベルの推移パターンを照合することにより、模範音声において同一音高で連続する構成音の模範変化タイミングが、歌唱音声における歌唱変化タイミングのいずれに対応する模範変化タイミングかを特定することができる。
【0024】
そのため、模範音声において同一音高で連続する構成音が含まれていたとしても、その模範変化タイミングが、歌唱音声における歌唱変化タイミングのいずれに対応するのかを適切に特定することができるようになる。
【0025】
また、上記各構成において、歌唱の追従性を示す評価値を決定するに際しては、「非再現性の系列」に含まれる周期性を特定する必要があるところ、その特定は、評価値を決定するタイミングで行うこととすればよく、また、その決定に先立って行うこととしてもよい。
【0026】
この後者のためには、上記各構成を以下に示す第4の構成(請求項4)のようにするとよい。
この構成においては、前記非再現性の系列に含まれる周期性を特定する周期特定手段,を備えている。そして、前記評価出力手段は、前記周期特定手段により特定された周期性が低いほど、前記対象楽曲に対する歌唱の追従性として高い評価値を出力する。
【0027】
この構成であれば、歌唱の追従性を示す評価値を決定するのに先立ち、非再現性の系列に含まれる周期性を特定しておくことができる。
この構成における周期性の特定方法については、特に限定されないが、例えば、非再現性の系列を、非再現性の大きさを振幅として変化する波形とみなし、その波形の周波数成分の分布で規定される周期性を特定できるようにする、ことが考えられる。
【0028】
このための構成としては、上記第4の構成を以下に示す第5の構成(請求項5)のようにすることが考えられる。
この構成において、前記周期特定手段は、前記非再現性の系列を、非再現性の大きさを振幅として前記模範変化タイミングcst[k]の到来する順に変化する波形とみなし、該波形の周波数成分の分布を算出することにより、該分布で規定される周期性を特定して、前記評価出力手段は、前記周期特定手段により算出された周波数成分の分布に基づき、該分布している周波数成分の尖鋭度が小さいほど、前記時間差の変化パターンに含まれる周期性が低いものとして高い評価値を出力する。
【0029】
この構成であれば、「非再現性の系列」を、非再現性の大きさが振幅として変化する波形とみなし、その波形の周波数成分の分布を算出したうえで、その周波数成分における尖鋭度(いわゆるQ値)が小さいほど変化パターンに含まれる周期性が低いものとして、そのような場合に高い評価値を出力することしている。
【0030】
上記周波数成分の分布は、非再現性の系列における周期性が大きければ、当然、特定の周波数成分のスペクトル強度が大きくなっているはずであり、周波数成分の分布においてピークが現れる。この場合、そのようにスペクトル強度が大きくなっている周波数成分については、その尖鋭度として大きな値を示すものとなっているはずである。逆に,非再現性の系列における周期性が小さければ,尖鋭度は小さな値を示す。
【0031】
そのため、上記構成のように、尖鋭度が小さいほど変化パターンに含まれる周期性が低いものとして、そのような場合に高い評価値を出力する構成であれば、その評価値を、対象楽曲に対する歌唱の追従性としての高い評価とすることができる。
【0032】
また、この構成においては、周波数成分の分布においてスペクトル強度が大きくなっているものであれば、いずれの周波数成分の尖鋭度に基づいて評価値を決定することとしてもよいが、そのスペクトル強度が最も大きい周波数成分の尖鋭度に基づいて決定するようにすればよい。
【0033】
このためには、上記構成を以下に示す第6の構成(請求項6)のようにするとよい。
この構成において、前記評価出力手段は、前記周期特定手段により算出された周波数成分の分布に基づき、該分布においてスペクトル強度が最も大きい周波数成分について、該周波数成分の尖鋭度が小さいほど、前記時間差の変化パターンに含まれる周期性が低いものとして高い評価値を決定する。
【0034】
この構成であれば、周波数成分の分布においてスペクトル強度が最も大きくなっている周波数成分の尖鋭度に基づいて評価値を決定することができる。
また、上記各構成は、以下に示す第7の構成(請求項7)のようにするとよい。
【0035】
この構成においては、ユーザによる対象楽曲の歌唱時における歌唱音声を示す歌唱データを、該歌唱された対象楽曲を識別可能な識別情報と共に取得する歌唱データ取得手段,を備えている。そして、前記タイミング照合手段は、前記歌唱データ取得手段により歌唱データで示される歌唱音声を、前記歌唱データと共に取得された識別情報で識別される対象楽曲の模範音声と照合する。
【0036】
この構成であれば、ユーザによる対象楽曲の歌唱毎に歌唱データを取得すると共に、その歌唱データに基づいて評価値を決定して出力することができる。
なお、上記各構成における追従性評価システムは、1つの装置として構成してもよいし、それぞれ通信可能に接続された複数の装置が協調して動作するように構成してもよい。
【0037】
また、上記課題を解決するための構成としては、カラオケシステムを以下に示す第8の構成(請求項8)のようにしてもよい。
この構成においては、請求項1から7のいずれかに記載の追従性評価システムと、前記歌唱データで示される歌唱音声を時系列に沿って所定の区間毎に分割した単位区間それぞれについて、該単位区間の音声に関する歌唱パラメータを、該単位区間において発声すべき正しい音声に基づく理想パラメータと対比することにより、その歌唱楽曲を採点する歌唱採点手段と、前記歌唱採点手段により採点された採点結果を報知する結果報知手段と、を備えている。
【0038】
そして、前記歌唱採点手段は、前記歌唱パラメータと前記理想パラメータとの対比による採点結果を、前記評価出力手段により出力された評価値に応じて加減点させることにより、最終的な採点結果を決定する。
【0039】
この構成であれば、上記各構成と同様の作用,効果を得ることができる。さらに、上述したように出力された評価値を考慮した採点結果を報知することができる。
また、上記課題を解決するためには、上記第1〜第8のいずれかにおける全ての手段として機能させるための各種処理手順をコンピュータシステムに実行させるためのプログラム(請求項9)としてもよい。
【0040】
このプログラムを実行するコンピュータシステムであれば、上記第1〜第8のいずれかに係る追従性評価システムの一部を構成することができる。
なお、上述したプログラムは、コンピュータシステムによる処理に適した命令の順番付けられた列からなるものであって、各種記録媒体や通信回線を介して追従性評価システム,カラオケシステムや、これを利用するユーザ等に提供されるものである。
【図面の簡単な説明】
【0041】
【図1】カラオケシステムの全体構成を示すブロック図
【図2】追従性評価処理を示すフローチャート
【図3】音高の推移パターンに基づいて変化タイミングの対応関係を特定する様子を示す図
【図4】音声レベルの推移パターンに基づいて変化タイミングの対応関係を特定する様子を示す図
【図5】非再現性の系列における変化のパターンの周期性を特定する様子を示す図
【図6】楽曲演奏処理を示すフローチャート
【発明を実施するための形態】
【0042】
以下に本発明の実施形態を図面と共に説明する。
(1)全体構成
カラオケシステム1は、周知のコンピュータシステムからなるサーバ2と、1以上のカラオケ装置3それぞれとが、ネットワーク100を介して通信可能に接続されてなるものである。
【0043】
サーバ2は、サーバ全体を制御する制御部21,各種情報を記憶する記憶部23,ネットワーク100を介した通信を制御する通信部25,キーボードやディスプレイなどからなるユーザインタフェース(U/I)部27,記録メディアを介して情報を入出力するメディアドライブ29などを備えている。なお、このサーバ2が本発明における追従性評価システムとして機能するものである。
【0044】
カラオケ装置3は、装置全体を制御する制御部31,演奏楽曲の伴奏内容および歌詞を示す楽曲データや映像データなどを記憶する記憶部33,ネットワーク100を介した通信を制御する通信部35,各種映像の表示を行う表示部41,複数のキー・スイッチなどからなる操作部43,マイク45からの音声の入力とスピーカ47からの音声の出力とを制御する音声入出力部49などを備えている。
(2)サーバ2による追従性評価処理
以下に、サーバ2の制御部21が、内蔵メモリまたは記憶部23に記憶されているプログラムに従って実行する追従性評価処理の処理手順を図2に基づいて説明する。
【0045】
この追従性評価処理は、いずれかのカラオケ装置3から歌唱データを取得する(s110)ことにより開始される。
この歌唱データは、ユーザがカラオケ装置3を使用して楽曲を歌唱した後で送信されてくるデータであり、その歌唱に係る音声の時系列に沿った音声信号をデジタル信号として示すものである。また、この歌唱データは、その歌唱に係る楽曲の識別情報(楽曲番号)が付加された状態で送信されてくるものである。なお、この歌唱データは、カラオケ装置3による歌唱とは無関係に取得されることとしてもよい。
【0046】
この追従性評価処理が起動されると、まず、その起動に際して受信した歌唱データで示される音声波形に基づいて、この音声波形が離散周波数スペクトルに変換される(s120)。
【0047】
ここでは、まず、音声波形v[i](i:時間インデックス)(図3(a)参照)を、デジタル信号としてのサンプリングのポイントを所定数n0ずつズラして時間長N0(例えば、数十ms)の時間窓w[n]で順番に切り出してなる波形素片vw[p](p=1,2,…,N0)が、下記の式1により求められる。
【0048】
【数1】

【0049】
なお、この時間素片vw[p]は、時間窓w[n]の順番(番号)m,および,デジタル信号におけるサンプリング周波数Fsに基づいて下記の式2により決められる時間領域t[m]の音声波形を示すものである。
【0050】
【数2】

【0051】
そして、こうして求められた波形素片vw[p]が、以下の式3により離散フーリエ変換されることにより、音声波形v[i]を変換してなる離散周波数スペクトルV[i’]が求められる。
【0052】
【数3】

【0053】
次に、上記s120で変換された離散周波数スペクトルV[i’]に基づいて、この離散周波数スペクトルに含まれている調波構造の成分における基本周波数が推定される(s130)。ここでは、基本周波数F0とその高調波成分(倍音成分)からなる調波構造モデルVHM[i’](下記の式4)と、上記s120にて変換された離散周波数スペクトルV[i’](i’:周波数インデックス)と、の相関関係が最大になるF0が、上述した時間領域t[m]について求められ、こうして求められるF0が基本周波数vf0[m]として推定される。
【0054】
【数4】

【0055】
こうして推定された基本周波数vf0[m]は、各時間窓に対応する周波数を分布させると、図3(b)に示すように、歌唱データで示される音声波形に含まれる基本周波数の推移,つまり音高の推移パターンを示すものとなる。
【0056】
次に、上記s110にて受信した歌唱データに付加された楽曲(以降「歌唱楽曲」という)の識別情報(楽曲番号)に基づき、その楽曲において発声すべき正しい音声(以降「模範音声」という)を示す模範データが、記憶部23における模範データ用の記憶領域にあらかじめ記憶されている複数種類の模範データの中から読み出される(s140)。
【0057】
この模範データは、歌唱楽曲における模範音声の時間軸に沿った音高の推移パターンを、その模範音声となる構成音k(=1,2,…)それぞれの発声開始タイミングcst[k],音高cf0[k],音価clen[k]および音声レベルcvol[k]にて規定したものであり、本実施形態では、各構成音を音符として表した楽譜データである。
【0058】
次に、上記s140にて読み出された模範データで示される模範音声,および,上記s110にて受信した歌唱データで示される歌唱音声それぞれの時間軸に沿った音高の推移パターンを照合することで、模範音声において連続する構成音が変化する変化タイミング(以降「模範変化タイミング」という)それぞれが、歌唱音声において連続する構成音の変化する変化タイミング(以降「歌唱変化タイミング」という)cst[k](k=1〜n)のいずれに対応するのかが特定される(s150)。
【0059】
このs150では、まず、模範音声における音高の推移パターンに基づいて、模範音声において連続する構成音の変化が開始されてから終了するまでの間の所定タイミング(本実施形態では中間地点)それぞれが模範変化タイミングとして特定される。
【0060】
続いて、歌唱音声および模範音声それぞれにおいて各模範変化タイミングを中心とする基準期間(例えば、隣接する構成音それぞれまでの期間)分の音高の推移パターンそれぞれが同一基準期間同士で照合される(図3(c)参照)。
【0061】
ここでは、模範音声における基準期間のうち、連続する構成音の音高が変化している模範変化タイミングを中心とする各基準期間の推移パターンに対し、歌唱音声における同一基準区間の推移パターンを時間軸に沿って移動させ、両推移パターンの類似度(相関関係)が最大となった際の類似度および時間軸に沿った時間差vdt[k]が算出される。なお、ここでの類似度(相関関係)および時間差を算出するための手法については特に限定されないが、例えば、特開2005−107330号公報に記載されている手法を用いることが考えられる。
【0062】
そして、上記照合により類似度および時間差が算出された模範変化タイミングそれぞれが、この模範変化タイミングとの照合の対象となった歌唱音声の基準期間に含まれる歌唱変化タイミングに対応するものとして特定される。ここで、同一音高で連続する構成音における模範変化タイミングに関しては、推移パターンの照合および時間差vdt[k]の算出が行われないが、これら時間差vdt[k]は初期値の「0」とされる。
【0063】
次に、上記s110にて受信した歌唱データで示される音声波形に基づいて、この音声波形が音声レベルの推移を示すレベル波形に変換される(s160)。
ここでは、まず、上記s120と同様に、音声波形v[i](図3(a)参照)を、デジタル信号としてのサンプリングのポイントを所定数n0ずつズラして時間長N0の時間窓w[n]で順番に切り出してなる波形素片vw[p]が上記の式1により求められる。
【0064】
そして、こうして求められた波形素片vw[p]が、以下の式5により、音声レベルの推移を示すレベル波形vp[m]に変換される。
【0065】
【数5】

【0066】
こうして変換されたレベル波形vp[m]は、各時間窓に対応する音声レベルを分布させると、図4(a)に示すように、歌唱データで示される音声波形における音声レベルの推移パターンを示すものとなる。
【0067】
次に、上記s110にて受信した歌唱データで示される歌唱音声それぞれの時間軸に沿った区間のうち、上記s150にて模範変化タイミングとの対応関係が特定された歌唱変化タイミングで挟まれ,かつ,対応関係が特定されなかった模範変化タイミングに対応する区間について、この区間において音声レベルが一定以下になるタイミングが、その対応関係の特定されなかった模範変化タイミングに対応する歌唱変化タイミングとして特定される(s170)。
【0068】
ここでは、図4(b)に示すように、上記s160にて変換されたレベル波形のうち、該当する区間において音声レベルが最小となるタイミングが特定され、このタイミングが、該当区間において特定されなかった模範変化タイミングに対応する歌唱変化タイミングとして特定される。
【0069】
このタイミングについてはどのように特定することとしてもよいが、本実施形態では、上述した式5により変換されたレベル波形vp[m]に基づき、このレベル波形の一次微分値vp’[m]=0、および、二次微分値vp’’[m]>0の条件を同時に満たす「m」に対応するタイミングとして特定するように構成されている。
【0070】
ここでの各微分値は下記の式6,7により近似される。
一次微分値 vp’[m]=vp[m+1]−vp[m] … (式6)
二次微分値 vp’’[m]=vp’[m+1]−vp’[m] … (式7)
また、このs170では、さらに、以下の式8により、対応関係が特定された歌唱変化タイミングにおける模範変化タイミングcst[k]に対する時間差vdt[k]が算出,特定される。なお、下記の式8では、上記のように特定されたmをm0と表してある。
【0071】
【数6】

【0072】
次に、上記s150,s170にて特定された構成音kそれぞれについての時間差vdt[k]に基づいて、歌唱音声における各構成音kの発声時間vlen[k]それぞれが特定される(s180)。ここでは、ある構成音kについての時間差vdt[k]と、これに隣接する構成音k+1についての時間差vdt[k+1]と、から下記の式9により、構成音kに対する発声時間長vlen[k]が算出,特定される。
【0073】
【数7】

【0074】
次に、上記s180にて算出された発声時間vlen[k]それぞれについて、同一区間における模範発声時間clen[k]の非再現性nvlen[k]それぞれが特定される(s190)。この「非再現性」とは、歌唱音声における実際の発声時間が、同一構成音の模範発声時間をどの程度再現できていないのか、を示すものである。
【0075】
ここでは、上記s180にて特定された発声時間vlen[k]それぞれを、この発声時間vlen[k]の算出時に参照された模範変化タイミングcst[k],cst[k+1]の区間を適切に発声した場合における模範発声時間clen[k]と対比することにより、発声時間vlen[k]における模範発声時間clen[k]の非再現性nvlen[k](=vlen[k]/clen[k])が算出される。
【0076】
次に、上記s190にて特定された非再現性nvlen[k]の系列に基づいて、この系列における非再現性の変化パターンに含まれる周期性が特定される(s200)。
ここでは、非再現性の系列を、その特定に際して参照された変化タイミングの到来する順に非再現性の大きさを振幅として変化する波形とみなし(図5(a)参照)、その波形の周波数スペクトルの分布NVLEN[k]を下記の式10にて算出することにより、この分布で規定される周期性が特定される。
【0077】
【数8】

【0078】
こうして特定された周波数スペクトルの分布NVLEN[k]は、各変化タイミングについてスペクトル強度を分布させると、図5(b)に示すように、非再現性の変化パターンに含まれる周期性が高いほど、その周期性に応じた周波数成分のスペクトル強度が大きくなる。つまり、この周波数スペクトルの分布NVLEN[k]は、スペクトル強度が大きいほど、そのスペクトル強度に対応する周波数成分についての周期性が高いということを示す。
【0079】
そして、上記s200にて特定された周期性に基づいて、上記s110で受信された歌唱データで示される歌唱音声における歌唱の追従性を評価してなる評価値が決定される(s210)。
【0080】
ここでは、上記s200にて特定された周波数スペクトルの分布NVLEN[k]において、その分布している所定の周波数成分(例えば、最もスペクトル強度の大きい周波数成分)の尖鋭度Qが小さいほど、非再現性の変化パターンに含まれる周期性が低いものとして高い評価値を決定する。
【0081】
具体的には、上記周波数成分におけるピークとなる時間インデックスkを「k0」とし、そのピークから1/2の大きさになる時間インデックスkの幅を「Δk」とした場合にk0とΔkとの比(k0/Δk)により尖鋭度Qが求められ、この尖鋭度Qの逆数が評価値SC(=1/Q)として決定される。
【0082】
なお、このs210では、上述した評価値SCの決定だけでなく、歌唱データに基づいて周知の採点を行い、その採点結果を、評価値SCに応じて加減点させることにより、最終的な採点結果を決定することとしてもよい。ここでの採点は、例えば、歌唱データで示される歌唱音声を時系列に沿って所定の区間毎に分割した単位区間それぞれについて、その単位区間の音声に関する歌唱パラメータを、その単位区間において発声すべき正しい音声に基づく理想パラメータと対比することにより、単位区間それぞれにおけるパラメータの誤差に応じた値を採点結果とすればよい。
【0083】
そして、このs210にて決定された評価値SC(または評価値と採点結果;以降「評価値等」という)が、楽曲データの送信元であるカラオケ装置3へと返信された後(s220)、本追従性評価処理が終了する。
【0084】
この評価値等を受信したカラオケ装置3では、後述する楽曲演奏処理により、その評価値等の表示部41への表示を行うこととなる。
(3)カラオケ装置3による楽曲演奏処理
以下に、カラオケ装置3の制御部31が内蔵メモリまたは記憶部33に記憶されたプログラムに従って実行する楽曲演奏処理の処理手順を図6に基づいて説明する。この楽曲演奏処理は、カラオケ装置3が起動した以降、繰り返し実行される。
【0085】
この楽曲演奏処理が起動されると、まず、ユーザにより歌唱すべき楽曲を選択するための操作が行われるまで待機状態となる(s310:NO)。
その後、楽曲を選択するための操作が行われたら(s310:YES)、そうして選択された楽曲(指定楽曲)の楽曲番号が取得される(s320)。
【0086】
次に、上記s320にて取得された楽曲番号に基づき、この楽曲番号で識別される指定楽曲を演奏するための楽曲データをカラオケ装置3に要求するための情報として、その楽曲番号,および,これと共に取得されたユーザIDを伴う通知要求が生成され(s330)、これがサーバ2に送信される(s340)。
【0087】
この通知要求を受信したサーバ2は、この通知要求に伴う楽曲番号で識別される指定楽曲を演奏するための楽曲データを返信してくるように構成されている。
こうして、上記s340で通知要求を送信した後、サーバ2から返信されてくる楽曲データが受信されたら(s350)、この楽曲データが記憶部33に記憶される(s360)。
【0088】
次に、上記s360にて記憶部33に記憶された楽曲データに基づく指定楽曲の演奏が開始されると共に(s380)、その演奏に際してマイク45から入力された音声,つまり指定楽曲を歌唱してなる音声を示す歌唱データの生成が開始される(s390)。
【0089】
こうして、指定楽曲の演奏が開始された以降、その演奏が終了するまで待機状態となった後(s400:NO)、演奏が終了したら(s400:YES)、上記s390にて開始された歌唱データの生成が終了され、その時点までに生成された歌唱データが取得される(s410)。
【0090】
次に、上記s410にて取得された歌唱データがサーバ2へと送信される(s420)。この歌唱データを受信したサーバ2は、上述した追従性評価処理により追従性の評価を行った後、その評価結果である評価値または採点結果(評価値等)を返信してくる。
【0091】
なお、ここでは、歌唱データそのものをサーバ2へと送信しているが、サーバ2側で評価値等を決定するために必要なパラメータのみをサーバ2へと送信することとしてもよい。
【0092】
そして、上記s420により歌唱データがサーバ2へと送信されてから、このサーバ2から送信されてくる評価値等が受信され(s430)、この評価値等が表示部41に表示された後(s440)、本楽曲演奏処理が終了する。
(4)作用,効果
このように構成されたカラオケシステム1では、歌唱音声および模範音声を照合して各構成音kの発声時間vlen[k]それぞれを特定すると共に(図2のs180)、これを対応する模範発声時間clen[k]と対比して非再現性nvlen[k]を特定し(同図s190)、この非再現性nvlen[k]の系列に含まれる周期性が低いほど、対象楽曲に対する歌唱の追従性として高い評価値を決定する(同図s210)。
【0093】
非再現性の系列は、対象楽曲に対する歌唱に追従できている,つまりテンポに合わせて適切に歌唱できていれば、その系列における変化パターンに大きな周期性が現れることはない。それは、対象楽曲のテンポに合わせて適切に歌唱できていれば、模範発声時間clen[k]の非再現性nvlen[k]が大きくなることはなく、一定の大きさで推移するため、大きな周期性を持った変化パターンとはなりえないからである。
【0094】
一方、対象楽曲のテンポに合わせて適切に歌唱できず、実際のテンポから遅れて歌唱したり速く歌唱してしまう場合には、模範発声時間clen[k]の非再現性nvlen[k]が大きくなった後、非再現性nvlen[k]の大きさに起因する歌唱タイミングのズレに気付いた歌唱者が模範変化タイミングに合わせて構成音の音高を変化させる、といった歌唱行動を繰り返すことが予想される。
【0095】
この場合、模範発声時間clen[k]の非再現性nvlen[k]が、大きくなった後それまでよりも小さくなるといった変化パターンを繰り返すようになり、これが系列において大きな周期性として現れるようになる。そして、この周期性は、対象楽曲に対する歌唱に追従できていない,つまりテンポに合わせて歌唱できていないほど大きくなる。
【0096】
そのため、上述のように、模範発声時間clen[k]の非再現性nvlen[k]の系列に含まれる周期性が低いほど、対象楽曲をそのテンポに合わせて適切に歌唱できているといえ、歌唱に対する追従性が高いということができる。
【0097】
つまり、上記構成のように、周期性が低いほど対象楽曲に対する歌唱の追従性として高い評価値を出力するようにすることで、その評価値を、その歌唱がどの程度対象楽曲に追従できているか,つまりどの程度そのテンポに合わせて歌唱できているのかといったことを判定した結果とすることができる。
【0098】
また、上記実施形態においては、模範音声および歌唱音声それぞれにおける音高の推移パターンを照合することで、模範音声の時間軸に沿った音高の推移パターンのうち、歌唱音声における構成音の歌唱変化タイミングにおける推移パターンに所定のしきい値以上近似している(最大の類似度となっている)模範変化タイミングを特定し、これを、その近似する歌唱変化タイミングに対応する模範変化タイミングであると特定できる(図2のs150)。
【0099】
また、上記実施形態においては、模範音声および歌唱音声それぞれにおける音高の推移パターンを照合することで変化タイミングの対応関係を特定した後(図2のs150)、ここで対応関係が特定されなかった区間について、音声レベルの推移パターンを照合することにより、模範音声において同一音高で連続する構成音の模範変化タイミングが、歌唱音声における歌唱変化タイミングのいずれに対応するかを特定することができる(同図170)。
【0100】
そのため、模範音声において同一音高で連続する構成音が含まれていたとしても、その模範変化タイミングが、歌唱音声における歌唱変化タイミングのいずれに対応するのかを適切に特定することができるようになる。
【0101】
また、上記実施形態においては、歌唱の追従性を示す評価値を決定するのに先立ち、非再現性の系列に含まれる周期性を特定しておくことができる(図2のs200)。
また、上記実施形態においては、「非再現性の系列」を、非再現性の大きさが振幅として変化する波形とみなし、その波形の周波数成分の分布を算出したうえで、その周波数成分における尖鋭度(いわゆるQ値)が小さいほど変化パターンに含まれる周期性が低いものとして、そのような場合に高い評価値を出力する(図2のs200,s210)。
【0102】
上記周波数成分の分布は、非再現性の系列における周期性が大きければ、当然、特定の周波数成分のスペクトル強度が大きくなっているはずであり、周波数成分の分布においてピークが現れる。この場合、そのようにスペクトル強度が大きくなっている周波数成分については、その尖鋭度として大きな値を示すものとなっているはずである。逆に,非再現性の系列における周期性が小さければ,尖鋭度は小さな値を示す(図5参照)。
【0103】
そのため、上記実施形態のように、尖鋭度が小さいほど変化パターンに含まれる周期性が低いものとして、そのような場合に高い評価値を出力する構成であれば、その評価値を、対象楽曲に対する歌唱の追従性としての高い評価とすることができる。
【0104】
また、上記実施形態においては、周波数成分の分布においてスペクトル強度が最も大きくなっている周波数成分の尖鋭度に基づいて評価値を決定することができる(図2の210)。
【0105】
また、上記実施形態においては、ユーザによる対象楽曲の歌唱毎に歌唱データを取得すると共に(図2のs110)、その歌唱データに基づいて評価値を決定して出力することができる(同図s120〜s210)。
【0106】
また、上記実施形態においては、周知の採点を行った結果を評価値SCに応じて加減点させるように構成した場合であれば、追従性の評価として決定された評価値を考慮した採点結果を報知することができる(図2のs220)。
(5)変形例
以上、本発明の実施の形態について説明したが、本発明は、上記実施形態に何ら限定されることはなく、本発明の技術的範囲に属する限り種々の形態をとり得ることはいうまでもない。
【0107】
例えば、上記実施形態においては、カラオケ装置3の表示部41への表示という態様で評価値を出力するように構成されている(図6のs440)。しかし、この評価値の出力は、例えば、評価値を示すメッセージをサーバ2の表示部やスピーカなどで表示することで実現してもよい。
【0108】
また、上記実施形態においては、模範データが、模範音声の構成音それぞれを音符として表した音譜データである場合を例示した。しかし、この模範データは、模範音声における音高または音声レベルの波形を示すデータとしてもよい。
【0109】
また、上記実施形態では、カラオケシステム1として、サーバ2およびカラオケ装置3が協調して動作するように構成された場合を例示した。しかし、このシステムは、カラオケ装置3側に実装された機能をサーバ2に実装させることにより、サーバ2単体からなる構成としてもよい。
【0110】
また、上記実施形態におけるサーバ2は、このサーバ2による処理の一部または全部を他の装置と協調して実施することにより、他の装置を含めた全体でサーバ2として機能するようにできることはいうまでもない。
【0111】
また、上記実施形態においては、模範変化タイミングと歌唱変化タイミングとの時間差を算出するにあたり、推移パターンを照合するように構成されているものを例示した。しかし、両変化タイミングの時間差を算出するにあたっては、歌唱音声を音声認識してなる文字およびその歌唱されたタイミングを、対象楽曲の歌詞を構成する文字およびその歌唱されるタイミングと対比することにより、その時間差を算出することとしてもよい。
【0112】
また、上記実施形態においては、非再現性nvlen[k]として、vlen[k]/clen[k]により算出された値を用いるように構成されている。しかし、この非再現性nvlen[k]は、「1」から離れるほど非再現性が大きいことを示すものであればよく、例えば、clen[k]/vlen[k]により算出した値を用いてもよい。
【0113】
また、上記実施形態においては、図2のs130で基本周波数を推定するにあたり、上記式4のモデルVHM[i’]を用いるように構成されたものを例示した。しかし、この基本周波数を推定する際に用いるモデルは、このモデルに限られない。例えば、下記に示す式11のモデルを用いることが考えられる。
【0114】
【数9】

【0115】
なお、この式7における「σ」は、スペクトルの広がりを調整するためのパラメータであり、分布のピーク値から所定割合X%(数十%;本実施形態の条件では約37%)の値に小さくなるまでの周波数インデックスiのズレを示す。この値が小さいほど調波構造の各成分は細く尖った形状となり、逆に大きいほど太くなめらかな形状となる。そして、この「σ」の値としては、上記所定割合X%よりも小さい値(具体的な例としては10〜20%程度)に設定しておけばよい。
(6)本発明との対応関係
以上説明した実施形態において、図2のs150,s170が本発明におけるズレ特定手段であり、同図s180が本発明における発声特定手段であり、同図s190が本発明における再現性特定手段であり、同図s220が本発明における評価出力手段であり、同図s200が本発明における周期特定手段であり、同図s110が本発明における歌唱データ取得手段であり、同図s210が本発明における歌唱採点手段であり、図6のs440が本発明における結果報知手段である。
【符号の説明】
【0116】
1…カラオケシステム、2…サーバ、21…制御部、23…記憶部、25…通信部、27…ユーザインタフェース部、29…メディアドライブ、3…カラオケ装置、31…制御部、33…記憶部、35…通信部、41…表示部、43…操作部、45…マイク、47…スピーカ、49…音声入出力部、100…ネットワーク。

【特許請求の範囲】
【請求項1】
ユーザが対象楽曲を歌唱した際の歌唱音声を構成する構成音の変化するタイミング(以降「歌唱変化タイミング」という)それぞれが、その対象楽曲を適切に歌唱した場合における模範音声における構成音が変化するタイミング(以降「模範変化タイミング」という)cst[k](k=1〜n)のいずれに対応するかを照合するタイミング照合手段と、
前記歌唱変化タイミングそれぞれにつき、該歌唱変化タイミングに対応するものとして前記タイミング照合手段に照合された前記模範変化タイミングを基準とするタイミングのズレ量vdt[k]を特定するズレ特定手段と、
それぞれ隣接する前記模範変化タイミングcst[k],cst[k+1],および,該模範変化タイミングについて前記ズレ特定手段が特定したズレ量vdt[k],vdt[k+1]に基づいて、前記歌唱音声における構成音それぞれの発声時間vlen[k]を特定する発声特定手段と、
前記発声特定手段により特定された発声時間vlen[k]それぞれを、該発声時間vlen[k]の特定時に参照された模範変化タイミングcst[k],cst[k+1]の区間を適切に発声した場合における模範発声時間clen[k]と対比することにより、発声時間vlen[k]における模範発声時間clen[k]の非再現性nvlen[k]を特定する再現性特定手段と、
前記再現性特定手段により特定された非再現性nvlen[k]それぞれを、該特定に際して参照された前記模範変化タイミングcst[k]の到来する順に分布させた場合における非再現性の系列に基づいて、該系列における非再現性の変化パターンに含まれる周期性が低いほど、前記対象楽曲に対する歌唱の追従性として高い評価値を出力する評価出力手段と、を備えている
ことを特徴とする追従性評価システム。
【請求項2】
前記タイミング照合手段は、前記歌唱音声および前記模範音声それぞれの時間軸に沿った音高の推移パターンを照合することで、前記歌唱音声において音高が変化する前記歌唱変化タイミングそれぞれが、前記模範音声における前記模範変化タイミングcst[k]のいずれに対応するのかを特定する
ことを特徴とする請求項1に記載の追従性評価システム。
【請求項3】
前記タイミング照合手段は、前記歌唱音声の時間軸に沿った区間のうち、前記模範変化タイミングとの対応関係を特定した歌唱変化タイミングで挟まれ,かつ,前記対応関係を特定していない前記模範変化タイミングcst[k]に対応する区間について、該区間において音声レベルが一定以下になるタイミングを、前記対応関係が特定されなかった前記模範変化タイミングcst[k]に対応する前記歌唱変化タイミングとして特定する
ことを特徴とする請求項2に記載の追従性評価システム。
【請求項4】
前記非再現性の系列に含まれる周期性を特定する周期特定手段,を備え、
前記評価出力手段は、前記周期特定手段により特定された周期性が低いほど、前記対象楽曲に対する歌唱の追従性として高い評価値を出力する
ことを特徴とする請求項1から3のいずれかに記載の追従性評価システム。
【請求項5】
前記周期特定手段は、前記非再現性の系列を、非再現性の大きさを振幅として前記模範変化タイミングcst[k]の到来する順に変化する波形とみなし、該波形の周波数成分の分布を算出することにより、該分布で規定される周期性を特定して、
前記評価出力手段は、前記周期特定手段により算出された周波数成分の分布に基づき、該分布している周波数成分の尖鋭度が小さいほど、前記時間差の変化パターンに含まれる周期性が低いものとして高い評価値を出力する
ことを特徴とする請求項4に記載の追従性評価システム。
【請求項6】
前記評価出力手段は、前記周期特定手段により算出された周波数成分の分布に基づき、該分布においてスペクトル強度が最も大きい周波数成分について、該周波数成分の尖鋭度が小さいほど、前記時間差の変化パターンに含まれる周期性が低いものとして高い評価値を決定する
ことを特徴とする請求項5に記載の追従性評価システム。
【請求項7】
ユーザによる対象楽曲の歌唱時における歌唱音声を示す歌唱データを、該歌唱された対象楽曲を識別可能な識別情報と共に取得する歌唱データ取得手段,を備えており、
前記タイミング照合手段は、前記歌唱データ取得手段により歌唱データで示される歌唱音声を、前記歌唱データと共に取得された識別情報で識別される対象楽曲の模範音声と照合する
ことを特徴とする請求項1から6に記載の追従性評価システム。
【請求項8】
請求項1から7のいずれかに記載の追従性評価システムと、
前記歌唱データで示される歌唱音声を時系列に沿って所定の区間毎に分割した単位区間それぞれについて、該単位区間の音声に関する歌唱パラメータを、該単位区間において発声すべき正しい音声に基づく理想パラメータと対比することにより、その歌唱楽曲を採点する歌唱採点手段と、
前記歌唱採点手段により採点された採点結果を報知する結果報知手段と、を備え、
前記歌唱採点手段は、前記歌唱パラメータと前記理想パラメータとの対比による採点結果を、前記評価出力手段により出力された評価値に応じて加減点させることにより、最終的な採点結果を決定する
ことを特徴とするカラオケシステム。
【請求項9】
請求項1から8のいずれかに記載の全ての手段として機能させるための各種処理手順をコンピュータシステムに実行させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図5】
image rotate

【図6】
image rotate

【図3】
image rotate

【図4】
image rotate


【公開番号】特開2010−217382(P2010−217382A)
【公開日】平成22年9月30日(2010.9.30)
【国際特許分類】
【出願番号】特願2009−62730(P2009−62730)
【出願日】平成21年3月16日(2009.3.16)
【出願人】(000005267)ブラザー工業株式会社 (13,856)
【Fターム(参考)】