説明

カラオケ装置

【課題】抑揚のある歌唱を評価することができるカラオケ装置を提供すること。
【解決手段】本発明のカラオケ装置は、歌唱者の歌唱音声についての基本周波数f0のレベルに対する倍音成分の周波数f1、f2、・・・の合計レベルのレベル比である倍音比率によって、歌唱の強弱を検出することができる。そして、歌唱の強弱の変動の程度を示す抑揚評価データに基づいて、歌唱の抑揚の程度を評価することができるから、歌唱者の歌唱による採点結果に歌唱の抑揚の評価を加えることができる。また、歌唱音声の音量レベルの周波数分布、すなわち声質に基づいて歌唱の抑揚を評価しているから、歌唱の音量レベルによらない評価を行うことができる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、本発明は、歌唱を採点するカラオケ装置において、特殊な歌唱技法を評価する技術に関する。
【背景技術】
【0002】
カラオケ装置において、歌唱者の歌唱の巧拙を点数で表示する採点機能を備えたものがある。このような採点機能のうち、できるだけ実際の歌唱の巧拙と採点の結果が対応するように、歌唱者の歌唱音声信号から抽出された音程データや音量データなどのデータと、カラオケ曲の歌唱旋律(ガイドメロディ)と対応するデータとの比較機能を持たせたものがある(例えば、特許文献1)。このような採点機能を備えたカラオケ装置によって、1音を単位としてノートごとの音程変化などを比較して採点することが可能になったが、この採点機能は、MIDI(Musical Instrument Digital Interface)形式でデータ化されたガイドメロディを基準にして、歌唱者の歌唱と比較していたため、楽譜上の音符を基準にした採点に止まっていた。そのため、このような採点を行った場合、実際の巧拙の印象とは異なった採点結果となることがあった。例えば、楽曲全体において歌唱に強弱をつけたり、声質(例えば、倍音成分の割合)を変化させたりして、抑揚のある歌唱を行った場合、巧く聞こえることがあるにもかかわらず、ピッチに対しては何ら影響を与えるものではなかったから、採点結果が良くなることがなかった。そこで、歌唱の音量レベルの変化に基づいて抑揚のある歌唱を評価する技術(例えば、特許文献2)も提案されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開平10−69216号公報
【特許文献2】特開2005−107335号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献2のような技術により抑揚の評価が可能となったが、マイクロフォンと歌唱者との距離を変化させて歌唱した場合、実際には抑揚の無い歌唱をしていたとしても、カラオケ装置が歌唱の強弱の変化として認識してしまう。そのため、歌唱者の歌唱が抑揚のある歌唱であると誤認して、採点結果を良くしてしまうことがあった。また、声質を変化させることにより抑揚のある歌唱をした場合には、聴取者には抑揚がある歌唱と聞こえても、採点結果には反映されなかった。
【0005】
本発明は、上述の事情に鑑みてなされたものであり、抑揚のある歌唱を精密に評価することができるカラオケ装置を提供することを目的とする。
【課題を解決するための手段】
【0006】
上述の課題を解決するため、本発明は、楽曲データを再生する再生手段と、前記再生手段が楽曲データを再生する間に入力された歌唱者の歌唱音声に基づいて、歌唱者音声データを生成する音声入力手段と、前記歌唱者音声データに基づいて、前記歌唱者の歌唱音声の基本周波数を含む第2の周波数帯域の音量レベルと、当該基本周波数に対する倍音成分の周波数を含む第1の周波数帯域の音量レベルとの比率を示す倍音比率データを生成する生成手段と、前記倍音比率データが示す前記比率の時間的な変動により、前記歌唱音声の抑揚の評価を行う評価手段とを具備することを特徴とするカラオケ装置を提供する。
【0007】
別の好ましい態様において、前記生成手段は、前記第2の周波数帯域の音量レベルのうち前記基本周波数より高い周波数帯域における音量レベルを所定量増幅した後の前記歌唱者音声データに基づいて、前記倍音比率データを生成してもよい。
【0008】
また、別の好ましい態様において、前記生成手段は、前記第2の周波数帯域の音量レベルのうち前記基本周波数より高い周波数帯域における音量レベルを周波数が高くなるほど高い増幅率で増幅した後の前記歌唱者音声データに基づいて、前記倍音比率データを生成してもよい。
【0009】
また、別の好ましい態様において、前記第2の周波数帯域の音量レベルは、前記歌唱者の歌唱音声の全周波数帯域の音量レベルであってもよい。
【0010】
また、別の好ましい態様において、前記第2の周波数帯域の音量レベルは、前記基本周波数と当該基本周波数に対応する倍音成分との音量レベルを示してもよい。
【0011】
また、別の好ましい態様において、前記生成手段は、前記第2の周波数帯域の音量レベルと、前記第1の周波数帯域の音量レベルを所定量増幅した音量レベルとの比率を示す前記倍音比率データを生成してもよい。
【0012】
また、別の好ましい態様において、前記第2の周波数帯域の音量レベルは、前記歌唱者の歌唱音声の全周波数帯域の音量レベルであってもよい。
【0013】
また、別の好ましい態様において、前記評価手段は、前記楽曲データが示す楽曲のうちの歌唱区間における前記比率を累積度数分布で表し、当該比率の小さいほうから第1の所定割合に対応する前記累積度数分布の値と、当該比率の小さいほうから前記第1の所定割合よりも高い第2の所定割合に対応する前記累積度数分布の値との差分により、前記評価を行ってもよい。
【0014】
また、別の好ましい態様において、前記評価手段は、前記歌唱音声が所定の音量レベル以下となる区間を評価対象から除外してもよい。
【発明の効果】
【0015】
本発明によれば、抑揚のある歌唱を評価することができるカラオケ装置を提供することができる。
【図面の簡単な説明】
【0016】
【図1】実施形態に係るカラオケ装置のハードウエアの構成を示すブロック図である。
【図2】実施形態に係るカラオケ装置のソフトウエアの構成を示すブロック図である。
【図3】実施形態に係る歌唱の強弱と倍音成分の関係についての説明図である。
【図4】実施形態に係る抑揚評価部におけるデータ処理の説明図である。
【図5】変形例1に係るカラオケ装置のソフトウエアの構成を示すブロック図である。
【図6】変形例1に係る倍音比率算出部におけるデータ処理の説明図である。
【発明を実施するための形態】
【0017】
以下、本発明の一実施形態について説明する。
【0018】
<実施形態>
本実施形態においては、抑揚のある歌唱の評価を行なうことができるカラオケ装置1について説明する。まず、カラオケ装置1のハードウエアの構成について図1を用いて説明する。図1は、本発明の実施形態に係るカラオケ装置1のハードウエアの構成を示すブロック図である。
【0019】
CPU(Central Processing Unit)11は、ROM(Read Only Memory)12に記憶されているプログラムを読み出して、RAM(Random Access Memory)13にロードして実行することにより、カラオケ装置1の各部について、バス10を介して制御する。また、RAM13は、CPU11がデータ処理などを行う際のワークエリアとして機能する。
【0020】
記憶部14は、例えば、ハードディスクなどの大容量記憶手段であって、楽曲データ記憶領域14aおよび歌唱者音声データ記憶領域14bを有する。楽曲データ記憶領域14aには、カラオケ曲の楽曲データが複数記憶され、各楽曲データは、ガイドメロディトラック、伴奏データトラック、歌詞データトラックを有している。
【0021】
ガイドメロディトラックは、楽曲のボーカルパートのメロディを示すデータであり、発音の指令を示すノートオン、消音の指令を示すノートオフ、コントロールチェンジなどのイベントデータと、次のイベントデータを読み込んで実行するまでの時間を示すデルタタイムデータとを有している。このデルタタイムにより、実行すべきイベントデータの時刻と楽曲の進行が開始されてからの時間経過とを対応付けることができる。また、ノートオン、ノートオフは、それぞれ発音、消音の対象となる音の音程を示すノートナンバを有している。これにより、楽曲のボーカルパートのメロディを構成する各音は、ノートオン、ノートオフ、デルタタイムによって規定することができる。伴奏データトラックは、各伴奏楽器の複数のトラックから構成されており、各楽器のトラックは上述したガイドメロディトラックと同様のデータ構造を有している。なお、本実施形態の場合、MIDI形式のデータが記憶されている。
【0022】
歌詞データトラックは、楽曲の歌詞を示すテキストデータと、楽曲の進行に応じて後述する表示部15に歌詞テロップを表示するタイミングを示す表示タイミングデータと、表示される歌詞テロップを色替え(以下、ワイプという)するためのタイミングを示すワイプタイミングデータとを有する。そして、CPU11は、楽曲データ記憶領域14aに記憶される楽曲データを再生し、当該楽曲データの伴奏データトラックに基づいて生成した音声データを後述する音声処理部18に出力するとともに、歌詞データトラックに基づいて表示部15に歌詞テロップを表示させる。
【0023】
歌唱者音声データ記憶領域14bには、後述するマイクロフォン17から音声処理部18を経てA/D変換された音声データ(以下、歌唱者音声データという)が、例えばWAVE形式やMP3形式などで時系列に記憶される。このように時系列に記憶されることにより、歌唱者音声データの所定時間長の各フレームに対して、楽曲の進行が開始されてから経過した時間を対応付けることができる。
【0024】
表示部15は、液晶ディスプレイなどの表示デバイスであって、CPU11に制御されて、記憶部14の楽曲データ記憶領域14aに記憶された歌詞データトラックに基づいて、楽曲の進行に応じて背景画像などとともに歌詞テロップを表示する。また、カラオケ装置1を操作するためのメニュー画面、歌唱の評価結果画面などの各種画面を表示する。操作部16は、例えばキーボード、マウス、リモコンなどであり、カラオケ装置1の利用者が操作部16を操作すると、その操作内容を表すデータがCPU11へ出力される。
【0025】
マイクロフォン17は、歌唱者の歌唱音声を収音する。音声処理部18は、マイクロフォン17によって収音された音声をA/D変換して歌唱者音声データを生成する。歌唱者音声データは、上述したように記憶部14の歌唱者音声データ記憶領域14bに記憶される。また、音声処理部18は、CPU11によって入力された音声データをD/A変換し、スピーカ19から放音する。
【0026】
次に、CPU11が、ROM12に記憶されたプログラムを実行することによって実現する機能のうち、歌唱者の歌唱の評価を行なう機能について説明する。図2は、CPU11が実現する機能を示したソフトウエアの構成を示すブロック図である。
【0027】
ピッチ抽出部101は、歌唱者音声データ記憶領域14bに記憶される歌唱者音声データを読み出し、所定時間長のフレーム単位で当該歌唱者音声データに係る歌唱音声のピッチを抽出する。そして、フレーム単位で抽出した歌唱音声のピッチを示す歌唱ピッチデータを通常評価部103に出力する。なお、ピッチの抽出にはFFT(Fast Fourier Transform)により生成されたスペクトルから抽出してもよいし、その他公知の方法により抽出してもよい。
【0028】
ピッチ算出部102は、楽曲データ記憶領域14aから評価対象となる楽曲のガイドメロディトラックを読み出し、読み出したガイドメロディトラックから楽曲のメロディを認識する。また、認識したメロディを構成する各音について、所定時間長のフレーム単位でピッチを算出する。そして、フレーム単位で算出したガイドメロディのピッチを示すメロディピッチデータを通常評価部103に出力する。なお、メロディを構成する各音の音程は、ノートナンバによって規定されているから、ノートナンバに対応してピッチが決定することになる。例えば、ノートナンバが69(A4)である場合には、ピッチは440Hzとなる。この際、ノートナンバとピッチを対応させるテーブルを記憶部14に記憶しておけば、ピッチ算出部102は当該テーブルを参照してピッチを算出してもよい。
【0029】
通常評価部103は、ピッチ抽出部101から出力された歌唱ピッチデータとピッチ算出部102から出力されたメロディピッチデータとをフレーム単位で比較し、ピッチの一致の程度を示す通常評価データを生成し、採点部104へ出力する。ここで、一致の程度は、各フレームにおけるメロディを構成する音のピッチと歌唱音声のピッチとの差分から算出してもよいし、メロディを構成する音のピッチと歌唱音声のピッチとが実質的に一致、すなわちメロディを構成する音のピッチに対して所定のピッチの範囲に入った時間的な割合から算出してもよい。なお、通常評価部103においては、歌唱音声のピッチを評価するだけでなく、音量、その他の特徴量を用いて評価してもよい。この場合には、歌唱音声からそれぞれ必要な特徴量を抽出する抽出手段を設けるとともに、記憶部14に評価の基準となる特徴量を記憶させておけばよい。
【0030】
周波数分布測定部105は、歌唱者音声データ記憶領域14bに記憶される歌唱者音声データを読み出し、FFTを用いて所定時間長のフレーム単位で当該歌唱者音声データに係る歌唱音声の音量レベル(エネルギ)の周波数分布を測定する。そして、得られた周波数分布のスペクトルから基本周波数f0および倍音成分の周波数f1、f2、・・・それぞれについてのレベル(以下、周波数f0のレベルをP(f0)、周波数f1のレベルをP(f1)のように記載する)を取得する。ここで、倍音成分の周波数fnは、基本周波数f0の(n+1)倍の周波数を示している。そして、それぞれの周波数とレベルの関係を示す周波数分布データを倍音比率算出部106に出力する。なお、基本周波数f0、倍音成分の周波数f1、f2、・・・についてのレベルを取得することができれば、必ずしもFFTを用いる必要は無く、その他公知の方法によって測定しても良い。例えば、歌唱者の歌唱音声の波形から基本周波数f0を抽出し、その整数倍の周波数を通過させるBPF(Band Pass Filter)を歌唱者の歌唱音声の波形に対して用いて、それぞれの周波数f0、f1、f2、・・・についてのレベルを測定すればよい。
【0031】
倍音比率算出部106は、周波数分布測定部105から出力された周波数分布データに基づいて、基本周波数f0のレベルP(f0)に対する倍音成分の周波数f1、f2、・・・のレベルP(f1)、P(f2)、・・・の合計レベルのレベル比(以下、倍音比率Rという)を算出する。すなわち、倍音比率Rは、以下の数1のようにして算出される。
【0032】
【数1】

【0033】
ここで、倍音成分の周波数の上限、すなわち数1におけるnについては、適宜設定すればよく、例えば、本実施形態においては、上限周波数を基本周波数f0の10倍まで、すなわちn=9とする。なお、nについては、周波数の上限として、例えば20kHzを超えない範囲(fn<20kHz)のnとしてもよい。また、レベルが所定レベル以下である周波数については、除外するようにしてもよい。このようにすれば、倍音比率Rに大きな影響を及ぼさないような小さなレベルの不要な周波数については、評価対象外とすることもでき、算出を簡易化できる。
【0034】
このように算出した倍音比率Rについては、フレームごとに変化するから、楽曲の開始時点から経過した時刻tにおける倍音比率RをR(t)と示す。ここで、歌唱音声の周波数分布はフレーム単位で測定されているから、倍音比率Rはフレームごとに算出される。一方、各フレームの時間は所定時間長であるから、各フレームは楽曲の開始時点から経過した時刻に換算することもできる。そのため、以下の説明においてはフレームを時刻に換算して説明する。
【0035】
そして、倍音比率算出部106は、上述のようにして算出した倍音比率R(t)を示す倍音比率データを抑揚評価部107に出力する。
【0036】
抑揚評価部107は、倍音比率算出部106から出力された倍音比率データに基づいて、抑揚の程度を示す抑揚評価データを生成する。ここで、弱く歌唱した場合には、図3(a)に示すように倍音成分のレベルが小さくなる傾向の周波数分布となる一方、強く歌唱した場合には、図3(b)に示すように倍音成分のレベルが大きくなる傾向の周波数分布となる。このように、弱く歌唱した場合よりも、倍音成分に係る周波数に対応するレベルが大きくなるから、倍音比率R(t)が大きいほど、強く歌唱されていることになる。そのため、抑揚評価部107においては、倍音比率データが示す倍音比率R(t)の大きさによって歌唱の強弱を検出する。そして、この強弱の変動が大きいほど抑揚がある歌唱であると判断できる。
【0037】
本実施形態においては、抑揚評価部107は、図4に示すように、歌唱区間における倍音比率R(t)を累積度数分布で表し、倍音比率R(t)の小さいほうから10%に対応する倍音比率をRL、小さい方から90%に対応する倍音比率をRHとする。このRLとRHを抑揚評価データとして採点部104へ出力する。なお、歌唱区間は、ガイドメロディトラックに基づいて決定、例えば楽曲のメロディを示すデータがある区間として決定すればよい。
【0038】
ここで、RLとRHの値の差が大きい場合であれば、歌唱の強弱の変動が大きいといえるから抑揚が大きい歌唱になっているといえる。一方、RLとRHが共に小さい値である場合には、全体的に歌唱が弱くなっていることを示し、RLとRHが共に大きい値である場合には、全体的に歌唱が強くなっていることを示している。そのため、RLとRHの値の差が小さい値であれば、いずれの場合も歌唱の強弱の変動が小さいといえるから抑揚が小さい歌唱になっているといえる。
【0039】
さらに、抑揚評価部107における評価は、倍音比率R(t)による評価、すなわち歌唱音声の周波数分布に基づいた評価であるから、歌唱の声質の評価となっている。そのため、歌唱の音量レベルによらない評価とすることができる。このようにすると、例えば、歌唱者が実際の歌唱の音量レベルを変化させずに、マイクロフォン17と歌唱者との距離を変化させることによって、結果的に歌唱者音声データに係る音量レベルの強弱がついた場合であっても、声質はほとんど変化しないことになるから、抑揚として評価しないこともできる。
【0040】
採点部104は、通常評価部103から出力された通常評価データと、抑揚評価部107から出力された抑揚評価データとに基づいて歌唱者の歌唱の評価点を算出する。これにより、RLの値とRHの値との差が大きければ、歌唱の抑揚があると判断して歌唱の評価点を高くすることができる。そして、算出した評価点はCPU11によって表示部15に表示される。なお、歌唱の抑揚があると判断する場合は、必ずしも歌唱の強弱の変動によって生じた声質の変化のみを表すのではなく、歌唱の強弱が変動しないときの声質の変動についても含まれている。そのため、歌唱者の音量レベルの変動が少なくても、声質の変動が大きければ抑揚がある歌唱と評価することができる。このように評価することができるから、例えば歌唱者の口の開け方などにより倍音成分が変化させることにより声質を変動させて歌唱した場合には、聴取者が感じるような歌唱にメリハリがある印象を反映した評価をすることができる。
【0041】
次に、カラオケ装置1の動作について説明する。まず、歌唱者は操作部16を操作して、歌唱する楽曲を選択する。CPU11は、歌唱者が選択した楽曲に対応する楽曲データを楽曲データ記憶領域14aから読み出し、楽曲の進行に応じて、読み出した楽曲データの伴奏データトラックに基づいて楽曲の伴奏などをスピーカ19から放音させるとともに、読み出した楽曲データの歌詞データトラックに基づいて表示部15に歌詞をワイプ表示させる。歌唱者は、楽曲の進行にあわせて歌唱すると、当該歌唱の音声がマイクロフォン17に収音され、歌唱者音声データとして歌唱者音声データ記憶領域14bに記憶される。
【0042】
楽曲が最後まで進むことにより終了すると、CPU11によって歌唱者の歌唱の評価が開始される。ピッチ抽出部101は、歌唱者音声データ記憶領域14bに記憶された歌唱者音声データを読み出し、歌唱ピッチデータを通常評価部103に出力する。ピッチ算出部102は、楽曲データ記憶領域14aから評価基準となる楽曲のガイドメロディトラックを読み出し、メロディピッチデータを通常評価部103に出力する。
【0043】
通常評価部103は、ピッチ抽出部101から出力された歌唱ピッチデータとピッチ算出部102から出力されたメロディピッチデータとをフレーム単位で比較し、ピッチの一致の程度を示す通常評価データを生成し、採点部104へ出力する。
【0044】
周波数分布測定部105は、歌唱者音声データ記憶領域14bに記憶された歌唱者音声データを読み出し、歌唱音声の周波数分布を測定して生成した周波数分布データを倍音比率算出部106へ出力する。倍音比率算出部106は、周波数分布測定部105から出力された周波数分布データに基づいて、倍音比率R(t)を示す倍音比率データを生成し、抑揚評価部107へ出力する。抑揚評価部107は、倍音比率算出部106から出力された倍音比率データに基づいて算出した抑揚評価データを生成し、採点部104へ出力する。
【0045】
そして、採点部104は、通常評価部103から出力された通常評価データと、抑揚評価部107から出力された抑揚評価データとに基づいて、所定のアルゴリズムによって歌唱者の歌唱の評価点を算出する。そして、その算出結果が表示部15に表示されることになる。
【0046】
以上のように、本実施形態におけるカラオケ装置1は、歌唱者の歌唱音声についての基本周波数f0のレベルに対する倍音成分の周波数f1、f2、・・・の合計レベルのレベル比である倍音比率によって、歌唱の強弱を検出することができる。そして、歌唱の強弱の変動の程度を示す抑揚評価データに基づいて、歌唱の抑揚の程度を評価することができるから、歌唱者の歌唱による採点結果に歌唱の抑揚の評価を加えることができる。また、歌唱音声の音量レベルの周波数分布、すなわち声質に基づいて歌唱の抑揚を評価しているから、歌唱の音量レベルによらない評価を行うことができる。さらに、歌唱者が実際の歌唱の音量レベルを変化させずに、マイクロフォン17と歌唱者との距離を変化させることによって、結果的に歌唱者音声データに係る音量レベルの強弱がついた場合には、声質がほとんど変化しないことから、抑揚として評価しないこともできる。
【0047】
以上、本発明の実施形態について説明したが、本発明は以下のように、さまざまな態様で実施可能である。
【0048】
<変形例1>
実施形態においては、倍音比率R(t)を示す倍音比率データは、歌唱者音声データに係る周波数分布に基づいて生成されたが、歌唱者音声データに係る音量レベルに基づいて生成されるようにしてもよい。この場合には、図5に示すような構成とすればよい。以下、この構成について説明する。
【0049】
音量抽出部108は、歌唱者音声データ記憶領域14bに記憶される歌唱者音声データを読み出し、所定時間長のフレーム単位で当該歌唱者音声データに係る歌唱音声の全周波数帯域における音量レベルVa(t)を抽出するとともに、また、当該歌唱音声の特定の周波数帯域における音量レベルVb(t)を抽出する。そして、フレーム単位で抽出した歌唱音声の音量レベルVa(t)、Vb(t)を示す音量レベルデータを倍音比率算出部106に出力する。ここで、特定の周波数帯域とは、本変形例においては、中心周波数が3kHzのBPFを通して得られる周波数帯域を示している。なお、周波数帯域幅については、どのような幅であってもよいが、当該周波数帯域には基本周波数f0以下の周波数を含まれないようにすることが望ましい。
【0050】
倍音比率算出部106は、図6に示すように、各時刻tにおける音量レベルVa(t)とV(b)の音量レベル比ΔV(t)を算出する。ここで、ΔV(t)=Va(t)/Vb(t)(単位をdBとした場合には、ΔV(t)=Va(t)−Vb(t))である。そして、音量レベル比ΔV(t)を示す倍音比率データを抑揚評価部107へ出力する。
【0051】
そして、抑揚評価部107は、実施形態における処理と同様に、歌唱区間における音量レベル比ΔV(t)を累積度数分布で表し、音量レベル比ΔV(t)の小さいほうから10%に対応する音量レベル比をRL、小さい方から90%に対応する音量レベル比をRHとする。このRLとRHを抑揚評価データとして採点部104へ出力する。
【0052】
ここで、音量レベル比ΔV(t)が大きい場合は、特定の周波数帯域における音量レベルが占める全体の周波数帯域の音量レベルに対しての割合が少ないことを示しているから3kHz近傍の倍音成分が少ないことがいえる。一方、音量レベル比ΔV(t)が小さい場合は、特定の周波数帯域における音量レベルの占める全体の周波数帯域の音量レベルに対しての割合が多いことを示しているから3kHz近傍の倍音成分が多いことがいえる。
【0053】
そのため、図6におけるΔV(t1)は倍音成分が少なく、ΔV(t2)は倍音成分が多いことがいえる。また、音量レベルVa(t3)が大きいにもかかわらず、ΔV(t3)が大きい値であるため、倍音成分が少ないことがいえる。この時点においては、歌唱者とマイクロフォン17が近いことなどによって音量レベルVa(t3)が増加したのであって、歌唱が強く行われたのではないことがわかる。このように、音量レベル比ΔV(t)に基づいて、抑揚の評価を行うことにより、歌唱者音声データに係る音量レベルを用いるにもかかわらず、音量レベルによらない抑揚の評価を行うことができる。
【0054】
<変形例2>
実施形態においては、周波数分布測定部105は、歌唱者音声データに係る歌唱者の歌唱音声の周波数分布を測定して周波数分布データを生成していた。ここで、強く歌唱する際には、倍音成分、すなわち高周波数帯域の成分が大きくなりやすいため、これを強調するような処理を行なってもよい。例えば、周波数分布測定部105は、歌唱者音声データに係る歌唱者の歌唱音声において、倍音成分の周波数f1、f2、・・・に係るレベルP(f1)、P(f2)、・・・を増幅して周波数分布データを生成してもよい。この増幅は、周波数依存性を持たせてもよく、例えば、イコライザを用いて+6dB/1オクターブのような周波数依存性を持たせてもよい。このようにすると、抑揚のある歌唱の評価をより強調して行うことができる。
【0055】
<変形例3>
実施形態においては、倍音比率Rは、基本周波数f0のレベルP(f0)に対する倍音成分の周波数f1、f2、・・・のレベルP(f1)、P(f2)、・・・の合計レベルのレベル比として算出していたが、別の態様としてもよい。例えば、変形例2のように基本周波数f0以外のレベルを増幅し、増幅前後のレベルの比から算出してもよい。すなわち、数2に示すように計算してもよい。ここで、P’(fn)は増幅後の周波数fnのレベルを示している。また、基本周波数f0におけるレベルは変化しないように増幅するから、P(f0)=P’(f0)である。
【0056】
【数2】

【0057】
このようにしても、倍音成分の割合を算出できるから、実施形態と同様な効果を得ることができる。なお、変形例1で示したように、倍音成分を抽出せずに音量レベルだけで比較する場合にも適用できる。この場合には、歌唱音声の特定の周波数帯域における音量レベルVb(t)に替えて、基本周波数f0より高い周波数帯域における音量レベルを増幅(例えば、+6dB/1オクターブで増幅)した音量レベルVb(t)とすればよい。このように、どのような算出方法であっても、歌唱者の歌唱音声における基本周波数より高い周波数帯域の音量レベルの割合、または、その割合の程度(例えば、当該音量レベルの相対的な大小関係など)を算出することができれば、声質の違いとして検出することができ、実施形態と同様な効果を得ることができる。
【0058】
<変形例4>
実施形態における倍音比率算出部106で生成される倍音比率データについて、当該倍音比率データが示す倍音比率R(t)が時刻tの進行に伴って急峻な変動をする場合には、急峻な変動の影響を無くすためのデータ処理を行ってもよい。例えば、倍音比率算出部106が、高周波成分を除去するLPF(Low Pass Filter)を有するようにし、当該LPFを用いて倍音比率R(t)の高周波成分を除去することにより、急峻な変動を抑えるようにしてもよい。また、移動平均をとることによって、変動を抑えるようにしてもよい。
【0059】
<変形例5>
実施形態においては、歌唱の抑揚についての評価は、楽曲が終了し歌唱者の歌唱が終了した後に行っていたが、歌唱途中で順次処理が行なわれるようにしてもよい。この場合には、周波数分布測定部105は、楽曲の進行に応じて、すでに歌唱された部分のデータである歌唱者音声データから歌唱音声の周波数分布を順次測定し、周波数分布データを倍音比率算出部106へ出力していくようにすればよい。そして、倍音比率算出部106は、周波数分布測定部105から順次出力される周波数分布データにあわせて、倍音比率R(t)を算出し、倍音比率データを順次出力していくようにすればよい。
【0060】
そして、抑揚評価部107は、倍音比率算出部106から順次出力された倍音比率データが示す倍音比率R(t)についての累積度数分布で表し、順次RL、RHを算出すればよい。このようにすると、順次生成された抑揚評価データに基づいて、CPU11は、抑揚評価データが生成された時点までの歌唱の抑揚の評価を表示部15に表示させることもでき、歌唱者は歌唱しながら歌唱の抑揚の評価を確認することができる。また、楽曲が終了した後わずかな時間で歌唱の抑揚評価が終了するため、早く評価結果を表示部15に表示させることができる。
【0061】
また、楽曲を複数の区間に分割して、区間ごとに抑揚評価部107が抑揚評価を行うことにより、区間ごとにどのような歌唱の状態であったか、すなわち区間ごとに歌唱の強弱の状態を検出することができる。具体的には、抑揚評価部107は、ある区間におけるRHが所定の値(以下、第1の設定値という)以下であれば、当該区間は弱い歌唱であったと判断し、RLが所定の値(前述の所定の値と同一である必要は無い、以下、第2の設定値という)以上であれば当該区間は強い歌唱であったと判断するようにすればよい。また、第1の設定値から第2の設定値の範囲にRL、RHがともに含まれている場合には、普通の歌唱と判断すればよい。そして、これらの判断結果に基づいて、歌唱者の歌唱の状態を区間ごとに表示部15に表示させるようにすればよい。これにより、歌唱者は各区間における自らの歌唱が、強い歌唱だったのか弱い歌唱だったのかなどの歌唱の状態を確認することができる。また、抑揚評価部107は、区間ごとで歌唱の強弱の変動が大きい場合には、楽曲全体として抑揚があると評価することもできる。なお、区間ごとの評価を累積度数分布におけるRH、RLに基づいて行っていたが、他の基準で行なってもよい。例えば、抑揚評価部107は、区間ごとに倍音比率R(t)を加算し、区間ごとの合計値に基づいて歌唱の強弱を判断しても良い。このとき、各区間が楽曲のフレーズごとなどにより決定している場合は、区間長が変わるから、当該合計値を区間長で正規化すればよい。ここで、各区間については、予め設定された区間としてもよいし、楽曲データが区間を指定するデータを有するようにし、抑揚評価部107が当該データに基づいて決定した区間としてもよい。また、変形例1に適用する場合は、倍音比率R(t)の代わりに音量レベル比ΔV(t)を用いればよい。
【0062】
<変形例6>
実施形態においては、抑揚評価部107は、倍音比率データに係る倍音比率R(t)について、楽曲の全体のうち歌唱区間における累積度数分布を用いて、抑揚評価データを生成していた。すなわち、楽曲データに基づいて決定された歌唱区間における歌唱者の歌唱が、抑揚の評価対象となっていた。ここで、評価対象となる歌唱の区間は、歌唱区間でなくてもよい。例えば、評価対象を楽曲全体の歌唱とする場合には、歌唱者音声データ全体を評価対象とすればよい。
【0063】
また、評価対象となる歌唱は、設定された指定区間における歌唱としてもよい。この場合には、楽曲データが当該指定区間を示す指定区間データを有するようにし、抑揚評価部107は、楽曲データが有する指定区間データを読み出すことにより、指定区間を設定すればよい。そして、例えば、指定区間を楽曲の中で強く歌唱する区間、弱く歌唱する区間としておけば、抑揚をつける区間に限定して評価することができるから、抑揚をつける必要の無い区間において抑揚をつけても評価対象としない、または、抑揚をつけたら減点対象とすることができる。
【0064】
さらに、評価対象となる歌唱の区間は、歌唱者音声データに係る音量レベルに基づいて決定されるようにしてもよい。例えば、楽曲における歌唱していない間、すなわち歌唱音声データに係る音声の音量レベルが非常に小さい状態が長く続く場合には、周波数分布データに係るレベルのSN比が悪くなることにより不安定となり、倍音比率R(t)が本来示すべき値と大きく異なる場合もあるから、当該音量レベルが所定の音量レベル以下となるフレームについては、評価対象から除外してもよい。
【0065】
<変形例7>
実施形態においては、歌唱の抑揚が大きいほど、採点部104においては、歌唱の評価点を高くしていた。ここで、歌唱の評価点への加点、減点、割合など抑揚の評価の態様を変更できるようにしても良い。例えば、楽曲に応じて抑揚の評価の態様を変更してもよい。この場合には、楽曲データが抑揚評価データの歌唱の評価の態様を示す評価基準データを有するようにし、採点部104は、楽曲データが有する評価基準データを読み出して、当該評価基準データに基づいて、抑揚の評価の態様を決定すればよい。ここで、抑揚の評価の態様は、加点評価への影響だけでなく、楽曲によっては抑揚を付けない方が良い場合もあるから、減点評価とする影響を与えてもよい。なお、楽曲単位でなく、楽曲のジャンルに応じて抑揚の評価の態様を変更しても良い。この場合は、楽曲データに楽曲のジャンルを示す楽曲ジャンルデータを有するようにするとともに、楽曲のジャンルと抑揚の評価の態様を対応付けたテーブルを示す対応データを記憶部14に記憶させればよい。そして、採点部104は、楽曲データが有する楽曲ジャンルデータと対応データとを読み出して、当該楽曲ジャンルデータが示す楽曲のジャンルに対応させて、抑揚の評価の態様を決定すればよい。
【0066】
また、歌唱者の歌唱の巧さ(歌唱レベル)に応じて評価点への影響の態様を変更しても良い。この場合には、歌唱者が操作部16を操作することにより、歌唱レベルを入力するようにして、採点部104は、当該歌唱レベルに応じて評価点への影響の態様を決定するようにすればよい。さらに、楽曲データに基づいて評価点への影響の態様を変更してもよい。この場合には、採点部104は、ガイドメロディトラック、伴奏データトラックにおける音量レベルを示すデータ(例えば、ベロシティ)を参照して、これにより当該音量レベルが楽曲中で大きく変動する場合には、抑揚評価データの評価点への影響を大きくすればよい。このようにすれば、楽曲データから自動的に評価点への影響の態様を決定することができる。
【0067】
<変形例8>
実施形態においては、倍音比率算出部106は、周波数分布測定部105から出力された周波数分布データに基づいて、基本周波数f0のレベルP(f0)に対する倍音成分の周波数f1、f2、・・・のレベルP(f1)、P(f2)、・・・の合計レベルのレベル比を上述した数1のようにして倍音比率Rを算出していたが、倍音比率Rの算出は、このようなレベル比だけに限られない。例えば、P(f0)、P(f1)の合計レベルに対するP(f1)、P(f2)、・・・の合計レベルのレベル比としてもよいし、P(f0)、P(f2)の合計レベルに対するP(f1)、P(f2)、・・・の合計レベルのレベル比としてもよい。すなわち、基本周波数f0のレベルP(f0)を含むレベルに対するP(f0)を含まないレベルのレベル比を倍音比率Rとすればよい。このようにすれば、倍音成分の大小によって歌唱の強弱を検出することができるから、実施形態と同様な効果を得ることができる。
【符号の説明】
【0068】
1…カラオケ装置、10…バス、11…CPU、12…ROM、13…RAM、14…記憶部、14a…楽曲データ記憶領域、14b…歌唱者音声データ記憶領域、15…表示部、16…操作部、17…マイクロフォン、18…音声処理部、19…スピーカ、101…ピッチ抽出部、102…ピッチ算出部、103…通常評価部、104…採点部、105…周波数分布測定部、106…倍音比率算出部、107…抑揚評価部、108…音量抽出部

【特許請求の範囲】
【請求項1】
楽曲データを再生する再生手段と、
前記再生手段が楽曲データを再生する間に入力された歌唱者の歌唱音声に基づいて、歌唱者音声データを生成する音声入力手段と、
前記歌唱者音声データに基づいて、前記歌唱者の歌唱音声の基本周波数を含む第2の周波数帯域の音量レベルと、当該基本周波数に対する倍音成分の周波数を含む第1の周波数帯域の音量レベルとの比率を示す倍音比率データを生成する生成手段と、
前記倍音比率データが示す前記比率の時間的な変動により、前記歌唱音声の抑揚の評価を行う評価手段と
を具備することを特徴とするカラオケ装置。
【請求項2】
前記生成手段は、前記第2の周波数帯域の音量レベルのうち前記基本周波数より高い周波数帯域における音量レベルを所定量増幅した後の前記歌唱者音声データに基づいて、前記倍音比率データを生成する
ことを特徴とする請求項1に記載のカラオケ装置。
【請求項3】
前記生成手段は、前記第2の周波数帯域の音量レベルのうち前記基本周波数より高い周波数帯域における音量レベルを周波数が高くなるほど高い増幅率で増幅した後の前記歌唱者音声データに基づいて、前記倍音比率データを生成する
ことを特徴とする請求項2に記載のカラオケ装置。
【請求項4】
前記第2の周波数帯域の音量レベルは、前記基本周波数の音量レベルである
ことを特徴とする請求項1から3のいずれか1項に記載のカラオケ装置。
【請求項5】
前記第2の周波数帯域の音量レベルは、前記基本周波数と当該基本周波数に対応する倍音成分との音量レベルを示す
ことを特徴とする請求項1から3のいずれか1項に記載のカラオケ装置。
【請求項6】
前記生成手段は、前記第2の周波数帯域の音量レベルと、前記第1の周波数帯域の音量レベルを所定量増幅した音量レベルとの比率を示す前記倍音比率データを生成する
ことを特徴とする請求項1から4のいずれか1項に記載のカラオケ装置。
【請求項7】
前記第2の周波数帯域の音量レベルは、前記歌唱者の歌唱音声の全周波数帯域の音量レベルである
ことを特徴とする請求項1から3のいずれか1項に記載のカラオケ装置。
【請求項8】
前記評価手段は、前記楽曲データが示す楽曲のうちの歌唱区間における前記比率を累積度数分布で表し、当該比率の小さいほうから第1の所定割合に対応する前記累積度数分布の値と、当該比率の小さいほうから前記第1の所定割合よりも高い第2の所定割合に対応する前記累積度数分布の値との差分により、前記評価を行う
ことを特徴とする請求項1から7のいずれか1項に記載のカラオケ装置。
【請求項9】
前記評価手段は、前記歌唱音声が所定の音量レベル以下となる区間を評価対象から除外する
ことを特徴とする請求項1から8のいずれか1項に記載のカラオケ装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2013−20265(P2013−20265A)
【公開日】平成25年1月31日(2013.1.31)
【国際特許分類】
【出願番号】特願2012−209882(P2012−209882)
【出願日】平成24年9月24日(2012.9.24)
【分割の表示】特願2007−108408(P2007−108408)の分割
【原出願日】平成19年4月17日(2007.4.17)
【出願人】(000004075)ヤマハ株式会社 (5,930)
【Fターム(参考)】