説明

歌唱音声評価装置

【課題】歌唱音声を解析して声質を判定するだけでなく、声質を切り替える技法で歌唱されているかどうかを判定すること。
【解決手段】本発明の実施形態におけるカラオケ装置は、歌唱音声を取得する取得手段と、歌唱音声をフレームごとに周波数スペクトルに変換する変換手段と、各フレームの周波数スペクトルにおけるピーク値とディップ値との比に応じた歌唱SN比を算出する算出手段と、歌唱SN比の分布に応じて、歌唱音声が第1の声質もしくは第2の声質で歌唱された音声、または特定の技法により歌唱された音声であると判定する判定手段と、判定結果に応じた情報を出力する出力手段とを具備する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、歌唱音声における声質または特定の歌唱技法を判定する技術に関する。
【背景技術】
【0002】
カラオケ装置において、歌唱音声を解析して評価する技術がある。この評価においては、一般には歌唱の上手さの程度を反映した評価点を算出することが多いが、歌唱者の歌唱音声から声質を判定して評価点へ反映する場合もある。このような声質について客観的な判定をするための技術が、例えば、特許文献1に開示されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特許4432893号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
ところで、特徴的な歌い方をする歌手が歌唱する楽曲においては、歌唱の技法のひとつとして、楽曲の途中で声質を切り替えて歌唱する場合がある。歌唱者は、地声としての声質での歌唱は容易である一方、地声と異なる声質を使って歌唱することは難しく、声質を切り替えて歌唱することはさらに難しい。しかしながら、声質について判定をする技術はあるが、声質を切り替える技法を用いた歌唱の判定をする技術はなかった。
本発明は、歌唱音声を解析して声質を判定するだけでなく、声質を切り替える技法で歌唱されているかどうかを判定することを目的とする。
【課題を解決するための手段】
【0005】
上述の課題を解決するため、本発明は、歌唱音声を取得する取得手段と、前記取得した歌唱音声をフレームごとに周波数スペクトルに変換する変換手段と、前記各フレームの周波数スペクトルにおけるピーク値とディップ値との比に応じた値を歌唱SN比として算出する算出手段と、前記算出された各フレームの歌唱SN比の分布に応じて、前記歌唱音声が第1の声質もしくは第2の声質で歌唱された音声、または特定の技法により歌唱された音声であると判定する判定手段と、前記判定結果に応じた情報を出力する出力手段とを具備し、前記判定手段は、前記算出された各フレームの歌唱SN比のうち、第1の値以下の割合が第1割合以上となる場合に、前記第1の声質で歌唱された音声と判定し、前記算出された各フレームの歌唱SN比のうち、前記第1の値より大きい第2の値以上の割合が第2割合以上となる場合に、前記第2の声質で歌唱された音声と判定し、前記算出された各フレームの歌唱SN比のうち、前記第1の値以上かつ前記第2の値より小さくなる第3の値以下の割合が第3割合以上であるとともに、前記第3の値より大きくかつ前記第2の値以下となる第4の値以上の割合が第4割合以上となる場合に、前記特定の技法により歌唱された音声と判定することを特徴とする歌唱音声評価装置を提供する。
【0006】
また、別の好ましい態様において、前記取得手段は、楽曲データの再生中における歌唱音声を取得し、前記算出手段は、前記楽曲データが示す歌唱すべき構成音が存在する期間に対応するフレームにおける前記歌唱SN比を算出することを特徴とする。
【0007】
また、別の好ましい態様において、前記判定手段は、前記取得した歌唱音声を複数の評価期間に分割し、前記評価期間ごとに前記判定を行い、前記第1の声質で歌唱された音声と判定した評価期間と前記第2の声質で歌唱された音声と判定した評価期間とが存在する場合には、複数の評価期間全体の歌唱音声が前記特定の技法により歌唱された音声と判定することを特徴とする。
【発明の効果】
【0008】
本発明によれば、歌唱音声を解析して声質を判定するだけでなく、声質を切り替える技法で歌唱されているかどうかを判定することができる。
【図面の簡単な説明】
【0009】
【図1】本発明の実施形態におけるカラオケ装置の構成を説明するブロック図である。
【図2】本発明の実施形態における切り替え技法判定機能の構成を説明する機能ブロック図である。
【図3】本発明の実施形態における歌唱SN比の算出方法を説明する図である。
【図4】本発明の実施形態における歌唱SN比C1、C2、C3、C4を説明する図である。
【図5】本発明の実施形態における評価基準情報に規定された判定基準を説明する図である。
【図6】本発明の実施形態における歌唱SN比の累積度数分布の例を示す図である。
【発明を実施するための形態】
【0010】
<実施形態>
[ハードウエア構成]
図1は、本発明の実施形態におけるカラオケ装置1の構成を説明するブロック図である。カラオケ装置1は、本発明の歌唱音声評価装置の一例であり、入力された歌唱音声の評価を行う装置である。カラオケ装置1は、歌唱者の歌唱音声が入力され、その歌唱音声の声質の判定および声質を切り替える技法(以下、切り替え技法という)での歌唱が行われているかの判定を行う。まず、カラオケ装置1のハードウエア構成について説明する。
【0011】
カラオケ装置1は、制御部10、操作部20、表示部30、通信部40、記憶部50、音響処理部60を有する。これらの各構成は、バスを介して接続されている。また、カラオケ装置1は、音響処理部60に接続されたスピーカ61およびマイクロフォン62を有する。
【0012】
制御部10は、CPU(Central Processing Unit)、RAM(Random Access Memory)、ROM(Read Only Memory)などを有する。制御部10は、ROMまたは記憶部50に記憶された制御プログラムを実行することにより、バスを介してカラオケ装置1の各部を制御する。この例においては、制御部10は、制御プログラムを実行することにより、入力された歌唱音声を解析して声質の判定および切り替え技法の判定を行うための切り替え技法判定機能を実現する。
【0013】
操作部20は、操作パネルなどに設けられた操作ボタン、リモコンに設けられた操作ボタン、キーボード、マウスなどの操作デバイスであって、歌唱者の操作を受け付けて、その内容を示す操作信号を制御部10に出力する。
表示部30は、液晶ディスプレイなどの表示デバイスであり、制御部10の制御に応じた内容の表示を行う。この表示の内容は、カラオケの楽曲の進行に応じた背景画像、歌詞テロップ、メニュー画面、歌唱音声の評価結果、声質および切り替え技法の判定結果などである。
通信部40は、制御部10の制御に応じて、インターネットなどの通信回線と接続して、サーバ装置などの通信装置と情報のやり取りを行う。制御部10は、通信部40を介して取得した情報を用いて、記憶部50に記憶される情報を更新するようにしてもよい。
記憶部50は、ハードディスク、不揮発性メモリなどの記憶手段であり、楽曲データ、歌唱音声データ、および評価基準情報をそれぞれ記憶する記憶領域を有する。
【0014】
楽曲データは、カラオケの歌唱対象となる楽曲に関連するデータが含まれ、例えば、ガイドメロディデータ(以下、GMデータという)、伴奏データ、歌詞データなどが含まれている。GMデータは、楽曲のボーカルパートのメロディを示すデータ、すなわち、歌唱すべき構成音の内容が指定されたデータであり、例えば、MIDI(Musical Instrument Digital Interface)形式により記述されている。伴奏データは、楽曲の伴奏の内容を示すデータであり、例えば、MIDI形式により記述されている。歌詞データは、楽曲の歌詞の内容を示すデータ、および表示部30に表示させた歌詞テロップを色替えするためのタイミングを示すデータを有する。また、楽曲データには、楽曲のサビ部分の位置、メロディの出だし部分の位置など、楽曲の各構成部分の位置を規定する情報も含まれていてもよい。
楽曲データは、歌唱者によって操作部20の操作により指定された楽曲に対応するものが制御部10によって読み出され、カラオケの伴奏音のスピーカ61からの出力、歌詞テロップの表示部30への表示に用いられる。
【0015】
歌唱音声データは、カラオケの対象となった楽曲を歌唱する歌唱者によって、マイクロフォン62から入力された歌唱音声を示すデータであり、例えば、WAVE形式などで記憶される。このようにして記憶される歌唱音声データは、制御部10によって、カラオケの対象となった楽曲を示す楽曲データに対応付けられる。
評価基準情報は、切り替え技法判定機能において用いられ、声質の判定および切り替え技法の判定をする判定基準を示す情報である(図5参照)。評価基準情報の具体的な内容については、後述する切り替え技法判定機能の説明において示すため、ここでは省略する。
【0016】
マイクロフォン62は、歌唱者の歌唱音声が入力され、歌唱音声を示すオーディオ信号を音響処理部60に出力する。スピーカ61は、音響処理部60から出力されるオーディオ信号を放音する。音響処理部60は、DSP(Digital Signal Processor)などの信号処理回路、MIDI形式の信号からオーディオ信号を生成する音源などを有する。音響処理部60は、マイクロフォン62から入力されるオーディオ信号をA/D変換して制御部10に出力する。音響処理部60は、制御部10から楽曲データに基づくMIDI形式の信号が入力され、その信号に基づいてオーディオ信号を生成する。音響処理部60は、このように生成したオーディオ信号、制御部10から出力されたオーディオ信号、マイクロフォン62から入力されたオーディオ信号などを、エフェクト処理、増幅処理などの信号処理を施してからスピーカ61に出力する。
【0017】
ここで、制御部10は、楽曲データを読み出して再生し、その楽曲の伴奏音をスピーカ61から出力させている再生期間において、音響処理部60から出力されるオーディオ信号を取得し、歌唱音声データを生成し、その楽曲データに対応付けて記憶部50へ記憶する。なお、歌唱音声データは、この再生期間以外の期間においても生成、記憶されるようにしてもよい。
以上が、カラオケ装置1のハードウエア構成についての説明である。
【0018】
[切り替え技法判定機能]
次に、カラオケ装置1の制御部10が制御プログラムを実行することによって実現される切り替え技法判定機能について説明する。なお、以下に説明する切り替え技法判定機能を実現する切り替え技法判定部100における各構成の一部または全部については、ハードウエアによって実現してもよい。
【0019】
図2は、本発明の実施形態における切り替え技法判定部100の構成を説明する機能ブロック図である。切り替え技法判定部100は、取得部101、変換部102、算出部103、判定部104および出力部105を有する。
【0020】
取得部101は、記憶部50に記憶された歌唱音声データのうち、予め決められた評価期間の歌唱音声に対応する部分(この例においては、楽曲全体)の歌唱音声データを取得して、変換部102に出力する。この例においては、取得部101は、楽曲データの再生中に順次生成される歌唱音声データを、順次取得して出力する。なお、取得部101は、楽曲データの再生が終了し、歌唱音声データが記憶部50へ全て記憶された後に、取得して出力するようにしてもよい。
【0021】
変換部102は、取得部101から出力された歌唱音声データについて、予め決められた時間長のフレームごとにFFT(Fast Fourier Transform)処理を施して、周波数スペクトルに変換する。変換部102は、各フレームにおける周波数スペクトルを示す情報を算出部103に出力する。
【0022】
算出部103は、各フレームについて、変換部102において変換された周波数スペクトルにおけるピーク値とディップ値との比に応じた値を歌唱音声のSN比(以下、歌唱SN比という)として算出する。ここで、算出部103は、歌唱音声データに対応する楽曲データに含まれるGMデータを参照して、歌唱すべき構成音が存在する期間を特定し、特定した期間に含まれるフレームについて、歌唱SN比を算出する。なお、算出部103は、歌唱すべき構成音が存在しない期間のフレームについても歌唱SN比を算出してもよい。この場合には、GMデータはなくてもよい。
算出部103は、このようにして算出した各フレームの歌唱SN比を示す情報を判定部104に出力する。この例における歌唱SN比の算出方法について図3を用いて説明する。
【0023】
図3は、本発明の実施形態における歌唱SN比の算出方法を説明する図である。図3において、スペクトルSpは、ある特定のフレームにおいて変換部102において変換された周波数スペクトルであり、横軸は周波数、縦軸は出力値を示す。スペクトルSpは、歌唱のピッチPfずつ離れた周波数f0、f1、f2・・・においてピークを持つ。
算出部103は、周波数f1におけるピーク値PLに応じて算出される値として歌唱音声のシグナル値を算出する。また、算出部103は、周波数f0と周波数f1との間のディップを示す周波数fdにおけるディップ値DLに応じて算出される値として歌唱音声のノイズ値を算出する。
【0024】
この例においては、算出部103は、図3(a)に示すように周波数f0とf1との中心周波数(f1−Pf/2)から、周波数f1とf2との中心周波数(f1+Pf/2)の周波数範囲(Pf)における出力値の積分値を算出(図3(a)における範囲Psの面積に相当)する。そして、算出部103は、算出した積分値を周波数範囲(Pf)で除算することにより、その周波数範囲(Pf)におけるスペクトルSpの出力値の平均値を算出し、この平均値を歌唱音声のシグナル値とする。
【0025】
また、算出部103は、図3(b)に示すように、歌唱のピッチPfの1/4幅の周波数範囲(Pf/4)における出力値の積分値を、周波数fdを含む様々な範囲で算出し、最も小さくなる積分値(図3(b)における範囲Pnの面積に相当)を特定する。そして、算出部103は、特定した積分値を周波数範囲(Pf/4)で除算することにより、その周波数範囲におけるスペクトルSpの平均値を算出し、この平均値を歌唱音声のノイズ値とする。
算出部103は、各フレームについて、このようにして算出した歌唱音声のシグナル値からノイズ値を除算することにより、歌唱SN比を算出する。
【0026】
なお、算出部103による歌唱SN比の算出方法は、上記方法に限らず、ピーク値とディップ値との比に応じた値を算出する方法であれば、他の方法であってもよい。例えば、算出部103は、上記算出方法のように単数のピーク、ディップを用いるのではなく、複数のピーク、複数のディップを用いて、シグナル値、ノイズ値を算出してもよい。また、算出部103は、単に、ピーク値PLをシグナル値、ディップ値DLをノイズ値としてもよい。また、算出部103は、スペクトルSpにおける調波成分をシグナル値、非調波成分をノイズ値としてもよい。この場合にであっても、シグナル値はピーク値に応じた値となり、ノイズ値はディップ値に応じた値となる。
【0027】
また、算出部103は、歌唱音声のシグナル値を以下のように算出してもよい。算出部103は、図3(c)に示すように周波数f0におけるピーク値PLの予め決められた割合(この例においては半値(PL/2))以上となる周波数範囲Pfwにおける出力値の積分値を算出(図3における範囲Psの面積に相当)してもよい。そして、算出部103は、算出した積分値を周波数範囲Pfwで除算することにより、その周波数範囲PfwにおけるスペクトルSpの出力値の平均値を算出し、この平均値を歌唱音声のシグナル値としてもよい。
【0028】
図2に戻って説明を続ける。判定部104は、算出部103において算出された各フレームの歌唱SN比と記憶部50に記憶された評価基準情報に規定された判定基準とに基づいて、評価期間における歌唱音声が第1の声質での歌唱であるか、第2の声質での歌唱であるか、切り替え技法による歌唱であるか、またはいずれにも該当しないかを判定する。
第1の声質での歌唱であると判定される歌唱音声は、歌唱SN比が小さい(歌唱音声のノイズ成分が大きい)側に分布し、第2の声質での歌唱であると判定される歌唱音声は、歌唱SN比が大きい(歌唱音声のノイズ成分が小さい)側に分布し、切り替え技法による歌唱であると判定される歌唱音声は、歌唱SN比が小さい値から大きい値まで広がって分布している。この例における判定部104の具体的な処理について説明する。
【0029】
まず、判定部104は、算出部103において算出された各フレームの歌唱SN比についてローパスフィルタを通して平滑化する。この例においては、歌唱SN比を時系列に並べ、各フレームから予め決められた時間分のフレームの歌唱SN比について下位(値の小さい歌唱SN比)から累積した累積相対度数をとった場合において、予め決められた割合(この例においては「0.8」)となる歌唱SN比を、その期間の中央に対応するフレーム(期間内において決められた位置に対応するフレームであればよい)の歌唱SN比とする。判定部104は、歌唱SN比が算出された全てのフレームについて同様な処理を行うことで、歌唱SN比を時系列に並べた場合における値の平滑化を行う。この平滑化は、移動平均などを用いて演算されたものであってもよい。
なお、判定部104は、この平滑化の処理を行わなくてもよいし、判定部104に代えて算出部103において平滑化の処理がされるようにしてもよい。
【0030】
判定部104は、平滑化の処理が施された各フレームの歌唱SN比について、この例においては下位(値の小さい歌唱SN比)から累積した累積度数分布を算出する。判定部104は、算出した累積度数分布を用いて、累積相対度数が予め決められた割合R1に対応する歌唱SN比C1、割合R2に対応する歌唱SN比C2、割合R3に対応する歌唱SN比C3、割合R4に対応する歌唱SN比C4を抽出する。この例においては、割合R1、R2、R3、R4は、それぞれ、「0.7」、「0.1」、「0.2」、「0.6」である。この例においては、割合R2は、割合R1より小さく、割合R4は、割合より大きい。なお、割合R1と割合R4とは同じ割合であってもよく、割合R2と割合R3とは同じ割合であってもよい。
【0031】
図4は、本発明の実施形態における歌唱SN比C1、C2、C3、C4を説明する図である。図4に示す分布曲線S0は、あるフレームの歌唱SN比についての累積相対度数分布を示す曲線であり、割合R1、R2、R3、R4と歌唱SN比C1、C2、C3、C4との対応関係について示している。この累積相対度数分布は、横軸は歌唱SN比、縦軸は累積相対度数を示している。
判定部104は、このようにして抽出した歌唱SN比C1、C2、C3、C4と評価基準情報に規定された判定基準とを比較して、判定処理を行う。
【0032】
図5は、本発明の実施形態における評価基準情報に規定された判定基準を説明する図である。図5に示すように評価基準情報に規定された判定基準には、歌唱SN比C1、C2、C3、C4がどのような条件を満たしたら、第1の声質、第2の声質または切り替え技法と判定されるかの基準が示されている。
【0033】
この例においては、第1の声質とする判定の条件は、歌唱SN比C1≦しきい値T1(第1の値)である。この判定条件は、算出部103において算出され平滑化された歌唱SN比のうち、しきい値T1以下となる歌唱SN比が割合R1以上すなわち70%(第1割合)以上であることを示している。このように、第1の声質は、歌唱SN比が小さいことから、歌唱音声に含まれるノイズ成分が多く、ハスキーな声質であることを示している。
【0034】
第2の声質とする判定の条件は、歌唱SN比C2≧しきい値T2(第2の値)である。すなわち、算出部103において算出され平滑化された歌唱SN比のうち、しきい値T2未満となる歌唱SN比が割合R2未満すなわち10%未満であること(しきい値T2以上となる歌唱SN比が、90%(第2割合)以上であること)を示している。このように、第2の声質は、歌唱SN比が大きいことから、歌唱音声に含まれるノイズ成分が少なく、クリアな声質であることを示している。
【0035】
切り替え技法とする判定の条件は、歌唱SN比C3≦しきい値T3(第3の値)、かつ歌唱SN比C4≧しきい値T4(第4の値)である。この判定条件は、この判定条件は、算出部103において算出され平滑化された歌唱SN比のうち、しきい値T3以下となる歌唱SN比が割合R3以上すなわち20%(第3割合)以上であり、かつ、しきい値T4未満となる歌唱SN比が割合R4未満すなわち60%未満であること(しきい値T4以上となる歌唱SN比が、40%(第4割合)以上であること)を示している。このように、切り替え技法は、歌唱SN比が小さい値から大きい値まで分布していることを示していることから、ハスキーな声質とクリアな声質との双方を用いて歌唱していることを示している。ここで、各しきい値の関係は、T1≦T3<T4≦T2を満たしている。
【0036】
なお、各しきい値の関係をT1<T3<T4<T2として、T1=T3、T2=T4の場合が除かれるようにしてもよい。切り替え技法による歌唱の場合には、第1の声質と第2の声質とを切り替えるという難しい技法を用いている。そのため、楽曲中における長い期間において、歌唱音声に含まれるノイズ成分が第1の声質ほど多くなく、第2の声質ほど少なくない状態であったとしても、判定部104は、切り替え技法による歌唱として判定することができ、判定の条件を緩和することができる。
【0037】
上記の各しきい値は予め決められた値であるが、操作部20への操作により、値を変更可能にしてもよい。この場合には、全てのしきい値を相関なく変更可能に構成してもよいし、しきい値T1などいずれかのしきい値を変更すると、他のしきい値が連動して変更されるようにしてもよい。例えば、しきい値T1が変更されると、しきい値T1、T2の比が一定になるなど特定の相関を持った状態を維持して、しきい値T2が変更されるようにしてもよい。割合R1、R2、R3、R4についても同様である。
【0038】
判定部104は、平滑化の処理が施された各フレームの歌唱SN比と、上記判定基準とを用いて、評価期間における歌唱音声が第1の声質での歌唱であるか、第2の声質での歌唱であるか、切り替え技法による歌唱であるか、またはいずれにも該当しないかを判定し、判定した結果を示す情報を出力部105に出力する。
ここで、第1の声質での歌唱と判定される場合、第2の声質での歌唱と判定される場合、切り替え技法による歌唱と判定される場合の累積度数分布について、図6を用いて説明する。
【0039】
図6は、本発明の実施形態における歌唱SN比の累積相対度数分布の例を示す図である。図6に示す累積相対度数分布は、横軸は歌唱SN比、縦軸は累積相対度数を示している。分布曲線S1、S2、S3、S4は、平滑化の処理が施された各フレームの歌唱SN比についての複数の例について、累積度数分布を示す曲線である。
【0040】
分布曲線S1によれば、C1<T1、C2<T2、C3<T3、C4<T4であるため、判定基準における第1の声質での歌唱と判定する条件のみを満たす。したがって、判定部104は、歌唱SN比の累積相対度数が分布曲線S1のような場合には、判定期間における歌唱音声は、第1の声質での歌唱であると判定する。
分布曲線S2によれば、C1>T1、C2>T2、C3>T3、C4>T4であるため、判定基準における第2の声質での歌唱と判定する条件のみを満たす。したがって、判定部104は、歌唱SN比の累積相対度数が分布曲線S2のような場合には、判定期間における歌唱音声は、第2の声質での歌唱であると判定する。
分布曲線S3によれば、C1>T1、C2<T2、C3<T3、C4>T4であるため、判定基準における切り替え技法による歌唱と判定する条件のみを満たす。したがって、判定部104は、歌唱SN比の累積相対度数が分布曲線S3のような場合には、判定期間における歌唱音声は、切り替え技法による歌唱であると判定する。
分布曲線S4によれば、C1>T1、C2<T2、C3<T3、C4<T4であるため、判定基準における各条件のいずれも満たさない。したがって、判定部104は、歌唱SN比の累積相対度数が分布曲線S4のような場合には、判定期間における歌唱音声は、第1の声質、第2の声質、切り替え技法のいずれの歌唱にも該当しないと判定する。
【0041】
図2に戻って説明を続ける。出力部105は、判定部104から出力された情報に基づいて、表示部30に表示させる内容を決定して、その内容を表示部30に表示させるための制御情報を出力する。表示部30において表示させる内容とは、カラオケにおける歌唱音声がどのような声質での歌唱であったか、また切り替え技法による歌唱であったかを示す内容、歌唱のうまさの程度を示す評価点の算出を行う構成を有している場合に、この判定結果を用いて算出された評価点を示す内容などがある。このように、出力部105は、判定部104の判定結果に応じた情報を出力すればよい。
【0042】
上述したように、本発明の実施形態におけるカラオケ装置1は、歌唱者の歌唱音声を解析して、第1の声質での歌唱であるか、第2の声質での歌唱であるか、切り替え技法による歌唱であるか、いずれの歌唱にも該当しないかを判定することができる。
【0043】
<変形例>
以上、本発明の実施形態について説明したが、本発明は以下のように、さまざまな態様で実施可能である。
[変形例1]
上述した実施形態において、カラオケ装置1は、楽曲が終了した後、楽曲全体を1つの評価期間として歌唱の評価をしていたが、1つの楽曲を複数の評価期間に分割して、各期間において評価をしてもよい。例えば、複数の評価期間とは、楽曲の構成単位、例えば、歌詞の1番に相当する期間と2番に相当する期間であってもよいし、一定時間単位で区切られた期間であってもよい。なお、区切られた期間ごとに評価をしたとしても、楽曲全体としての評価期間での評価も行ってもよい。
【0044】
この場合には、判定部104は、楽曲データを参照したり、計時したりして複数の評価期間を認識し、各評価期間に対応するフレームの歌唱SN比について累積相対度数の分布により判定を行うようにすればよい。このとき、判定部104は、同じ楽曲中における異なる評価期間において第1の声質での歌唱であると判定された期間と第2の声質での歌唱であると判定された期間があった場合には、楽曲全体としての評価期間において切り替え技法による歌唱がされていると判定されなくても、切り替え技法による歌唱がされていると判定するようにしてもよいし、楽曲全体としての評価期間での評価を行わずに、切り替え技法による歌唱がされていると判定するようにしてもよい。
【0045】
[変形例2]
上述した実施形態において、判定部104は、各フレームの歌唱SN比についての累積相対度数の分布を用いて判定処理を行っていたが、他の統計手法を用いて歌唱SN比の分布を算出して判定処理を行ってもよい。この場合であっても、判定部104は、この分布の算出結果から、評価期間において、歌唱音声について歌唱SN比が小さい(歌唱音声のノイズ成分が大きい)側に分布しているか、歌唱SN比が大きい(歌唱音声のノイズ成分が小さい)側に分布しているか、歌唱SN比が小さい値から大きい値まで広がって分布しているかにより、判定の処理をすればよい。
【0046】
[変形例3]
上述した実施形態においては、出力部105から出力される情報は、判定部104における判定結果に応じた内容を表示部30に表示させるための情報であったが、それ以外の内容を示す情報であってもよい。出力部105から出力される情報は、歌唱者に判定結果を報知するためのものであればよいから、例えば、判定結果の内容を声で表した音声データであってもよい。また、出力部105から出力される情報は、音響処理部60における音源を用いて発音させるためのMIDI形式のシーケンスデータであってもよい
【0047】
なお、歌唱者に判定結果を報知するものとしては、発光、香り、動きなどを用いたものであってもよい。この場合には、様々な発光態様で発光するLED(Light Emitting Diode)などを用いた発光装置、様々な香りの成分をもつガスを放出可能な香り放出装置、様々な動作を行うことが可能なロボットなどを外部装置として接続する。そして、その外部装置を時系列に沿って制御するための制御情報を出力部105から出力される情報とすればよい。
【0048】
[変形例4]
上述した実施形態における制御プログラムは、磁気記録媒体(磁気テープ、磁気ディスクなど)、光記録媒体(光ディスクなど)、光磁気記録媒体、半導体メモリなどのコンピュータ読み取り可能な記録媒体に記憶した状態で提供し得る。また、カラオケ装置1は、制御プログラムをネットワーク経由でダウンロードしてもよい。
【符号の説明】
【0049】
1…カラオケ装置、10…制御部、20…操作部、30…表示部、40…通信部、50…記憶部、60…音響処理部、61…スピーカ、62…マイクロフォン、100…切り替え技法判定部、101…取得部、102…変換部、103…算出部、104…判定部、105…出力部

【特許請求の範囲】
【請求項1】
歌唱音声を取得する取得手段と、
前記取得した歌唱音声をフレームごとに周波数スペクトルに変換する変換手段と、
前記各フレームの周波数スペクトルにおけるピーク値とディップ値との比に応じた値を歌唱SN比として算出する算出手段と、
前記算出された各フレームの歌唱SN比の分布に応じて、前記歌唱音声が第1の声質もしくは第2の声質で歌唱された音声、または特定の技法により歌唱された音声であると判定する判定手段と、
前記判定結果に応じた情報を出力する出力手段と
を具備し、
前記判定手段は、
前記算出された各フレームの歌唱SN比のうち、第1の値以下の割合が第1割合以上となる場合に、前記第1の声質で歌唱された音声と判定し、
前記算出された各フレームの歌唱SN比のうち、前記第1の値より大きい第2の値以上の割合が第2割合以上となる場合に、前記第2の声質で歌唱された音声と判定し、
前記算出された各フレームの歌唱SN比のうち、前記第1の値以上かつ前記第2の値より小さくなる第3の値以下の割合が第3割合以上であるとともに、前記第3の値より大きくかつ前記第2の値以下となる第4の値以上の割合が第4割合以上となる場合に、前記特定の技法により歌唱された音声と判定する
ことを特徴とする歌唱音声評価装置。
【請求項2】
前記取得手段は、楽曲データの再生中における歌唱音声を取得し、
前記算出手段は、前記楽曲データが示す歌唱すべき構成音が存在する期間に対応するフレームにおける前記歌唱SN比を算出する
ことを特徴とする請求項1に記載の歌唱音声評価装置。
【請求項3】
前記判定手段は、前記取得した歌唱音声を複数の評価期間に分割し、前記評価期間ごとに前記判定を行い、前記第1の声質で歌唱された音声と判定した評価期間と前記第2の声質で歌唱された音声と判定した評価期間とが存在する場合には、複数の評価期間全体の歌唱音声が前記特定の技法により歌唱された音声と判定する
ことを特徴とする請求項1または請求項2に記載の歌唱音声評価装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate