歌唱音声評価装置

【課題】歌唱音声を解析して声質を判定するだけでなく、声質を切り替える技法で歌唱されているかどうかを判定すること。
【解決手段】本発明の実施形態におけるカラオケ装置は、歌唱音声を取得する取得手段と、歌唱音声をフレームごとに周波数スペクトルに変換する変換手段と、各フレームの周波数スペクトルにおけるピーク値とディップ値との比に応じた歌唱ＳＮ比を算出する算出手段と、歌唱ＳＮ比の分布に応じて、歌唱音声が第１の声質もしくは第２の声質で歌唱された音声、または特定の技法により歌唱された音声であると判定する判定手段と、判定結果に応じた情報を出力する出力手段とを具備する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、歌唱音声における声質または特定の歌唱技法を判定する技術に関する。
【背景技術】
【０００２】
カラオケ装置において、歌唱音声を解析して評価する技術がある。この評価においては、一般には歌唱の上手さの程度を反映した評価点を算出することが多いが、歌唱者の歌唱音声から声質を判定して評価点へ反映する場合もある。このような声質について客観的な判定をするための技術が、例えば、特許文献１に開示されている。
【先行技術文献】
【特許文献】
【０００３】
【特許文献１】特許４４３２８９３号公報
【発明の概要】
【発明が解決しようとする課題】
【０００４】
ところで、特徴的な歌い方をする歌手が歌唱する楽曲においては、歌唱の技法のひとつとして、楽曲の途中で声質を切り替えて歌唱する場合がある。歌唱者は、地声としての声質での歌唱は容易である一方、地声と異なる声質を使って歌唱することは難しく、声質を切り替えて歌唱することはさらに難しい。しかしながら、声質について判定をする技術はあるが、声質を切り替える技法を用いた歌唱の判定をする技術はなかった。
本発明は、歌唱音声を解析して声質を判定するだけでなく、声質を切り替える技法で歌唱されているかどうかを判定することを目的とする。
【課題を解決するための手段】
【０００５】
上述の課題を解決するため、本発明は、歌唱音声を取得する取得手段と、前記取得した歌唱音声をフレームごとに周波数スペクトルに変換する変換手段と、前記各フレームの周波数スペクトルにおけるピーク値とディップ値との比に応じた値を歌唱ＳＮ比として算出する算出手段と、前記算出された各フレームの歌唱ＳＮ比の分布に応じて、前記歌唱音声が第１の声質もしくは第２の声質で歌唱された音声、または特定の技法により歌唱された音声であると判定する判定手段と、前記判定結果に応じた情報を出力する出力手段とを具備し、前記判定手段は、前記算出された各フレームの歌唱ＳＮ比のうち、第１の値以下の割合が第１割合以上となる場合に、前記第１の声質で歌唱された音声と判定し、前記算出された各フレームの歌唱ＳＮ比のうち、前記第１の値より大きい第２の値以上の割合が第２割合以上となる場合に、前記第２の声質で歌唱された音声と判定し、前記算出された各フレームの歌唱ＳＮ比のうち、前記第１の値以上かつ前記第２の値より小さくなる第３の値以下の割合が第３割合以上であるとともに、前記第３の値より大きくかつ前記第２の値以下となる第４の値以上の割合が第４割合以上となる場合に、前記特定の技法により歌唱された音声と判定することを特徴とする歌唱音声評価装置を提供する。
【０００６】
また、別の好ましい態様において、前記取得手段は、楽曲データの再生中における歌唱音声を取得し、前記算出手段は、前記楽曲データが示す歌唱すべき構成音が存在する期間に対応するフレームにおける前記歌唱ＳＮ比を算出することを特徴とする。
【０００７】
また、別の好ましい態様において、前記判定手段は、前記取得した歌唱音声を複数の評価期間に分割し、前記評価期間ごとに前記判定を行い、前記第１の声質で歌唱された音声と判定した評価期間と前記第２の声質で歌唱された音声と判定した評価期間とが存在する場合には、複数の評価期間全体の歌唱音声が前記特定の技法により歌唱された音声と判定することを特徴とする。
【発明の効果】
【０００８】
本発明によれば、歌唱音声を解析して声質を判定するだけでなく、声質を切り替える技法で歌唱されているかどうかを判定することができる。
【図面の簡単な説明】
【０００９】
【図１】本発明の実施形態におけるカラオケ装置の構成を説明するブロック図である。
【図２】本発明の実施形態における切り替え技法判定機能の構成を説明する機能ブロック図である。
【図３】本発明の実施形態における歌唱ＳＮ比の算出方法を説明する図である。
【図４】本発明の実施形態における歌唱ＳＮ比Ｃ１、Ｃ２、Ｃ３、Ｃ４を説明する図である。
【図５】本発明の実施形態における評価基準情報に規定された判定基準を説明する図である。
【図６】本発明の実施形態における歌唱ＳＮ比の累積度数分布の例を示す図である。
【発明を実施するための形態】
【００１０】
＜実施形態＞
[ハードウエア構成]
図１は、本発明の実施形態におけるカラオケ装置１の構成を説明するブロック図である。カラオケ装置１は、本発明の歌唱音声評価装置の一例であり、入力された歌唱音声の評価を行う装置である。カラオケ装置１は、歌唱者の歌唱音声が入力され、その歌唱音声の声質の判定および声質を切り替える技法（以下、切り替え技法という）での歌唱が行われているかの判定を行う。まず、カラオケ装置１のハードウエア構成について説明する。
【００１１】
カラオケ装置１は、制御部１０、操作部２０、表示部３０、通信部４０、記憶部５０、音響処理部６０を有する。これらの各構成は、バスを介して接続されている。また、カラオケ装置１は、音響処理部６０に接続されたスピーカ６１およびマイクロフォン６２を有する。
【００１２】
制御部１０は、ＣＰＵ（Central Processing Unit）、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）などを有する。制御部１０は、ＲＯＭまたは記憶部５０に記憶された制御プログラムを実行することにより、バスを介してカラオケ装置１の各部を制御する。この例においては、制御部１０は、制御プログラムを実行することにより、入力された歌唱音声を解析して声質の判定および切り替え技法の判定を行うための切り替え技法判定機能を実現する。
【００１３】
操作部２０は、操作パネルなどに設けられた操作ボタン、リモコンに設けられた操作ボタン、キーボード、マウスなどの操作デバイスであって、歌唱者の操作を受け付けて、その内容を示す操作信号を制御部１０に出力する。
表示部３０は、液晶ディスプレイなどの表示デバイスであり、制御部１０の制御に応じた内容の表示を行う。この表示の内容は、カラオケの楽曲の進行に応じた背景画像、歌詞テロップ、メニュー画面、歌唱音声の評価結果、声質および切り替え技法の判定結果などである。
通信部４０は、制御部１０の制御に応じて、インターネットなどの通信回線と接続して、サーバ装置などの通信装置と情報のやり取りを行う。制御部１０は、通信部４０を介して取得した情報を用いて、記憶部５０に記憶される情報を更新するようにしてもよい。
記憶部５０は、ハードディスク、不揮発性メモリなどの記憶手段であり、楽曲データ、歌唱音声データ、および評価基準情報をそれぞれ記憶する記憶領域を有する。
【００１４】
楽曲データは、カラオケの歌唱対象となる楽曲に関連するデータが含まれ、例えば、ガイドメロディデータ（以下、ＧＭデータという）、伴奏データ、歌詞データなどが含まれている。ＧＭデータは、楽曲のボーカルパートのメロディを示すデータ、すなわち、歌唱すべき構成音の内容が指定されたデータであり、例えば、ＭＩＤＩ（Musical Instrument Digital Interface）形式により記述されている。伴奏データは、楽曲の伴奏の内容を示すデータであり、例えば、ＭＩＤＩ形式により記述されている。歌詞データは、楽曲の歌詞の内容を示すデータ、および表示部３０に表示させた歌詞テロップを色替えするためのタイミングを示すデータを有する。また、楽曲データには、楽曲のサビ部分の位置、メロディの出だし部分の位置など、楽曲の各構成部分の位置を規定する情報も含まれていてもよい。
楽曲データは、歌唱者によって操作部２０の操作により指定された楽曲に対応するものが制御部１０によって読み出され、カラオケの伴奏音のスピーカ６１からの出力、歌詞テロップの表示部３０への表示に用いられる。
【００１５】
歌唱音声データは、カラオケの対象となった楽曲を歌唱する歌唱者によって、マイクロフォン６２から入力された歌唱音声を示すデータであり、例えば、ＷＡＶＥ形式などで記憶される。このようにして記憶される歌唱音声データは、制御部１０によって、カラオケの対象となった楽曲を示す楽曲データに対応付けられる。
評価基準情報は、切り替え技法判定機能において用いられ、声質の判定および切り替え技法の判定をする判定基準を示す情報である（図５参照）。評価基準情報の具体的な内容については、後述する切り替え技法判定機能の説明において示すため、ここでは省略する。
【００１６】
マイクロフォン６２は、歌唱者の歌唱音声が入力され、歌唱音声を示すオーディオ信号を音響処理部６０に出力する。スピーカ６１は、音響処理部６０から出力されるオーディオ信号を放音する。音響処理部６０は、ＤＳＰ（Digital Signal Processor）などの信号処理回路、ＭＩＤＩ形式の信号からオーディオ信号を生成する音源などを有する。音響処理部６０は、マイクロフォン６２から入力されるオーディオ信号をＡ／Ｄ変換して制御部１０に出力する。音響処理部６０は、制御部１０から楽曲データに基づくＭＩＤＩ形式の信号が入力され、その信号に基づいてオーディオ信号を生成する。音響処理部６０は、このように生成したオーディオ信号、制御部１０から出力されたオーディオ信号、マイクロフォン６２から入力されたオーディオ信号などを、エフェクト処理、増幅処理などの信号処理を施してからスピーカ６１に出力する。
【００１７】
ここで、制御部１０は、楽曲データを読み出して再生し、その楽曲の伴奏音をスピーカ６１から出力させている再生期間において、音響処理部６０から出力されるオーディオ信号を取得し、歌唱音声データを生成し、その楽曲データに対応付けて記憶部５０へ記憶する。なお、歌唱音声データは、この再生期間以外の期間においても生成、記憶されるようにしてもよい。
以上が、カラオケ装置１のハードウエア構成についての説明である。
【００１８】
[切り替え技法判定機能]
次に、カラオケ装置１の制御部１０が制御プログラムを実行することによって実現される切り替え技法判定機能について説明する。なお、以下に説明する切り替え技法判定機能を実現する切り替え技法判定部１００における各構成の一部または全部については、ハードウエアによって実現してもよい。
【００１９】
図２は、本発明の実施形態における切り替え技法判定部１００の構成を説明する機能ブロック図である。切り替え技法判定部１００は、取得部１０１、変換部１０２、算出部１０３、判定部１０４および出力部１０５を有する。
【００２０】
取得部１０１は、記憶部５０に記憶された歌唱音声データのうち、予め決められた評価期間の歌唱音声に対応する部分（この例においては、楽曲全体）の歌唱音声データを取得して、変換部１０２に出力する。この例においては、取得部１０１は、楽曲データの再生中に順次生成される歌唱音声データを、順次取得して出力する。なお、取得部１０１は、楽曲データの再生が終了し、歌唱音声データが記憶部５０へ全て記憶された後に、取得して出力するようにしてもよい。
【００２１】
変換部１０２は、取得部１０１から出力された歌唱音声データについて、予め決められた時間長のフレームごとにＦＦＴ（Fast Fourier Transform）処理を施して、周波数スペクトルに変換する。変換部１０２は、各フレームにおける周波数スペクトルを示す情報を算出部１０３に出力する。
【００２２】
算出部１０３は、各フレームについて、変換部１０２において変換された周波数スペクトルにおけるピーク値とディップ値との比に応じた値を歌唱音声のＳＮ比（以下、歌唱ＳＮ比という）として算出する。ここで、算出部１０３は、歌唱音声データに対応する楽曲データに含まれるＧＭデータを参照して、歌唱すべき構成音が存在する期間を特定し、特定した期間に含まれるフレームについて、歌唱ＳＮ比を算出する。なお、算出部１０３は、歌唱すべき構成音が存在しない期間のフレームについても歌唱ＳＮ比を算出してもよい。この場合には、ＧＭデータはなくてもよい。
算出部１０３は、このようにして算出した各フレームの歌唱ＳＮ比を示す情報を判定部１０４に出力する。この例における歌唱ＳＮ比の算出方法について図３を用いて説明する。
【００２３】
図３は、本発明の実施形態における歌唱ＳＮ比の算出方法を説明する図である。図３において、スペクトルＳｐは、ある特定のフレームにおいて変換部１０２において変換された周波数スペクトルであり、横軸は周波数、縦軸は出力値を示す。スペクトルＳｐは、歌唱のピッチＰｆずつ離れた周波数ｆ０、ｆ１、ｆ２・・・においてピークを持つ。
算出部１０３は、周波数ｆ１におけるピーク値ＰＬに応じて算出される値として歌唱音声のシグナル値を算出する。また、算出部１０３は、周波数ｆ０と周波数ｆ１との間のディップを示す周波数ｆｄにおけるディップ値ＤＬに応じて算出される値として歌唱音声のノイズ値を算出する。
【００２４】
この例においては、算出部１０３は、図３（ａ）に示すように周波数ｆ０とｆ１との中心周波数（ｆ１−Ｐｆ／２）から、周波数ｆ１とｆ２との中心周波数（ｆ１＋Ｐｆ／２）の周波数範囲（Ｐｆ）における出力値の積分値を算出（図３（ａ）における範囲Ｐｓの面積に相当）する。そして、算出部１０３は、算出した積分値を周波数範囲（Ｐｆ）で除算することにより、その周波数範囲（Ｐｆ）におけるスペクトルＳｐの出力値の平均値を算出し、この平均値を歌唱音声のシグナル値とする。
【００２５】
また、算出部１０３は、図３（ｂ）に示すように、歌唱のピッチＰｆの１／４幅の周波数範囲（Ｐｆ／４）における出力値の積分値を、周波数ｆｄを含む様々な範囲で算出し、最も小さくなる積分値（図３（ｂ）における範囲Ｐｎの面積に相当）を特定する。そして、算出部１０３は、特定した積分値を周波数範囲（Ｐｆ／４）で除算することにより、その周波数範囲におけるスペクトルＳｐの平均値を算出し、この平均値を歌唱音声のノイズ値とする。
算出部１０３は、各フレームについて、このようにして算出した歌唱音声のシグナル値からノイズ値を除算することにより、歌唱ＳＮ比を算出する。
【００２６】
なお、算出部１０３による歌唱ＳＮ比の算出方法は、上記方法に限らず、ピーク値とディップ値との比に応じた値を算出する方法であれば、他の方法であってもよい。例えば、算出部１０３は、上記算出方法のように単数のピーク、ディップを用いるのではなく、複数のピーク、複数のディップを用いて、シグナル値、ノイズ値を算出してもよい。また、算出部１０３は、単に、ピーク値ＰＬをシグナル値、ディップ値ＤＬをノイズ値としてもよい。また、算出部１０３は、スペクトルＳｐにおける調波成分をシグナル値、非調波成分をノイズ値としてもよい。この場合にであっても、シグナル値はピーク値に応じた値となり、ノイズ値はディップ値に応じた値となる。
【００２７】
また、算出部１０３は、歌唱音声のシグナル値を以下のように算出してもよい。算出部１０３は、図３（ｃ）に示すように周波数ｆ０におけるピーク値ＰＬの予め決められた割合（この例においては半値（ＰＬ／２））以上となる周波数範囲Ｐｆｗにおける出力値の積分値を算出（図３における範囲Ｐｓの面積に相当）してもよい。そして、算出部１０３は、算出した積分値を周波数範囲Ｐｆｗで除算することにより、その周波数範囲ＰｆｗにおけるスペクトルＳｐの出力値の平均値を算出し、この平均値を歌唱音声のシグナル値としてもよい。
【００２８】
図２に戻って説明を続ける。判定部１０４は、算出部１０３において算出された各フレームの歌唱ＳＮ比と記憶部５０に記憶された評価基準情報に規定された判定基準とに基づいて、評価期間における歌唱音声が第１の声質での歌唱であるか、第２の声質での歌唱であるか、切り替え技法による歌唱であるか、またはいずれにも該当しないかを判定する。
第１の声質での歌唱であると判定される歌唱音声は、歌唱ＳＮ比が小さい（歌唱音声のノイズ成分が大きい）側に分布し、第２の声質での歌唱であると判定される歌唱音声は、歌唱ＳＮ比が大きい（歌唱音声のノイズ成分が小さい）側に分布し、切り替え技法による歌唱であると判定される歌唱音声は、歌唱ＳＮ比が小さい値から大きい値まで広がって分布している。この例における判定部１０４の具体的な処理について説明する。
【００２９】
まず、判定部１０４は、算出部１０３において算出された各フレームの歌唱ＳＮ比についてローパスフィルタを通して平滑化する。この例においては、歌唱ＳＮ比を時系列に並べ、各フレームから予め決められた時間分のフレームの歌唱ＳＮ比について下位（値の小さい歌唱ＳＮ比）から累積した累積相対度数をとった場合において、予め決められた割合（この例においては「０．８」）となる歌唱ＳＮ比を、その期間の中央に対応するフレーム（期間内において決められた位置に対応するフレームであればよい）の歌唱ＳＮ比とする。判定部１０４は、歌唱ＳＮ比が算出された全てのフレームについて同様な処理を行うことで、歌唱ＳＮ比を時系列に並べた場合における値の平滑化を行う。この平滑化は、移動平均などを用いて演算されたものであってもよい。
なお、判定部１０４は、この平滑化の処理を行わなくてもよいし、判定部１０４に代えて算出部１０３において平滑化の処理がされるようにしてもよい。
【００３０】
判定部１０４は、平滑化の処理が施された各フレームの歌唱ＳＮ比について、この例においては下位（値の小さい歌唱ＳＮ比）から累積した累積度数分布を算出する。判定部１０４は、算出した累積度数分布を用いて、累積相対度数が予め決められた割合Ｒ１に対応する歌唱ＳＮ比Ｃ１、割合Ｒ２に対応する歌唱ＳＮ比Ｃ２、割合Ｒ３に対応する歌唱ＳＮ比Ｃ３、割合Ｒ４に対応する歌唱ＳＮ比Ｃ４を抽出する。この例においては、割合Ｒ１、Ｒ２、Ｒ３、Ｒ４は、それぞれ、「０．７」、「０．１」、「０．２」、「０．６」である。この例においては、割合Ｒ２は、割合Ｒ１より小さく、割合Ｒ４は、割合より大きい。なお、割合Ｒ１と割合Ｒ４とは同じ割合であってもよく、割合Ｒ２と割合Ｒ３とは同じ割合であってもよい。
【００３１】
図４は、本発明の実施形態における歌唱ＳＮ比Ｃ１、Ｃ２、Ｃ３、Ｃ４を説明する図である。図４に示す分布曲線Ｓ０は、あるフレームの歌唱ＳＮ比についての累積相対度数分布を示す曲線であり、割合Ｒ１、Ｒ２、Ｒ３、Ｒ４と歌唱ＳＮ比Ｃ１、Ｃ２、Ｃ３、Ｃ４との対応関係について示している。この累積相対度数分布は、横軸は歌唱ＳＮ比、縦軸は累積相対度数を示している。
判定部１０４は、このようにして抽出した歌唱ＳＮ比Ｃ１、Ｃ２、Ｃ３、Ｃ４と評価基準情報に規定された判定基準とを比較して、判定処理を行う。
【００３２】
図５は、本発明の実施形態における評価基準情報に規定された判定基準を説明する図である。図５に示すように評価基準情報に規定された判定基準には、歌唱ＳＮ比Ｃ１、Ｃ２、Ｃ３、Ｃ４がどのような条件を満たしたら、第１の声質、第２の声質または切り替え技法と判定されるかの基準が示されている。
【００３３】
この例においては、第１の声質とする判定の条件は、歌唱ＳＮ比Ｃ１≦しきい値Ｔ１（第１の値）である。この判定条件は、算出部１０３において算出され平滑化された歌唱ＳＮ比のうち、しきい値Ｔ１以下となる歌唱ＳＮ比が割合Ｒ１以上すなわち７０％（第１割合）以上であることを示している。このように、第１の声質は、歌唱ＳＮ比が小さいことから、歌唱音声に含まれるノイズ成分が多く、ハスキーな声質であることを示している。
【００３４】
第２の声質とする判定の条件は、歌唱ＳＮ比Ｃ２≧しきい値Ｔ２（第２の値）である。すなわち、算出部１０３において算出され平滑化された歌唱ＳＮ比のうち、しきい値Ｔ２未満となる歌唱ＳＮ比が割合Ｒ２未満すなわち１０％未満であること（しきい値Ｔ２以上となる歌唱ＳＮ比が、９０％（第２割合）以上であること）を示している。このように、第２の声質は、歌唱ＳＮ比が大きいことから、歌唱音声に含まれるノイズ成分が少なく、クリアな声質であることを示している。
【００３５】
切り替え技法とする判定の条件は、歌唱ＳＮ比Ｃ３≦しきい値Ｔ３（第３の値）、かつ歌唱ＳＮ比Ｃ４≧しきい値Ｔ４（第４の値）である。この判定条件は、この判定条件は、算出部１０３において算出され平滑化された歌唱ＳＮ比のうち、しきい値Ｔ３以下となる歌唱ＳＮ比が割合Ｒ３以上すなわち２０％（第３割合）以上であり、かつ、しきい値Ｔ４未満となる歌唱ＳＮ比が割合Ｒ４未満すなわち６０％未満であること（しきい値Ｔ４以上となる歌唱ＳＮ比が、４０％（第４割合）以上であること）を示している。このように、切り替え技法は、歌唱ＳＮ比が小さい値から大きい値まで分布していることを示していることから、ハスキーな声質とクリアな声質との双方を用いて歌唱していることを示している。ここで、各しきい値の関係は、Ｔ１≦Ｔ３＜Ｔ４≦Ｔ２を満たしている。
【００３６】
なお、各しきい値の関係をＴ１＜Ｔ３＜Ｔ４＜Ｔ２として、Ｔ１＝Ｔ３、Ｔ２＝Ｔ４の場合が除かれるようにしてもよい。切り替え技法による歌唱の場合には、第１の声質と第２の声質とを切り替えるという難しい技法を用いている。そのため、楽曲中における長い期間において、歌唱音声に含まれるノイズ成分が第１の声質ほど多くなく、第２の声質ほど少なくない状態であったとしても、判定部１０４は、切り替え技法による歌唱として判定することができ、判定の条件を緩和することができる。
【００３７】
上記の各しきい値は予め決められた値であるが、操作部２０への操作により、値を変更可能にしてもよい。この場合には、全てのしきい値を相関なく変更可能に構成してもよいし、しきい値Ｔ１などいずれかのしきい値を変更すると、他のしきい値が連動して変更されるようにしてもよい。例えば、しきい値Ｔ１が変更されると、しきい値Ｔ１、Ｔ２の比が一定になるなど特定の相関を持った状態を維持して、しきい値Ｔ２が変更されるようにしてもよい。割合Ｒ１、Ｒ２、Ｒ３、Ｒ４についても同様である。
【００３８】
判定部１０４は、平滑化の処理が施された各フレームの歌唱ＳＮ比と、上記判定基準とを用いて、評価期間における歌唱音声が第１の声質での歌唱であるか、第２の声質での歌唱であるか、切り替え技法による歌唱であるか、またはいずれにも該当しないかを判定し、判定した結果を示す情報を出力部１０５に出力する。
ここで、第１の声質での歌唱と判定される場合、第２の声質での歌唱と判定される場合、切り替え技法による歌唱と判定される場合の累積度数分布について、図６を用いて説明する。
【００３９】
図６は、本発明の実施形態における歌唱ＳＮ比の累積相対度数分布の例を示す図である。図６に示す累積相対度数分布は、横軸は歌唱ＳＮ比、縦軸は累積相対度数を示している。分布曲線Ｓ１、Ｓ２、Ｓ３、Ｓ４は、平滑化の処理が施された各フレームの歌唱ＳＮ比についての複数の例について、累積度数分布を示す曲線である。
【００４０】
分布曲線Ｓ１によれば、Ｃ１＜Ｔ１、Ｃ２＜Ｔ２、Ｃ３＜Ｔ３、Ｃ４＜Ｔ４であるため、判定基準における第１の声質での歌唱と判定する条件のみを満たす。したがって、判定部１０４は、歌唱ＳＮ比の累積相対度数が分布曲線Ｓ１のような場合には、判定期間における歌唱音声は、第１の声質での歌唱であると判定する。
分布曲線Ｓ２によれば、Ｃ１＞Ｔ１、Ｃ２＞Ｔ２、Ｃ３＞Ｔ３、Ｃ４＞Ｔ４であるため、判定基準における第２の声質での歌唱と判定する条件のみを満たす。したがって、判定部１０４は、歌唱ＳＮ比の累積相対度数が分布曲線Ｓ２のような場合には、判定期間における歌唱音声は、第２の声質での歌唱であると判定する。
分布曲線Ｓ３によれば、Ｃ１＞Ｔ１、Ｃ２＜Ｔ２、Ｃ３＜Ｔ３、Ｃ４＞Ｔ４であるため、判定基準における切り替え技法による歌唱と判定する条件のみを満たす。したがって、判定部１０４は、歌唱ＳＮ比の累積相対度数が分布曲線Ｓ３のような場合には、判定期間における歌唱音声は、切り替え技法による歌唱であると判定する。
分布曲線Ｓ４によれば、Ｃ１＞Ｔ１、Ｃ２＜Ｔ２、Ｃ３＜Ｔ３、Ｃ４＜Ｔ４であるため、判定基準における各条件のいずれも満たさない。したがって、判定部１０４は、歌唱ＳＮ比の累積相対度数が分布曲線Ｓ４のような場合には、判定期間における歌唱音声は、第１の声質、第２の声質、切り替え技法のいずれの歌唱にも該当しないと判定する。
【００４１】
図２に戻って説明を続ける。出力部１０５は、判定部１０４から出力された情報に基づいて、表示部３０に表示させる内容を決定して、その内容を表示部３０に表示させるための制御情報を出力する。表示部３０において表示させる内容とは、カラオケにおける歌唱音声がどのような声質での歌唱であったか、また切り替え技法による歌唱であったかを示す内容、歌唱のうまさの程度を示す評価点の算出を行う構成を有している場合に、この判定結果を用いて算出された評価点を示す内容などがある。このように、出力部１０５は、判定部１０４の判定結果に応じた情報を出力すればよい。
【００４２】
上述したように、本発明の実施形態におけるカラオケ装置１は、歌唱者の歌唱音声を解析して、第１の声質での歌唱であるか、第２の声質での歌唱であるか、切り替え技法による歌唱であるか、いずれの歌唱にも該当しないかを判定することができる。
【００４３】
＜変形例＞
以上、本発明の実施形態について説明したが、本発明は以下のように、さまざまな態様で実施可能である。
[変形例１]
上述した実施形態において、カラオケ装置１は、楽曲が終了した後、楽曲全体を１つの評価期間として歌唱の評価をしていたが、１つの楽曲を複数の評価期間に分割して、各期間において評価をしてもよい。例えば、複数の評価期間とは、楽曲の構成単位、例えば、歌詞の１番に相当する期間と２番に相当する期間であってもよいし、一定時間単位で区切られた期間であってもよい。なお、区切られた期間ごとに評価をしたとしても、楽曲全体としての評価期間での評価も行ってもよい。
【００４４】
この場合には、判定部１０４は、楽曲データを参照したり、計時したりして複数の評価期間を認識し、各評価期間に対応するフレームの歌唱ＳＮ比について累積相対度数の分布により判定を行うようにすればよい。このとき、判定部１０４は、同じ楽曲中における異なる評価期間において第１の声質での歌唱であると判定された期間と第２の声質での歌唱であると判定された期間があった場合には、楽曲全体としての評価期間において切り替え技法による歌唱がされていると判定されなくても、切り替え技法による歌唱がされていると判定するようにしてもよいし、楽曲全体としての評価期間での評価を行わずに、切り替え技法による歌唱がされていると判定するようにしてもよい。
【００４５】
[変形例２]
上述した実施形態において、判定部１０４は、各フレームの歌唱ＳＮ比についての累積相対度数の分布を用いて判定処理を行っていたが、他の統計手法を用いて歌唱ＳＮ比の分布を算出して判定処理を行ってもよい。この場合であっても、判定部１０４は、この分布の算出結果から、評価期間において、歌唱音声について歌唱ＳＮ比が小さい（歌唱音声のノイズ成分が大きい）側に分布しているか、歌唱ＳＮ比が大きい（歌唱音声のノイズ成分が小さい）側に分布しているか、歌唱ＳＮ比が小さい値から大きい値まで広がって分布しているかにより、判定の処理をすればよい。
【００４６】
[変形例３]
上述した実施形態においては、出力部１０５から出力される情報は、判定部１０４における判定結果に応じた内容を表示部３０に表示させるための情報であったが、それ以外の内容を示す情報であってもよい。出力部１０５から出力される情報は、歌唱者に判定結果を報知するためのものであればよいから、例えば、判定結果の内容を声で表した音声データであってもよい。また、出力部１０５から出力される情報は、音響処理部６０における音源を用いて発音させるためのＭＩＤＩ形式のシーケンスデータであってもよい
【００４７】
なお、歌唱者に判定結果を報知するものとしては、発光、香り、動きなどを用いたものであってもよい。この場合には、様々な発光態様で発光するＬＥＤ（Light Emitting Diode）などを用いた発光装置、様々な香りの成分をもつガスを放出可能な香り放出装置、様々な動作を行うことが可能なロボットなどを外部装置として接続する。そして、その外部装置を時系列に沿って制御するための制御情報を出力部１０５から出力される情報とすればよい。
【００４８】
[変形例４]
上述した実施形態における制御プログラムは、磁気記録媒体（磁気テープ、磁気ディスクなど）、光記録媒体（光ディスクなど）、光磁気記録媒体、半導体メモリなどのコンピュータ読み取り可能な記録媒体に記憶した状態で提供し得る。また、カラオケ装置１は、制御プログラムをネットワーク経由でダウンロードしてもよい。
【符号の説明】
【００４９】
１…カラオケ装置、１０…制御部、２０…操作部、３０…表示部、４０…通信部、５０…記憶部、６０…音響処理部、６１…スピーカ、６２…マイクロフォン、１００…切り替え技法判定部、１０１…取得部、１０２…変換部、１０３…算出部、１０４…判定部、１０５…出力部

【特許請求の範囲】
【請求項１】
歌唱音声を取得する取得手段と、
前記取得した歌唱音声をフレームごとに周波数スペクトルに変換する変換手段と、
前記各フレームの周波数スペクトルにおけるピーク値とディップ値との比に応じた値を歌唱ＳＮ比として算出する算出手段と、
前記算出された各フレームの歌唱ＳＮ比の分布に応じて、前記歌唱音声が第１の声質もしくは第２の声質で歌唱された音声、または特定の技法により歌唱された音声であると判定する判定手段と、
前記判定結果に応じた情報を出力する出力手段と
を具備し、
前記判定手段は、
前記算出された各フレームの歌唱ＳＮ比のうち、第１の値以下の割合が第１割合以上となる場合に、前記第１の声質で歌唱された音声と判定し、
前記算出された各フレームの歌唱ＳＮ比のうち、前記第１の値より大きい第２の値以上の割合が第２割合以上となる場合に、前記第２の声質で歌唱された音声と判定し、
前記算出された各フレームの歌唱ＳＮ比のうち、前記第１の値以上かつ前記第２の値より小さくなる第３の値以下の割合が第３割合以上であるとともに、前記第３の値より大きくかつ前記第２の値以下となる第４の値以上の割合が第４割合以上となる場合に、前記特定の技法により歌唱された音声と判定する
ことを特徴とする歌唱音声評価装置。
【請求項２】
前記取得手段は、楽曲データの再生中における歌唱音声を取得し、
前記算出手段は、前記楽曲データが示す歌唱すべき構成音が存在する期間に対応するフレームにおける前記歌唱ＳＮ比を算出する
ことを特徴とする請求項１に記載の歌唱音声評価装置。
【請求項３】
前記判定手段は、前記取得した歌唱音声を複数の評価期間に分割し、前記評価期間ごとに前記判定を行い、前記第１の声質で歌唱された音声と判定した評価期間と前記第２の声質で歌唱された音声と判定した評価期間とが存在する場合には、複数の評価期間全体の歌唱音声が前記特定の技法により歌唱された音声と判定する
ことを特徴とする請求項１または請求項２に記載の歌唱音声評価装置。

【図１】