説明

カラオケ装置

【課題】 歌唱の音高のリファレンスデータとの比較だけでは行うことができない正確な歌唱評価を行うことができるカラオケ装置を提供する。
【解決手段】 歌唱評価ユニット19において、声質評価130では、歌唱音声のフォルマントデータを解析し、歌唱音声の声質を示す透明度データおよび響き度データを生成し、評価情報生成処理150では、カラオケ曲全体を通じて声質パラメータを音域別に分類し、この声質パラメータの音域別分類結果から歌唱の総合的評価を示す情報を生成する。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、採点機能を有するカラオケ装置に関する。
【背景技術】
【0002】
採点機能を備えたカラオケ装置が実用化されている。その採点機能は、たとえば、カラオケ曲の演奏にあわせて歌唱される歌唱者の歌唱音声を取り込み、歌唱音声の音高と基準となるリファレンスデータが示す音高との一致度によってその巧拙を採点するものである(例えば特許文献1参照)。
【特許文献1】特開平10−49183号公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
しかし、歌唱の巧拙はリファレンスデータとの音高の一致度のみにより決定されるものではなく、たとえリファレンスデータ通りの音高で歌唱が行われていても、例えば高音になると声が濁り、あるいは低音になると声の響きがなくなる、というのでは決して巧い歌唱とは言えない。
【0004】
この発明は、以上説明した事情に鑑みてなされたものであり、歌唱の音高のリファレンスデータとの比較だけでは行うことのできない正確な歌唱評価を行うことができるカラオケ装置を提供することを目的とする。
【課題を解決するための手段】
【0005】
この発明は、曲データに従ってカラオケ演奏を行うカラオケ演奏手段と、歌唱音声を収音し、歌唱音声データを出力する収音手段と、前記歌唱音声データを解析し、歌唱音声の声質を示す声質パラメータを生成する声質評価手段と、前記声質パラメータの音高との関係を反映させて、歌唱に関する評価情報を生成する歌唱評価手段とを具備することを特徴とするカラオケ装置を提供する。
かかるカラオケ装置によれば、歌唱音声の声質を考慮した正確な歌唱の評価を行うことができる。
【発明を実施するための最良の形態】
【0006】
以下、図面を参照し、本発明の実施の形態について説明する。
図1は、この発明の一実施形態であるカラオケ装置の構成を示すブロック図である。このカラオケ装置は、装置全体の動作を制御するCPU10と、これに接続されたハードディスク11、RAM12、音源13、ミキサ(エフェクタ)14、歌唱評価ユニット19、MPEGデコーダ20、合成回路21、操作部23などにより構成されている。
【0007】
ハードディスク11には、次のようなデータが記憶されている。まず、曲データ40は、カラオケ曲を演奏するための楽音トラック、ガイドメロディを発生するためのガイドメロディトラック、歌詞テロップを表示するための歌詞トラック、曲中の区切りを示すマークデータが書き込まれるマークデータトラックなどからなっている。各トラックは、MIDIフォーマットに従って記述され、イベントデータと各イベントデータの読み出しタイミングを示すタイミングデータからなっている。タイミングデータは、各イベントデータ間の時間的間隔を示すデュレーションデータまたは曲のスタート時刻からの絶対時間を示す絶対時間データにより構成することができるが、本実施形態では後者の絶対時間データがタイミングデータとして用いられる。楽音トラック、ガイドメロディトラックのイベントデータは、楽音の音高、音量、オン/オフなどを示すノートイベントデータなどにより構成される。カラオケ演奏では、このノートイベントデータが音源13に入力されることにより、音源13によりこのイベントデータに対応する楽音の発音や消音が行われる。背景映像データ41は、MPEG2形式によりエンコードされている。
【0008】
操作部23は、パネルスイッチインタフェースやリモコン受信回路などからなっており、利用者によるパネルスイッチやリモコン装置の操作に応じた操作信号をCPU10に供給する。CPU10は、操作入力処理プログラム35によってこの操作信号を検出し、対応する処理を実行する。
【0009】
パネルスイッチやリモコン装置で曲番号が入力されると、操作入力処理プログラム35がこれを検出し、カラオケ曲のリクエストであるとしてシーケンサ30に伝達する。シーケンサ30は、これに応じて、この曲番号で識別されるカラオケ曲の曲データをハードディスク11の曲データ記憶エリアから読み出す。シーケンサ30は、曲シーケンサおよび歌詞シーケンサからなっており、曲データ中の演奏データトラック、ガイドメロディトラックなどのトラックのデータを読み出し、このデータにより音源13を制御することによってカラオケ曲の演奏音を発生させるとともに、曲データ中の歌詞トラックのデータを読み出し、このデータに基づいて歌詞テロップの画像パターンを作成して合成回路21に出力する。また、背景映像再生プログラム33は、シーケンサ30からの指示に応じて所定の背景映像データ41を読み出してMPEGデコーダ20に入力する。MPEGデコーダ20は、背景映像データ41をNTSCの映像信号にデコードして合成回路21に入力する。合成回路21は、この背景映像の映像信号の上に歌詞テロップや種々のOSDを合成する回路である。この合成された映像信号はモニタ22に表示される。
【0010】
音源13は、CPU10が実行するシーケンサ30の処理によって再生された曲データ(ノートイベントデータ等)に応じて楽音信号を形成する。この楽音信号はミキサ14に入力される。ユーザの歌唱音声は、マイク17により収音される。このマイク17から出力される歌唱音声信号(アナログ信号)は、A/Dコンバータ18によりデジタル信号である歌唱音声データに変換される。ミキサ14は、この歌唱音声データに対してエコーなどの効果を付与し、音源13から出力された楽音信号と適当なバランスでミキシングする。ミキシングされたデジタルの音声信号はサウンドシステム15に入力される。サウンドシステムはD/Aコンバータおよびパワーアンプを備えており、入力されたデジタル信号をアナログ信号に変換して増幅し、スピーカ16から放音する。
【0011】
A/Dコンバータ18から出力される歌唱音声データは、歌唱評価ユニット19にも入力される。この歌唱評価ユニット19には、この歌唱音声データの他、リファレンスデータと歌詞テロップが与えられる。リファレンスデータと歌詞テロップは、カラオケ演奏において、楽曲トラックのイベントデータとともに同期再生され、歌唱評価ユニット19に与えられる。本実施形態の最大の特徴は、この歌唱評価ユニット19にある。
【0012】
図2は歌唱評価ユニット19の処理内容を示す図である。歌唱評価ユニット19は、先入れ先出し式のバッファ101〜103を有している。カラオケ演奏時、ハードディスク11から再生される歌詞テロップおよびリファレンスデータは、バッファ101および102に順次格納され、A/Dコンバータ18から出力される歌唱音声データは、タイムスタンプが付加されてバッファ103に格納される。このタイムスタンプは、カラオケ演奏開始時点からの経過時間を示す情報である。そして、歌唱評価ユニット19では、バッファ102に格納されたリファレンスデータと、バッファ103に格納された歌唱音声データとを用いて歌唱の評価が行われる。本実施形態では、歌唱の評価結果をユーザに提供する他、歌唱の評価結果をユーザが利用する便宜を図るための処理が行われる。バッファ101に格納される歌詞テロップは、専ら後者の処理のために利用される。
【0013】
評価区間特定処理111では、バッファ102内のリファレンスデータを参照することにより、カラオケ曲上、例えば同じ音高での発声を1秒以上継続する歌唱が行われる区間を評価区間として特定し、その評価区間に属するリファレンスデータ(ここでは、ノートナンバを含むノートイベントデータ)を取り込む。このような評価区間は、通常、1曲中に複数現れる。カラオケ演奏中、評価区間特定処理111では、それらの評価区間が順次特定される。以下に述べる各処理は、それらの評価区間の各々について実行される。評価区間特定処理111では、評価区間を特定すると、その評価区間を示す情報とその評価区間に属していたリファレンスデータをフォルマントデータ生成処理112に引き渡す。評価区間を示す情報は、曲の開始時刻を基準とした評価区間の開始点および終了点の時刻を示している。この情報は、リファレンスデータ中のタイミングデータを参照することにより求められる。
【0014】
フォルマントデータ生成処理112では、評価区間特定処理111から引き渡される情報に基づき、測定区間を求める。この測定区間は、評価区間を中央に含み、かつ、評価区間より長い区間とされる。次に、フォルマントデータ生成処理112では、この測定区間内の歌唱音声データをバッファ103から取り込む。そして、この歌唱音声データを複数の小区間に分割し、各小区間の歌唱音声データに対するFFT(高速フーリエ変換)を実行し、小区間毎にフォルマントデータを生成する。このフォルマントデータは、歌唱音声データによって表される音声波形の周波数軸上でのスピクトルの包絡線を示すデータである。図3に示すように、フォルマントデータは、周波数軸方向に並んだ複数の山を呈する。これらのうち最も周波数の低い位置にある山は第1フォルマントと呼ばれ、その高域側にある各山は、周波数の低い順に第2フォルマント、第3フォルマント、〜と呼ばれる。第1フォルマントの周波数は、音声のピッチと対応している。フォルマントデータ生成処理112では、各小区間から得られたフォルマントデータから音声のピッチを各々求め、それらを評価区間特定処理111から引き渡されたリファレンスデータが示すピッチと比較する。そして、フォルマントデータ生成処理112では、リファレンスデータが示すピッチに最も近いピッチの得られたフォルマントデータを評価用フォルマントデータとする。また、その評価用フォルマントデータが得られた歌唱音声データの小区間を歌唱音声データの評価区間とし、この区間を示す情報を評価区間特定処理111に引き渡す。
【0015】
評価区間特定処理111では、評価区間を示す情報をフォルマントデータ生成処理112に引き渡した後、フォルマントデータ生成処理112から歌唱音声データの評価区間を示す情報を受け取った場合、この対をなす評価区間のために、例えば連番であるタグを発生する。そして、このタグをバッファ101内の評価区間に属する歌詞テロップ、バッファ102内の評価区間に属するリファレンスデータおよびバッファ103内の歌唱音声用の評価区間に属する歌唱音声データに各々付加する。ここで、タグは、各データにおける評価区間の開始位置に付加され、その位置は、リファレンスデータおよび歌詞テロップについては各々に含まれるタイミングデータに基づいて決定され、歌唱音声データについてはタイムスタンプに基づいて決定される。また、評価区間特定処理111では、タグを生成すると、このタグをフォルマントデータ生成処理112に引き渡す。フォルマントデータ生成処理112では、このタグと、評価区間に属するリファレンスデータと、歌唱音声用の評価区間に属する歌唱音声データのフォルマントデータとをひとかたまりにまとめた評価用データブロック113を生成する。
【0016】
以上の処理が、評価区間特定処理111により特定された各評価区間について順次実行され、各評価区間に対応した評価用データブロック113が順次生成され、バッファ101〜103内のデータに各評価区間に対応したタグが順次付加されてゆく。バッファ101〜103では、それらに格納されているデータにタグが付加されると、このタグの付加された位置よりも時間的に前のデータは、バッファ104〜106に各々移動される。最後にタグが付加された位置以降のデータは、カラオケ演奏が終了したときにバッファ101〜103からバッファ104〜106に各々移動される。
【0017】
フォルマントデータ生成処理112により生成される評価用データブロック113は、音程評価120および声質評価130に各々引き渡される。音程評価120では、評価用データブロック113内のリファレンスデータが示すピッチとフォルマントデータが示すピッチとの音高差を求め、音程評価データを生成する。ここで、音程評価データは、0点から100点までの得点を示しており、音高差が小さくなるほど得点は高くなる。そして、音程評価120では、この音高評価データと元の評価用データブロック113のタグとリファレンスデータとを含んだ評価結果データブロック121を生成する。
【0018】
声質評価130は、透明度評価131と響き度評価132とからなる。透明度評価131では、評価用データブロック113内のフォルマントデータに基づいて歌唱音声の透明度を示す透明度データを演算し、この透明度データと元の評価用データブロック113のタグとリファレンスデータとを含んだ評価結果データブロック133を生成する。また、響き度評価132では、評価用データブロック113内のフォルマントデータに基づいて歌唱音声の響き度を示す響き度データを演算し、この響き度データと元の評価用データブロック113のタグとリファレンスデータとを含んだ評価結果データブロック134を生成する。
【0019】
歌唱音声の透明度および響き度を演算する手法として、各種のものが考えられるが、本実施形態では、本出願人による出願である特願2004−363730号において提案されている手法を用いる。以下、透明度および響き度の演算方法を説明する。
【0020】
まず、透明度評価131では、図3に示すように、フォルマントデータが示すフォルマント曲線200において、各フォルマントのピーク点を繋ぐ包絡線201を求める。そして、第1フォルマントのピークよりも高域側において、この包絡線201とフォルマント曲線200との差分の積分、すなわち、図4において破線によって示す領域202の総面積をピーク間減衰量として求める。このピーク間減衰量は、フォルマント曲線における各フォルマントのピークとそれらのピーク間に挟まれた谷の部分との間の減衰量、すなわち、歌唱音声における基本波およびその倍音成分のレベルとそれ以外のスペクトルのレベルとの差を反映した値となる。ここで、歌唱音声は、基本波成分および倍音成分が支配的である程、透明度が高く、基本波成分および倍音成分以外のスペクトルのレベルが高くなるに従って透明度が低下する。従って、ピーク間減衰量は、歌唱音声の透明度を反映するものであるといえる。そこで、本実施形態における透明度評価131では、以上のようにしてフォルマントデータからピーク間減衰量を算出し、このピーク間減衰量が大きくなるほど大きな値となる透明度データを生成している。
【0021】
次に、響き度評価132では、フォルマント曲線において第1フォルマントにおけるピーク値203と、f=2kHz〜3kHzの周波数範囲内における包絡線201の値の平均値204とを求め、これらの差分205を求める。ここで、ある歌唱音声から得られたフォルマント曲線において、この差分205が小さい場合、その歌唱音声には高次の倍音が豊富に含まれているということができる。そして、一般にそのような歌唱音声はよく響く。逆に、歌唱音声から得られたフォルマント曲線において差分205が小さい場合、その歌唱音声では高次の倍音が乏しいということができる。そして、一般にそのような歌唱音声は響かない。そこで、本実施形態における響き度評価132では、以上のようにしてフォルマントデータから差分205を算出し、この差分205が小さくなるほど大きな値となる響き度データを生成している。
【0022】
図2において、評価データ分類用バッファ140は、複数のエリアを有している。これらのエリアは、本実施形態において取り扱い可能な歌唱音声の全周波数帯域を分割した複数の音域に対応付けられている。音程評価120、透明度評価131または響き度評価132により評価結果データブロック121、133または134が生成された場合、それに含まれるリファレンスデータが示すピッチの属する音域が判定され、評価結果データブロックは、評価データ分類用バッファ140におけるその音域に対応したエリアに格納される。
【0023】
評価情報生成処理150では、1曲分のカラオケ演奏が終了した時点において評価データ分類用バッファ140に格納されている評価結果データブロック121内の音程評価データを音域毎に平均値を求め、音高を横軸とした音程評価データのグラフを示す情報を作成する。また、全音域を通じての音程評価データの平均値を求め、音程に関する評価結果とする。また、評価データ分類用バッファ140に格納されている評価結果データブロック133および134についても音域毎に透明度および響き度の平均値を求め、音高を横軸とした透明度のグラフ、響き度のグラフを示す各情報を各々生成する。ここで、透明度や響き度といった声質は、音程と同様な評価にはなじまない。声質は、いわば個性であり、良し悪しという尺度では測り得ないからである。そこで、評価情報生成処理150では、音高の変化に対する透明度や響き度の安定性を求め、これらを透明度および響き度に関する評価結果とする。例えば、カラオケ演奏曲の全音域に対して、透明度や響き度の安定している範囲の占める割合を透明度および響き度に関する評価結果とすることができる。透明度および響き度の安定している範囲は、例えば次のようにして求める。まず、評価データ分類用バッファ140内において音域別に分類された透明度データおよび響き度データの各々について、音域毎に平均値と標準偏差を求める。そして、透明度データ(響き度データ)の標準偏差が比較的低く、かつ、音高の変化に対する透明度データ(響き度データ)の平均値の変化が緩やかな区間を透明度データ(響き度データ)の安定している範囲と判断する。評価情報生成処理150では、以上のようにして求めた音程、透明度、響き度に関する評価結果を例えば平均化するなどして総合的な歌唱評価データを生成する。そして、このようにして生成した各種の情報をCPU10に引き渡す。CPU10は、この引き渡された各種の情報を例えば図6に示すように評価結果としてモニタ22に表示する。
【0024】
ユーザは、このモニタ表示により、音程だけでなく、透明度、響き度を含めた総合的な歌唱評価を確認することができ、また、音程、透明度、響き度の各項目についての評価を個別的に確認することができる。しかも、各項目の得点が音高を横軸としてグラフ表示されるため、ユーザは自分の歌唱の特徴を詳細に知ることができる。
【0025】
本実施形態では、図6のモニタ表示に加えて、歌唱の評価に関するさらに詳細な情報をユーザに提供することができる。例えば図6では、低音域の広い範囲において透明度と響き度が低くなっている。ユーザは、例えば透明度のグラフ表示において自分の気になる音域がある場合、操作部23の操作により、その音域にカーソルを表示させ、音域を指定する。すると、CPU10は、ユーザによって透明度が指定されたこと、およびユーザによって指定された音域を歌唱評価ユニット19に通知する。
【0026】
この結果、歌唱評価ユニット19における評価情報生成処理150では、このCPU10から通知された音域に対応した評価データ分類用バッファ140のエリアから、響き度データを含んだ全ての評価結果データブロック133が読み出される。そして、それらの評価結果データブロック133に含まれるタグと、バッファ104内の全歌詞テロップがCPU10に引き渡される。CPU10は、この引き渡された全歌詞テロップを合成回路21に送ってモニタ22に表示させる。その際に、CPU10は、全歌詞テロップにおいて、評価情報生成処理150から引き渡されたタグに対応した部分の色を他の部分と異なる色で表示させる。これによりユーザは、自分の歌唱音声の透明度が歌唱中のどの箇所において低くなっているのかを確認することができる。
【0027】
さらに透明度が低いとはどういう状況かを知りたいユーザがいるかも知れない。そのようなユーザは、操作部23を操作して、歌詞テロップにおいて変色表示されている部分の中から自分の希望する部分を指定すればよい。CPU10は、先に評価情報生成処理150から引き渡されたタグの中からユーザによって指定された変色表示部分に対応したタグを選択し、歌唱評価ユニット19に引き渡す。
【0028】
すると、歌唱評価ユニット19における評価情報生成処理150では、このタグと同一のタグが付加された歌詞テロップ、リファレンスデータおよび歌唱音声データがバッファ104〜106から読み出され、CPU10に送られる。なお、この際に、ユーザによる確認を容易にするため、CPU10から引き渡されたタグと同一のタグの付加されたデータだけでなく、その前後所定範囲内の部分をも含む歌詞テロップ、リファレンスデータおよび歌唱音声データをCPU10に送るようにしてもよい。
【0029】
CPU10は、歌唱評価ユニット19から取得した歌詞テロップを合成回路21に、リファレンスデータを音源13に、歌唱音声データをミキサ14に供給する。これによりユーザは、自分が指定した部分の歌唱音声を確認することができる。以上、透明度を例に説明したが、響き度、音程についても同様であり、ユーザは、響き度、音程の気になる音域を指定することにより、歌唱における該当部分を知ることができ、さらにその部分の自分の歌唱を確認することができる。なお、以上の動作の際に、ユーザから指定があった場合には、CPU10は、音源13にリファレンスデータを送らず、ガイドメロディの再生を停止してもよい。
【0030】
<他の実施形態>
以上、この発明の実施形態を説明したが、これら以外にも、本発明には各種の実施形態が考えられる。例えば次の通りである。
(1)歌唱評価ユニット19が行う歌唱評価の方法として、上記実施形態において示したもの以外にも各種のものが考えられる。例えば、音程、透明度、響き度の総合評価を平均して歌唱の総合評価を行うのではなく、各項目に重みを持たせ、加重平均により歌唱の総合評価を行う等があり得る。いずれの評価方法を採用するかは、顧客層の要求に合わせて決定すればよい。また、歌唱評価方法を1種類に固定するのではなく複数種類用意し、ユーザが操作部23の操作により選択するようにしてもよい。
【0031】
(2)上記実施形態では、透明度と響き度という観点から声質を捉え、この声質に基づく歌唱の評価を行った。しかし、さらに別の観点から声質を捉えた声質パラメータを追加し、それらの声質パラメータに基づいて歌唱の評価を行っても良い。
【0032】
(3)ある音高NMAX以上になると、あるいはある音高NMIN以下になると、歌唱音声の透明度や響き度が著しく低下する場合、その人が無理なく歌唱し得る音域はNMIN〜NMAXの範囲であるといえる。そこで、そのような音域にあった曲をカラオケ装置がユーザに案内するように構成してもよい。
【0033】
(4)上記(3)において、1曲の歌唱では、ユーザの音域NMIN〜NMAXが分からない場合もある。そこで、複数曲に亙って透明度や響き度の評価データを音域別に蓄積し、ユーザの音域NMIN〜NMAXを求めるようにしてもよい。その際、1台のカラオケ装置を複数のユーザが使用し得ることを考慮し、ユーザには、選曲の際にそのユーザを特定するIDを入力させる。そして、選曲後に始まる歌唱について、評価を行い、歌唱評価ユニット19では、このIDに対応付けて透明度や響き度の評価データを音域別に蓄積する。このようにしてID毎に複数曲に亙って蓄積されるデータを用いて、そのユーザの音域NMIN〜NMAXを求めるようにすればよい。
【0034】
(5)上記(3)または(4)の方法により、あるユーザの音域NMIN〜NMAXが得られた場合において、その後、そのユーザによる選曲が行われたとする。この場合に、CPU10がその曲の音域とユーザの音域NMIN〜NMAXとを比較して、ユーザが無理なくその曲を歌えるかを判断し、例えば「キーを○度下げてはどうですか」など、判断結果をモニタ22に表示するようにしてもよい。
【0035】
(6)上記実施形態では、歌唱音声データから得られた透明度データや響き度データを、その歌唱のお手本であるリファレンスデータの属する音域別に分類した。そのようにする代わりに、歌唱音声データから得られた透明度データや響き度データを、同歌唱音声データから得られた音高データの属する音域別に分類するようにしてもよい。
【図面の簡単な説明】
【0036】
【図1】この発明の一実施形態であるカラオケ装置の構成を示すブロック図である。
【図2】同装置における歌唱評価ユニットの処理内容を示す図である。
【図3】同ユニットにおいて行われる声質評価の方法を示す図である。
【図4】同ユニットにおいて行われる声質評価の方法を示す図である。
【図5】同ユニットにおいて行われる声質評価の方法を示す図である。
【図6】同実施形態においてモニタに表示される歌唱評価の例を示す図である。
【符号の説明】
【0037】
19…歌唱評価ユニット、120…音程評価、130…声質評価、150…評価情報生成処理。

【特許請求の範囲】
【請求項1】
曲データに従ってカラオケ演奏を行うカラオケ演奏手段と、
歌唱音声を収音し、歌唱音声データを出力する収音手段と、
前記歌唱音声データを解析し、歌唱音声の声質を示す声質パラメータを生成する声質評価手段と、
前記声質パラメータの音高との関係を反映させて、歌唱に関する評価情報を生成する歌唱評価手段と
を具備することを特徴とするカラオケ装置。
【請求項2】
音高の変化に対する前記声質パラメータの変化の態様を表示する表示手段を具備することを特徴とする請求項1に記載のカラオケ装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate