説明

歌唱採点装置および歌唱採点プログラム

【課題】メロディーが無い曲でも歌唱採点できる歌唱採点装置を実現する。
【解決手段】伴奏データの再生により発生するカラオケ伴奏音に合せてユーザが歌唱する歌唱音をサンプリングして得たユーザ歌唱データと、伴奏データの再生に同期してカラオケデータメモリ13から読み出される手本歌唱データとを所定のデータ数分のフレームで区切り、区切られたフレーム中の手本歌唱データから手本歌唱音の音声特徴量MFCCを、ユーザ歌唱データからユーザ歌唱音の音声特徴量MFCCをそれぞれ抽出する。抽出した手本歌唱音の音声特徴量MFCCとユーザ歌唱音の音声特徴量MFCCとの類似度から適否判定して歌唱を採点する。つまり、曲の歌詞が正しく歌唱されているかどうかを採点する為、「ラップ」と呼ばれるメロディーが無い曲でも歌唱採点できる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、カラオケ装置に用いて好適な歌唱採点装置および歌唱採点プログラムに関する。
【背景技術】
【0002】
カラオケ伴奏の主旋律パートを構成する各音符の音高および発音タイミングを採点基準とし、この採点基準に対して歌唱者の歌声から抽出したピッチを比較することで歌唱採点する歌唱採点装置を備えたカラオケ装置が各種開発されている。この種の装置については、例えば特許文献1に開示されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開平11−194782号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
ところで、上記特許文献1に開示の技術のように、採点基準と歌唱ピッチとを比較して採点する方式では、明確なメロディーを持たない「ラップ」と呼ばれるスタイルのカラオケ曲であると、採点基準が存在しないことから歌唱採点することができない、という問題がある。
【0005】
また、採点基準と歌唱ピッチとを比較して採点する方式であっても、カラオケ曲の一部分のみを丁寧に歌唱してカラオケ伴奏を停止させると、その一部分のみについて歌唱採点されることから、高得点を得ることが出来てしまう弊害もある。そうした弊害を回避するには、一定時間以上歌唱し続けなければ、得点が無効になるようにすれば良いが、そのようにすると、今度は非常に短い曲では全て歌唱しても採点されなくなるという問題が生じる。
【0006】
本発明は、このような事情に鑑みてなされたもので、メロディーが無い曲や、演奏時間が非常に短い曲であっても歌唱採点することができる歌唱採点装置および歌唱採点プログラムを提供することを目的としている。
【課題を解決するための手段】
【0007】
上記目的を達成するため、請求項1に記載の発明では、手本として歌唱された手本歌唱音の音声特徴量を抽出する第1の特徴抽出手段と、ユーザが歌唱するユーザ歌唱音の音声特徴量を抽出する第2の特徴抽出手段と、前記第1および第2の特徴抽出手段によりそれぞれ抽出された手本歌唱音の音声特徴量とユーザ歌唱音の音声特徴量との類似度を算出する類似度算出手段と、前記類似度算出手段により算出された類似度に応じて、手本歌唱音に対するユーザ歌唱音の適否を判定して採点する採点手段とを具備することを特徴とする。
【0008】
上記請求項1に従属する請求項2に記載の発明では、前記第1および第2の特徴抽出手段が抽出する音声特徴量は、ケプストラム領域の特徴量MFCC(Mel Frequency Cepstrum Coefficient)であることを特徴とする。
【0009】
上記請求項1に従属する請求項3に記載の発明では、前記類似度算出手段は、手本歌唱音の音声特徴量を表す第1のベクトルと、ユーザ歌唱音の音声特徴量を表す第2のベクトルとの間のユークリッド距離を類似度として算出することを特徴とする。
【0010】
請求項4に記載の発明では、カラオケ曲の再生に同期して発生するデータであって、手本として歌唱された手本歌唱音を表す手本歌唱音データと、再生されるカラオケ曲に合せてユーザが歌唱するユーザ歌唱音から得たユーザ歌唱データとを所定データ数毎に区切りフレーム化するフレーム化手段と、前記フレーム化手段によりフレーム化された所定データ数分の手本歌唱音データから手本歌唱音の音声特徴量を抽出する第1の特徴抽出手段と、前記フレーム化手段によりフレーム化された所定データ数分のユーザ歌唱データからユーザ歌唱音の音声特徴量を抽出する第2の特徴抽出手段と、前記第1および第2の特徴抽出手段によりそれぞれ抽出された手本歌唱音の音声特徴量とユーザ歌唱音の音声特徴量との類似度を算出する類似度算出手段と、前記類似度算出手段により算出された類似度に応じて、手本歌唱音に対するユーザ歌唱音の適否をフレーム毎に判定する判定手段と、前記判定手段がフレーム毎に適否判定した結果に基づきユーザの歌唱を採点する採点手段とを具備することを特徴とする。
【0011】
上記請求項4に従属する請求項5に記載の発明では、前記採点手段は、ユーザ歌唱データのフレームの数と手本歌唱音データのフレームの数との比が一定値以上の場合にのみ、前記判定手段がフレーム毎に適否判定した結果に基づきユーザの歌唱を採点することを特徴とする。
【0012】
請求項6に記載の発明では、カラオケ曲のメロディ部分とラップ部分とを識別して再生可能なカラオケ装置において、カラオケ曲のメロディ部分が再生される場合に、ユーザが歌唱するユーザ歌唱音のピッチを抽出し、抽出したピッチと再生されるメロディ部分のピッチとを比較してユーザ歌唱音の適否を判定して採点する第1の採点手段と、カラオケ曲のラップ部分が再生される場合に、手本として歌唱される手本歌唱音の音声特徴量およびユーザが歌唱するユーザ歌唱音の音声特徴量を各々抽出し、抽出された手本歌唱音の音声特徴量とユーザ歌唱音の音声特徴量との類似度に応じて、手本歌唱音に対するユーザ歌唱音の適否を判定して採点する第2の採点手段とを具備することを特徴とする。
【0013】
請求項7に記載の発明では、手本として歌唱された手本歌唱音の音声特徴量を抽出する第1の特徴抽出処理と、ユーザが歌唱するユーザ歌唱音の音声特徴量を抽出する第2の特徴抽出処理と、前記第1および第2の特徴抽出処理によりそれぞれ抽出された手本歌唱音の音声特徴量とユーザ歌唱音の音声特徴量との類似度を算出する類似度算出処理と、前記類似度算出処理により算出された類似度に応じて、手本歌唱音に対するユーザ歌唱音の適否を判定して採点する採点処理とをコンピュータで実行させることを特徴とする。
【0014】
上記請求項7に従属する請求項8に記載の発明では、前記第1および第2の特徴抽出処理により抽出される音声特徴量は、ケプストラム領域の特徴量MFCC(Mel Frequency Cepstrum Coefficient)であることを特徴とする。
【0015】
上記請求項7に従属する請求項9に記載の発明では、前記類似度算出処理は、手本歌唱音の音声特徴量を表す第1のベクトルと、ユーザ歌唱音の音声特徴量を表す第2のベクトルとの間のユークリッド距離を類似度として算出することを特徴とする。
【0016】
請求項10に記載の発明では、カラオケ曲の再生に同期して発生するデータであって、手本として歌唱された手本歌唱音を表す手本歌唱音データと、再生されるカラオケ曲に合せてユーザが歌唱するユーザ歌唱音から得たユーザ歌唱データとを所定データ数毎に区切りフレーム化するフレーム化処理と、前記フレーム化処理によりフレーム化された所定データ数分の手本歌唱音データから手本歌唱音の音声特徴量を抽出する第1の特徴抽出処理と、前記フレーム化処理によりフレーム化された所定データ数分のユーザ歌唱データからユーザ歌唱音の音声特徴量を抽出する第2の特徴抽出処理と、前記第1および第2の特徴抽出処理によりそれぞれ抽出された手本歌唱音の音声特徴量とユーザ歌唱音の音声特徴量との類似度を算出する類似度算出処理と、前記類似度算出処理により算出された類似度に応じて、手本歌唱音に対するユーザ歌唱音の適否をフレーム毎に判定する判定処理と、前記判定処理がフレーム毎に適否判定した結果に基づきユーザの歌唱を採点する採点処理とをコンピュータで実行させることを特徴とする。
【0017】
上記請求項10に従属する請求項11に記載の発明では、前記採点処理は、ユーザ歌唱データのフレームの数と手本歌唱音データのフレームの数との比が一定値以上の場合にのみ、前記判定処理がフレーム毎に適否判定した結果に基づきユーザの歌唱を採点することを特徴とする。
【0018】
請求項12に記載の発明では、カラオケ曲のメロディ部分とラップ部分とを識別して再生可能なカラオケ装置に適用されるプログラムであって、カラオケ曲のメロディ部分が再生される場合に、ユーザが歌唱するユーザ歌唱音のピッチを抽出し、抽出したピッチと再生されるメロディ部分のピッチとを比較してユーザ歌唱音の適否を判定して採点する第1の採点処理と、カラオケ曲のラップ部分が再生される場合に、手本として歌唱された手本歌唱音の音声特徴量およびユーザが歌唱するユーザ歌唱音の音声特徴量を各々抽出し、抽出された手本歌唱音の音声特徴量とユーザ歌唱音の音声特徴量との類似度に応じて、手本歌唱音に対するユーザ歌唱音の適否を判定して採点する第2の採点処理とをコンピュータで実行させることを特徴とする。
【発明の効果】
【0019】
本発明では、手本として歌唱された手本歌唱音から抽出した音声特徴量と、ユーザが歌唱するユーザ歌唱音から抽出した音声特徴量との類似度に応じて、手本歌唱音に対するユーザ歌唱音の適否を判定して採点するので、曲の歌詞が正しく歌唱されているかどうかを歌唱採点できる。したがって、明確なメロディーを持たない「ラップ」と呼ばれるスタイルのカラオケ曲であっても歌唱採点することができる。
【0020】
また、本発明では、ユーザ歌唱データのフレームの数と手本歌唱音データのフレームの数との比が一定値以上の場合にのみ、フレーム毎に適否判定した結果に基づきユーザの歌唱を採点するので、演奏時間が非常に短い曲であっても歌唱採点することができる。
【図面の簡単な説明】
【0021】
【図1】本発明による実施の一形態の構成を示すブロック図である。
【図2】カラオケ処理の動作を示すフローチャートである。
【図3】部分採点処理の動作を示すフローチャートである。
【図4】MFCC算出処理の動作を示すフローチャートである。
【図5】フィルタバンクの一例を示す図である。
【発明を実施するための形態】
【0022】
以下、図面を参照して本発明の実施の形態について説明する。
A.構成
図1は、本発明の実施の一形態による歌唱採点装置を備えたカラオケ装置の構成を示すブロック図である。この図において、CPU10は、スイッチ部14から供給されるスイッチイベントに応じて、プログラムROM11に記憶される所定のプログラムを実行して装置各部を制御する。本発明の要旨に係わるCPU10の特徴的な処理動作(カラオケ処理、部分採点処理およびMFCC算出処理)については追って述べる。
【0023】
プログラムROM11には、CPU10により実行される各種プログラムや制御データが記憶される。プログラムROM11に記憶される各種プログラムとは、後述する「カラオケ処理」、「部分採点処理」および「MFCC算出処理」を含む。RAM12は、ワークエリアおよびバッファエリアを備える。RAM12のワークエリアには、CPU10の処理に用いる各種レジスタ・フラグデータが一時記憶される。RAM12のバッファエリアには、後述する手本歌唱データおよびユーザ歌唱データが一時記憶される。
【0024】
カラオケデータメモリ13は、例えばフラッシュメモリなど電気的に書き換え可能な不揮発性メモリから構成され、複数の曲のカラオケデータを記憶する。スイッチ部14には、例えば電源スイッチの他、カラオケ伴奏する曲を選択する曲選択スイッチや、カラオケの開始/停止を指示するスタート/ストップスイッチ等の各種スイッチを備え、これらスイッチ操作に応じたスイッチイベントを発生してCPU10に供給する。スイッチ部14のスタート/ストップスイッチの操作によってカラオケが開始された場合、CPU10は曲選択スイッチの操作で予め選択される曲のカラオケデータをカラオケデータメモリ13から読み出すようになっている。
【0025】
カラオケデータメモリ13に記憶される1つの曲のカラオケデータは、歌詞データおよび音声データから構成される。歌詞データは、カラオケ伴奏に同期して曲の歌詞を字幕表示させるための情報である。音声データは、カラオケトラックおよびボーカルトラックを有するデュアルモノラルモードでMP3形式に圧縮符号化された伴奏データおよび手本歌唱データを含む。
【0026】
すなわち、カラオケトラックには、カラオケ伴奏音をサンプリングしてなる伴奏データが圧縮符号化されて格納され、ボーカルトラックには、例えばカラオケ伴奏音に同期して歌手が手本として歌唱した歌唱音をサンプリングしてなる手本歌唱データが圧縮符号化されて格納されている。
【0027】
マイク15は、入力されるユーザの歌唱音を歌唱音声信号に変換して出力する。コーデック16は、マイク15から供給される歌唱音声信号をA/D変換して得るユーザ歌唱データを、CPU10の制御の下に、RAM12のバッファエリアにストアする。また、コーデック16は、CPU10の制御の下に、カラオケデータメモリ13から読み出されるMP3形式の手本歌唱データをデコード(伸長復号)してRAM12のバッファエリアにストアする。なお、カラオケ実行中にRAM12のバッファエリアにストアされるユーザ歌唱データおよび手本歌唱データは、それぞれ1024サンプリングポイント分のフレームに相当する256msec毎に更新される。
【0028】
さらに、コーデック16は、CPU10の制御の下に、カラオケデータメモリ13から読み出されるMP3形式の伴奏データをデコード(伸長復号)すると共に、デコードされた伴奏データをD/A変換して得られるカラオケ伴奏音信号と、マイク15から供給される歌唱音声信号とを混合してオーディオ出力を発生する。オーディオ出力は、例えば図示されていないテレビジョン受像機の外部音声入力端子に供給されて音声再生される。ビデオエンコーダ17は、CPU10の制御の下に、カラオケデータメモリ13から読み出される歌詞データを字幕表示用のビデオ出力に変換する。ビデオ出力は、例えば図示されていないテレビジョン受像機のビデオ入力端子に供給されて歌詞字幕として画面表示される。
【0029】
B.動作
次に、図2〜図5を参照して、上記構成によるカラオケ装置の動作を説明する。以下では、CPU10が実行するカラオケ処理、部分採点処理およびMFCC算出処理の各動作について述べる。
【0030】
(1)カラオケ処理の動作
図2は、カラオケ処理の動作を示すフローチャートである。装置電源が投入されると、CPU10は、図2に示すステップSA1に処理を進め、カラオケ開始指示があるまで待機する。ここで、スイッチ部14に設けられるスタート/ストップスイッチの操作に応じてカラオケ開始指示が発生すると、ステップSA1の判断結果が「YES」になり、次のステップSA2に進む。
【0031】
ステップSA2では、曲選択スイッチの操作で予め選択される曲のカラオケデータ(歌詞データおよび音声データ)をカラオケデータメモリ13から読み出し、読み出したカラオケデータ中の歌詞データをビデオエンコーダ17に供給して歌詞字幕表示用のビデオ出力に変換する。また、ステップSA2では、読み出したカラオケデータ中の音声データ、すなわちMP3形式で圧縮符号化されたカラオケトラックの伴奏データおよびボーカルトラックの手本歌唱データをコーデック16に供給してデコード(伸長復号)させる。
【0032】
次いで、ステップSA3では、上記ステップSA2においてデコードされた伴奏データをD/A変換して得られるカラオケ伴奏音信号と、マイク15から供給される歌唱音声信号とを混合してオーディオ出力を発生するようコーデック16に指示する。これにより、例えばテレビジョン受像機(不図示)の外部音声入力端子にオーディオ出力を、ビデオ入力端子にビデオ出力をそれぞれ供給すれば、歌詞字幕が画面表示されると共に、カラオケ伴奏音が再生される。
【0033】
こうしてカラオケ伴奏が始ると、CPU10はステップSA4に処理を進め、上記ステップSA2においてコーデック16がデコードした手本歌唱データをRAM12のバッファエリアにストアし、続くステップSA5では、コーデック16が発生するユーザ歌唱データをRAM12のバッファエリアにストアする。
【0034】
そして、ステップSA6では、RAM12にバッファリングされた1024サンプリングポイント分の手本歌唱データおよびユーザ歌唱データからそれぞれ抽出する両者の音声特徴量MFCCに基づき、手本歌唱音(手本歌唱データ)に対するユーザ歌唱音(ユーザ歌唱データ)の類似度を算出し、算出した類似度に応じて適否判定した結果に基づき歌唱採点する部分採点処理(後述する)を実行する。なお、部分採点処理は、RAM12にバッファリングされる1024サンプリングポイント分のデータを使用する為、256msec毎に実行される。
【0035】
次いで、ステップSA7では、カラオケ停止指示の有無を判断する。カラオケ停止指示が無ければ、判断結果は「NO」になり、上述したステップSA2に処理を戻す。以後、カラオケ伴奏が曲終端に達するか、あるいはスイッチ部14のスタート/ストップスイッチの操作によってカラオケ停止指示が発生するまで上述したステップSA2〜SA6を繰り返してカラオケ伴奏を進行させながら、ユーザ歌唱音を256msec毎に採点する。そして、例えばカラオケ伴奏が曲終端に達してカラオケ停止指示が発生すると、ステップSA7の判断結果が「YES」になり、ステップSA8に進み、採点処理を実行する。
【0036】
採点処理では、フレームカウンタの数と楽曲全体のフレーム数の比率が一定値以上あるか否かを判定する。なお、フレームカウンタとは、後述するように、無音状態でない手本歌唱データのフレームを計数するカウンタである。また、フレームとは、1024サンプリングポイント毎(256msec毎)にバッファリングされるデータの区切りを指す。楽曲全体のフレーム数とは、手本歌唱データをフレームで除した数に相当する。
【0037】
したがって、採点処理では、カラオケ伴奏される曲を一定比率以上歌唱したかどうかを判断し、一定比率以上歌唱していなければ、上記ステップSA6の部分採点処理で得られる部分得点を無効とし、歌唱評価を零点と採点して次のステップSA9に進む。
【0038】
一方、カラオケ伴奏される曲を一定比率以上歌唱していれば、上記ステップSA6の部分採点処理で得られる部分得点をフレームカウンタの数で除し、その値の百分率を点数データとして算出する。この後、ステップSA9に進み、算出した点数データをビデオエンコーダ17にてビデオ出力に変換することでユーザの歌唱点数を画面表示して本処理を終える。
【0039】
(2)部分採点処理の動作
次に、図3を参照して部分採点処理の動作を説明する。上述したカラオケ処理のステップSA6(図2参照)を介して本処理が実行されると、CPU10は図3に図示するステップSB1に進み、RAM12のバッファエリアにストアされた1024サンプリングポイント分の手本歌唱データが無音状態であるかをチェックする。
【0040】
続いて、ステップSB2では、上記ステップSB1のチェック結果に基づき、無音状態の手本歌唱データであるかどうかを判断する。無音状態の手本歌唱データであると、歌唱部分ではないと見做し、ここでの判断結果が「YES」となり、一旦本処理を完了させる。この場合、無音状態の手本歌唱データを含むフレームを破棄し、次フレームまで待機する。
【0041】
一方、無音状態でない手本歌唱データならば、上記ステップSB2の判断結果は「NO」になり、ステップSB3に進む。ステップSB3では、フレームカウンタをインクリメントして歩進させる。フレームカウンタとは、無音状態でない手本歌唱データのフレームを計数するカウンタであり、その値は曲の進行位置を表す。次いで、ステップSB4では、手本歌唱データMFCC算出処理を実行する。
【0042】
ここで、図4を参照してMFCC算出処理の動作を説明する。上記ステップSB4を介してMFCC算出処理が実行されると、CPU10は図4に図示するステップSC1に処理を進め、RAM12のバッファエリアにストアされた無音状態でない1024サンプリングポイント分の手本歌唱データ(以下、入力信号と称す)に対し、低次のハイパスフィルタリングを施して直流分(バイアスノイズ)を除去する。続いて、ステップSC2では、バイアス除去された入力信号にハニング窓をかけて高速フーリエ変換FFTを施すことによって、入力信号をスペクトル領域に変換する。
【0043】
次いで、ステップSC3では、スペクトル領域に変換された入力信号にフィルタバンク処理を施し、特徴量として用いられる20次元のスペクトル系列を発生する。すなわち、このフィルタバンク処理では、図5に図示するように、周波数軸に対して対数尺度で幅をとった20個の三角窓を備えるフィルタバンクを用いる。続いて、ステップSC4では、線形領域にある20次元のスペクトル系列を対数スペクトル系列に変換する対数化処理を行う。そして、ステップSC4では、対数スペクトル系列に離散コサイン変換DCTを施してケプストラム領域に変換するDCT処理を実行する。
【0044】
次に、ステップSC6では、上記ステップSC5のDCT処理で得られたDCT係数の内からスペクトル直流成分である最低次の係数C0を除いた低次から12個の係数を、ケプストラム領域の音声特徴量MFCC(Mel Frequency Cepstrum Coefficient)として抽出する係数抽出処理を実行した後、本処理を完了させて図3に図示する部分採点処理に復帰する。
【0045】
以上のように、ステップSB4の手本歌唱データMFCC算出処理では、RAM12のバッファエリアにストアされた無音状態でない1024サンプリングポイント分の手本歌唱データからケプストラム領域の音声特徴量MFCCを算出するようになっている。
【0046】
この後、図3に図示するステップSB5に進み、RAM12のバッファエリアにストアされた1024サンプリングポイント分のユーザ歌唱データが無音状態であるかをチェックする。そして、ステップSB6では、上記ステップSB5のチェック結果に基づき、無音状態のユーザ歌唱データであるかどうかを判断する。無音状態のユーザ歌唱データであると、歌唱部分ではないと見做して判断結果が「YES」となり、一旦本処理を完了させる。この場合、無音状態のユーザ歌唱データを含むフレームを破棄し、次フレームまで待機する。
【0047】
一方、無音状態でないユーザ歌唱データならば、上記ステップSB6の判断結果が「NO」になり、ステップSB7に進む。ステップSB7では、ユーザ歌唱データMFCC算出処理を実行する。ユーザ歌唱データMFCC算出処理では、上述したステップSB4と同様、RAM12のバッファエリアにストアされた無音状態でない1024サンプリングポイント分のユーザ歌唱データから音声特徴量MFCCを算出する。
【0048】
続いて、ステップSB8では、上記ステップSB4で算出した手本歌唱データの音声特徴量MFCCと、上記ステップSB7で算出したユーザ歌唱データの音声特徴量MFCCとの類似度を測る尺度として、手本歌唱データの音声特徴量MFCCを表すベクトルa=(a1,a2,…,a12)と、ユーザ歌唱データの音声特徴量MFCCを表すベクトルb=(b1,b2,…,b12)との間のユークリッド距離d(a,b)を算出する。
【0049】
次いで、ステップSB9では、上記ステップSB8にて算出したユークリッド距離d(a,b)が予め設定した閾値以下であるか否か、すなわち手本の歌唱音とユーザの歌唱音とが類似しているかどうかを判断する。上記ステップSB8にて算出したユークリッド距離d(a,b)が閾値以上となり、手本の歌唱音とユーザの歌唱音との類似度が低い場合には、判断結果が「NO」となり、本処理を終える。
【0050】
これに対し、上記ステップSB8にて算出したユークリッド距離d(a,b)が閾値未満となり、手本の歌唱音とユーザの歌唱音との類似度が高い場合には、判断結果が「YES」となり、ステップSB10に進む。そして、ステップSB10では、採点対象としているフレームの採点結果を合格とし、部分得点をインクリメントして本処理を終える。
【0051】
以上のように、本実施の形態では、カラオケ伴奏音をサンプリングした伴奏データと、歌手が手本として歌唱した歌唱音をサンプリングした手本歌唱データとをカラオケデータメモリ13に記憶しておき、カラオケ開始指示に応じて、カラオケデータメモリ13から伴奏データを読み出してカラオケ伴奏音を再生すると、再生されるカラオケ伴奏音に合せてユーザが歌唱する歌唱音をサンプリングして得たユーザ歌唱データと、上記伴奏データに同期してカラオケデータメモリ13から読み出される手本歌唱データとを所定のデータ数分のフレームで区切り、区切られたフレーム中の手本歌唱データから手本歌唱音の音声特徴量MFCCを、ユーザ歌唱データからユーザ歌唱音の音声特徴量MFCCをそれぞれ抽出する。
【0052】
そして、抽出した手本歌唱音の音声特徴量MFCCおよびユーザ歌唱音の音声特徴量MFCCに基づき手本歌唱音に対するユーザ歌唱音の類似度を算出して適否判定し、その結果に基づき歌唱採点するので、曲の歌詞が正しく歌唱されているかどうかを歌唱採点できる。この結果、明確なメロディーを持たない「ラップ」と呼ばれるスタイルのカラオケ曲であっても歌唱採点し得るようになる。
【0053】
また、本実施の形態では、ユーザが歌唱したフレームの数と、カラオケ曲中で手本歌唱データが存在するフレームの数との比をとり、その比が一定値以上ある場合にのみ歌唱採点するので、演奏時間が非常に短い曲であっても歌唱採点することが可能になる。
【0054】
なお、上述した実施形態では、音声特徴量MFCCに基づき手本歌唱音に対するユーザ歌唱音の類似度を算出して歌唱採点したが、これに加えて、従来のピッチ抽出による歌唱採点方式を併用する態様としてもよい。例えば、カラオケ曲の伴奏データにメロディ部分とラップ部分とが混在する場合には、当該伴奏データ中にメロディ部分とラップ部分とを区別する識別フラグを設けておき、この識別フラグを参照してメロディ部分の伴奏データが再生される時にはピッチ抽出して歌唱採点を行い、一方、ラップ部分の伴奏データが再生される時には音声特徴量MFCCを抽出して歌唱採点を行う態様となる。このようにすれば、ユーザ歌唱音の音高の適否と、歌唱した歌詞の適否とを同時に判定することができる。
【0055】
また、上述した実施形態では、音声の特徴量を表すパラメータとして、ケプストラム領域の特徴量であるMFCC(Mel Frequency Cepstrum Coefficient)を抽出するようにしたが、これに替えて、LPCケプストラム等の他の特徴パラメータを抽出する態様としても構わない。
【0056】
加えて、本実施形態では、手本歌唱データの音声特徴量MFCCと、ユーザ歌唱データの音声特徴量MFCCとの類似度を測る尺度として、手本歌唱データの音声特徴量MFCCを表すベクトルa=(a1,a2,…,a12)と、ユーザ歌唱データの音声特徴量MFCCを表すベクトルb=(b1,b2,…,b12)との間のユークリッド距離d(a,b)を算出するようにしたが、これに限らず、例えば板倉距離などの他の尺度で類似度を算出しても構わない。
【0057】
また、上述した実施形態では、カラオケ伴奏音の再生に同期してカラオケデータメモリ13から読み出される手本歌唱データを所定のデータ数分のフレームで区切り、区切られたフレーム毎の音声特徴量MFCCを抽出するようにしたが、これに替えて、予め手本歌唱データからフレーム毎の音声特徴量MFCCを算出し、これを手本歌唱データの替わりにカラオケデータメモリ13に記憶しておくこともできる。このようにすれば、前述したステップSB4(図3参照)の手本歌唱データMFCC算出処理を不要にし、CPU10の処理負荷低減を図ることができる。
【符号の説明】
【0058】
10 CPU
11 プログラムROM
12 RAM
13 カラオケデータメモリ
14 スイッチ部
15 マイク
16 コーデック
17 ビデオエンコーダ

【特許請求の範囲】
【請求項1】
手本として歌唱された手本歌唱音の音声特徴量を抽出する第1の特徴抽出手段と、
ユーザが歌唱するユーザ歌唱音の音声特徴量を抽出する第2の特徴抽出手段と、
前記第1および第2の特徴抽出手段によりそれぞれ抽出された手本歌唱音の音声特徴量とユーザ歌唱音の音声特徴量との類似度を算出する類似度算出手段と、
前記類似度算出手段により算出された類似度に応じて、手本歌唱音に対するユーザ歌唱音の適否を判定して採点する採点手段と
を具備することを特徴とする歌唱採点装置。
【請求項2】
前記第1および第2の特徴抽出手段が抽出する音声特徴量は、ケプストラム領域の特徴量MFCC(Mel Frequency Cepstrum Coefficient)であることを特徴とする請求項1記載の歌唱採点装置。
【請求項3】
前記類似度算出手段は、手本歌唱音の音声特徴量を表す第1のベクトルと、ユーザ歌唱音の音声特徴量を表す第2のベクトルとの間のユークリッド距離を類似度として算出することを特徴とする請求項1記載の歌唱採点装置。
【請求項4】
カラオケ曲の再生に同期して発生するデータであって、手本として歌唱された手本歌唱音を表す手本歌唱音データと、再生されるカラオケ曲に合せてユーザが歌唱するユーザ歌唱音から得たユーザ歌唱データとを所定データ数毎に区切りフレーム化するフレーム化手段と、
前記フレーム化手段によりフレーム化された所定データ数分の手本歌唱音データから手本歌唱音の音声特徴量を抽出する第1の特徴抽出手段と、
前記フレーム化手段によりフレーム化された所定データ数分のユーザ歌唱データからユーザ歌唱音の音声特徴量を抽出する第2の特徴抽出手段と、
前記第1および第2の特徴抽出手段によりそれぞれ抽出された手本歌唱音の音声特徴量とユーザ歌唱音の音声特徴量との類似度を算出する類似度算出手段と、
前記類似度算出手段により算出された類似度に応じて、手本歌唱音に対するユーザ歌唱音の適否をフレーム毎に判定する判定手段と、
前記判定手段がフレーム毎に適否判定した結果に基づきユーザの歌唱を採点する採点手段と
を具備することを特徴とする歌唱採点装置。
【請求項5】
前記採点手段は、ユーザ歌唱データのフレームの数と手本歌唱音データのフレームの数との比が一定値以上の場合にのみ、前記判定手段がフレーム毎に適否判定した結果に基づきユーザの歌唱を採点することを特徴とする請求項4記載の歌唱採点装置。
【請求項6】
カラオケ曲のメロディ部分とラップ部分とを識別して再生可能なカラオケ装置において、
カラオケ曲のメロディ部分が再生される場合に、ユーザが歌唱するユーザ歌唱音のピッチを抽出し、抽出したピッチと再生されるメロディ部分のピッチとを比較してユーザ歌唱音の適否を判定して採点する第1の採点手段と、
カラオケ曲のラップ部分が再生される場合に、手本として歌唱される手本歌唱音の音声特徴量およびユーザが歌唱するユーザ歌唱音の音声特徴量を各々抽出し、抽出された手本歌唱音の音声特徴量とユーザ歌唱音の音声特徴量との類似度に応じて、手本歌唱音に対するユーザ歌唱音の適否を判定して採点する第2の採点手段と
を具備することを特徴とする歌唱採点装置。
【請求項7】
手本として歌唱された手本歌唱音の音声特徴量を抽出する第1の特徴抽出処理と、
ユーザが歌唱するユーザ歌唱音の音声特徴量を抽出する第2の特徴抽出処理と、
前記第1および第2の特徴抽出処理によりそれぞれ抽出された手本歌唱音の音声特徴量とユーザ歌唱音の音声特徴量との類似度を算出する類似度算出処理と、
前記類似度算出処理により算出された類似度に応じて、手本歌唱音に対するユーザ歌唱音の適否を判定して採点する採点処理と
をコンピュータで実行させることを特徴とする歌唱採点プログラム。
【請求項8】
前記第1および第2の特徴抽出処理により抽出される音声特徴量は、ケプストラム領域の特徴量MFCC(Mel Frequency Cepstrum Coefficient)であることを特徴とする請求項7記載の歌唱採点プログラム。
【請求項9】
前記類似度算出処理は、手本歌唱音の音声特徴量を表す第1のベクトルと、ユーザ歌唱音の音声特徴量を表す第2のベクトルとの間のユークリッド距離を類似度として算出することを特徴とする請求項7記載の歌唱採点プログラム。
【請求項10】
カラオケ曲の再生に同期して発生するデータであって、手本として歌唱された手本歌唱音を表す手本歌唱音データと、再生されるカラオケ曲に合せてユーザが歌唱するユーザ歌唱音から得たユーザ歌唱データとを所定データ数毎に区切りフレーム化するフレーム化処理と、
前記フレーム化処理によりフレーム化された所定データ数分の手本歌唱音データから手本歌唱音の音声特徴量を抽出する第1の特徴抽出処理と、
前記フレーム化処理によりフレーム化された所定データ数分のユーザ歌唱データからユーザ歌唱音の音声特徴量を抽出する第2の特徴抽出処理と、
前記第1および第2の特徴抽出処理によりそれぞれ抽出された手本歌唱音の音声特徴量とユーザ歌唱音の音声特徴量との類似度を算出する類似度算出処理と、
前記類似度算出処理により算出された類似度に応じて、手本歌唱音に対するユーザ歌唱音の適否をフレーム毎に判定する判定処理と、
前記判定処理がフレーム毎に適否判定した結果に基づきユーザの歌唱を採点する採点処理と
をコンピュータで実行させることを特徴とする歌唱採点プログラム。
【請求項11】
前記採点処理は、ユーザ歌唱データのフレームの数と手本歌唱音データのフレームの数との比が一定値以上の場合にのみ、前記判定処理がフレーム毎に適否判定した結果に基づきユーザの歌唱を採点することを特徴とする請求項10記載の歌唱採点プログラム。
【請求項12】
カラオケ曲のメロディ部分とラップ部分とを識別して再生可能なカラオケ装置に適用されるプログラムであって、
カラオケ曲のメロディ部分が再生される場合に、ユーザが歌唱するユーザ歌唱音のピッチを抽出し、抽出したピッチと再生されるメロディ部分のピッチとを比較してユーザ歌唱音の適否を判定して採点する第1の採点処理と、
カラオケ曲のラップ部分が再生される場合に、手本として歌唱された手本歌唱音の音声特徴量およびユーザが歌唱するユーザ歌唱音の音声特徴量を各々抽出し、抽出された手本歌唱音の音声特徴量とユーザ歌唱音の音声特徴量との類似度に応じて、手本歌唱音に対するユーザ歌唱音の適否を判定して採点する第2の採点処理と
をコンピュータで実行させることを特徴とする歌唱採点プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2012−98749(P2012−98749A)
【公開日】平成24年5月24日(2012.5.24)
【国際特許分類】
【出願番号】特願2012−7606(P2012−7606)
【出願日】平成24年1月18日(2012.1.18)
【分割の表示】特願2010−101757(P2010−101757)の分割
【原出願日】平成18年7月13日(2006.7.13)
【出願人】(000001443)カシオ計算機株式会社 (8,748)
【Fターム(参考)】