説明

歌唱判定装置およびカラオケ装置

【課題】歌唱音の入力有無を判断することができる歌唱判定装置を提供する。
【解決手段】ピッチ抽出部101は、入力した音声信号からピッチを抽出し、ピッチデータを生成する。ピッチデータの生成は、例えば10ms毎に行われる。音量抽出部102は、入力した音声信号の音量を抽出し、音量データを生成する。音量データは、例えば10ms毎の瞬時値または、積分値等から取得される。歌唱判定部103は、例えば、ピッチデータおよび音量データを所定時間(例えば100ms程度)記憶し、ピッチが連続して抽出され、標準偏差が所定の閾値未満であり、かつ音量が安定していれば歌唱音が入力されていると判定する。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、マイクから入力された音声の処理に関し、特に歌唱音の判定処理に関する。
【背景技術】
【0002】
カラオケ装置では、歌唱音声にエコーを付与したり、歌唱音声に基づいて採点などを行う。従来、歌唱中であるかリファレンス(ガイドメロディ)に基づいて歌唱中であるかどうかを判断し、歌唱中であればエコーをオンし、歌唱以外はエコーをかけないようにするものが提案されている(例えば特許文献1を参照)。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2000−267678号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、リファレンスのタイミングが実際の歌唱音声が入力されているタイミングになるとは限らない。例えば、歌唱タイミングがリファレンスと大きくずれる場合や、アドリブ歌唱を行う場合、アカペラで歌う場合などがある。また、マイクに音声が入力されている場合であっても、歌唱ではなくナレーションである場合もある。
【0005】
そこで、この発明は、歌唱音の入力有無を判断することができる歌唱判定装置を提供することを目的とする。
【課題を解決するための手段】
【0006】
この発明の歌唱判定装置は、分析部および歌唱判定部を備えている。分析部は、入力された音声信号のピッチを抽出する。歌唱判定部は、分析部の抽出したピッチの安定度に基づいて、歌唱音が入力されているか否かを判定する。例えば、10ms毎にピッチを抽出し、100ms等の所定区間毎にピッチが連続して抽出されていればピッチの安定度が高いとし、歌唱音が入力されていると判定する。また、ピッチの標準偏差等を求め、標準偏差が所定の閾値未満であればピッチの安定度が高いとして歌唱音が入力されていると判定する態様も可能である。
【0007】
さらに、分析部は、音量を抽出し、歌唱判定部は、前記音量の安定度に基づいて歌唱音が入力されているか否かを判定する態様とすることも可能である。
【0008】
また、歌唱音の判定は、マイク毎に行ってもよい。マイク毎に行うことで、例えばカラオケ装置において、片方が歌唱音、片方がナレーションである等の状況において、歌唱音が入力されている音声信号にエコーを付与し、ナレーションにエコーを付与しないように構成することが可能となる。
【0009】
なお、音声信号を遅延するディレイの後段にゲイン調整部を設けることで、ディレイの遅延量の時間分だけ歌唱音の判定に時間をかけることができる。
【0010】
また、歌唱音が入力されている時間帯のみ採点を行うことで、歌唱採点の精度を向上させることも可能である。
【発明の効果】
【0011】
この発明によれば、歌唱音の入力有無を判断することができる。
【図面の簡単な説明】
【0012】
【図1】カラオケ装置の構成を示すブロック図である。
【図2】歌唱判定の構成を示すブロック図である。
【図3】ピッチの時間軸変化を示す図である。
【図4】音量の時間軸変化を示す図である。
【図5】エコー制御の構成を示すブロック図である。
【発明を実施するための形態】
【0013】
図1は、本発明の歌唱判定装置を内蔵したカラオケ装置の構成を示す図である。カラオケ装置1は、装置全体の動作を制御するCPU11、およびCPU11に接続される各種構成部からなる。CPU11には、RAM12、HDD13、ネットワークインタフェース(I/F)14、操作部15、A/Dコンバータ17A、A/Dコンバータ17B、音源18、ミキサ(エフェクタ)19、MPEG等のデコーダ22、および表示処理部23が接続されている。
【0014】
HDD13は、カラオケ曲を演奏するための楽曲データやモニタ24に背景映像を表示するための映像データ等を記憶している。映像データは動画、静止画の両方を記憶している。ワークメモリであるRAM12には、CPU11の動作用プログラムを実行するために読み出すエリアやカラオケ曲を演奏するために楽曲データを読み出すエリア等が設定される。楽曲データや映像データ等は、定期的にネットワークI/F14を介して配信センタからダウンロードし、更新する。
【0015】
CPU11は、機能的にシーケンサを内蔵している。シーケンサは、HDD13に記憶されている楽曲データを読み出し、カラオケ演奏を実行するプログラムである。楽曲データは、曲番号等が書き込まれているヘッダ、演奏用MIDIデータが書き込まれている楽音トラック、ガイドメロディ用MIDIデータが書き込まれているガイドメロディトラック、歌詞用MIDIデータが書き込まれている歌詞トラック、バックコーラス再生タイミングおよび再生すべき音声データが書き込まれているコーラストラック、等からなっている。シーケンサは、楽音トラックやガイドメロディトラックのデータに基づいて音源18を制御し、カラオケ曲の楽音を発生する。また、シーケンサは、コーラストラックの指定するタイミングでバックコーラスの音声データ(楽曲データに付随しているMP3等のエンコードデータ)を再生する。また、シーケンサは、歌詞トラックに基づいて曲の進行に同期して歌詞の文字パターンを合成し、この文字パターンを映像信号に変換して表示処理部23に入力する。
【0016】
音源18は、シーケンサの処理によってCPU11から入力されたデータ(ノートイベントデータ)に応じて楽音信号(デジタル音声信号)を形成する。形成した楽音信号はミキサ19に入力される。
【0017】
ミキサ19は、音源18が発生した楽音信号、コーラス音、マイク16AからA/Dコンバータ17Aを介して入力された音声信号、およびマイク16BからA/Dコンバータ17Bを介して入力された音声信号をミキシングする。また、ミキサ19は、CPU11の制御にしたがって、マイク16AからA/Dコンバータ17Aを介して入力された音声信号、およびマイク16BからA/Dコンバータ17Bを介して入力された音声信号にエコーを付与する。
【0018】
ミキシングされた各デジタル音声信号はサウンドシステム(SS)20に入力される。サウンドシステム20はD/Aコンバータおよびパワーアンプを内蔵しており、入力されたデジタル信号をアナログ信号に変換して増幅し、スピーカ21から放音する。
【0019】
CPU11は、上記シーケンサによる楽音の発生、歌詞テロップの生成と同期して、HDD13に記憶されている映像データを読み出して背景映像等を再生する。動画の映像データは、MPEG形式にエンコードされている。CPU11は、読み出した映像データをデコーダ22に入力する。デコーダ22は、入力されたMPEGデータを映像信号に変換して表示処理部23に入力する。表示処理部23には、背景映像の映像信号以外に上記歌詞テロップの文字パターン等が入力される。表示処理部23は、背景映像の映像信号の上に歌詞テロップなどをOSDで合成してモニタ24に出力する。モニタ24は、表示処理部23から入力された映像信号を表示する。
【0020】
操作部15は、カラオケ装置1の操作パネル面に設けられた各種のキースイッチや赤外線通信等を介して接続されるリモコン等からなり、ユーザの各種操作(例えば曲のリクエスト)を受け付け、操作態様に応じた操作情報をCPU11に入力する。
【0021】
カラオケ装置は、以上のようにして、カラオケ演奏を行う。ここで、本実施形態のカラオケ装置は、各マイクで収音した音声が歌唱音であるか、歌唱音以外(例えばナレーション)であるかを判断し、歌唱音が入力されている場合にエコーを付与したり、採点を行ったりする。以下、歌唱判定について説明する。
【0022】
図2に示すように、CPU11は、機能的にピッチ抽出部101、音量抽出部102、歌唱判定部103、採点部104、およびエコー制御部105を備えている。ピッチ抽出部101、音量抽出部102、歌唱判定部103、および採点部104は、採点エンジンとして実現される。これらピッチ抽出部101、音量抽出部102、歌唱判定部103、採点部104、およびエコー制御部105は、マイク毎に設けられている。以下の例では、マイク16Aの音声信号を入力する例について説明するが、マイク16Bの音声信号を入力する場合も各種構成や処理内容は同様である。
【0023】
ピッチ抽出部101および音量抽出部102は、本発明の分析部に相当し、それぞれA/Dコンバータ17Aからマイク16Aで収音した音声信号が入力される。
【0024】
ピッチ抽出部101は、入力した音声信号からピッチ(基本周波数)を抽出し、ピッチデータを生成する。ピッチデータの生成は、例えば10ms毎に行われる。ピッチは、例えば、図3(A)に示すように、音声信号のゼロクロスとなる点の周期を算出し、サイン波として近似することで抽出する。
【0025】
音量抽出部102は、入力した音声信号の音量を抽出し、音量データを生成する。音量データの生成も、例えば10ms毎に行われる。音量は、10ms毎の瞬時値として抽出される(または10ms内の積分値でもよい)。
【0026】
ピッチ抽出部101の抽出したピッチデータ、および音量抽出部102の抽出した音量データは、歌唱判定部103に入力される。
【0027】
歌唱判定部103は、入力されたピッチデータおよび音量データを所定時間(例えば100ms程度)記憶し、この所定時間が経過する毎にマイク16Aで収音した音声が歌唱音であるか否かを判定する。歌唱判定部103は、例えば、図3(B)に示すように、ピッチが100ms連続して抽出され、かつ、この100msの区間内におけるピッチの変動が小さい場合、ピッチデータの安定度が高いとして、歌唱音であると判定する。一方で、図3(C)に示すように、ピッチが途切れ(無声音が存在し)、あるいは100msの区間内におけるピッチの変動が大きい場合、ピッチデータの安定度が低いとして、歌唱音ではない(例えばナレーションである)と判定する。
【0028】
なお、ピッチの変動の指標としては、例えば標準偏差を用いる。歌唱判定部103は、100ms内のピッチデータの標準偏差を求め、この標準偏差が所定の閾値未満であれば、ピッチの変動が小さいと判定し、標準偏差が所定の閾値以上であればピッチの変動が大きいと判定する。
【0029】
歌唱判定部103は、歌唱判定の条件として、さらに、音量データの安定度を追加する。例えば、図4(A)に示すように、100msの区間内における音量の変動が小さい場合、音量の安定度が高いとして歌唱音であると判定する。一方で、図4(B)に示すように、100msの区間内における音量の変動が大きい場合、音量の安定度が低いとしてナレーションであると判定する。
【0030】
音量の変動の指標としても、例えば標準偏差を用いる。歌唱判定部103は、100ms内の音量データの標準偏差を求め、この標準偏差が所定の閾値未満であれば音量の変動が小さいと判定し、標準偏差が所定の閾値以上であれば音量の変動が大きいと判定する。
【0031】
なお、以上の条件(ピッチの連続性、ピッチの標準偏差、音量の標準偏差)は、いずれか1つを用いてもよく、全ての条件を用いてもよい。例えば、ピッチが100ms連続して抽出された時点で歌唱音と判定する態様や、ピッチが100ms連続し、かつ標準偏差が所定の閾値未満である場合に歌唱音と判定する態様や、ピッチが100mms連続し、ピッチの標準偏差が所定の閾値未満であり、かつ音量の標準偏差が所定の閾値未満であれば歌唱音が入力されていると判定する、等である。
【0032】
歌唱判定部103は、歌唱音であると判定した場合、歌唱判定情報を採点部104およびエコー制御部105に出力する。採点部104は、歌唱判定情報が入力されると、マイク16Aから入力されている音声信号について、歌唱採点を行う。歌唱採点は、例えばリファレンスデータ(ガイドメロディトラックのデータ)との対比により行われる。すなわち、ガイドメロディトラックの各ノートナンバのノートオンタイミングと、歌唱音の入力タイミングとを比較する、あるいは、ノートナンバに対応する周波数と、抽出したピッチとの比較を行う、等である。
【0033】
以上の構成によれば、歌唱音が入力されている時間帯にのみ採点部104が採点を行うことで、ナレーションの音声に基づいて採点を行うことを防止することができ、採点の精度を向上することができる。
【0034】
一方、エコー制御部105は、歌唱判定情報が入力されると、マイク16Aからの入力されている音声信号にエコーを付与する制御を行う。すなわち、ミキサ19におけるマイク16Aの入力系統の音声信号にエコーを付与する制御を行う。
【0035】
図5にエコー制御の構成のブロック図を示す。同図に示すように、ミキサ19は、マイク16Aの入力系統として、加算器50A、ディレイ51A、およびゲイン調整部52Aを備えている。また、マイク16Bの入力系統として、加算器50B、ディレイ51B、およびゲイン調整部52Bを備えている。また、ゲイン調整部52Aおよびゲイン調整部52Bの出力信号をミキシングする加算器53を備えている。なお、ミキサ19は、実際には、音源18からの楽音信号が入力される系統の構成も存在するが、同図においては図示および説明を省略する。
【0036】
CPU11のエコー制御部105は、マイク16Aの歌唱判定情報が入力されたとき、マイク16Aの入力系統であるディレイ51Aの遅延量およびゲイン調整部52Aのゲインを調整し、歌唱音に適したエコーを付与する。例えば、遅延量を大きく設定し、かつゲインを大きく設定する。一方で、歌唱情報が入力されていない場合は、遅延量をゼロ、あるいは相対的に小さく設定し、かつゲインを小さく設定し、エコーを付与しない、またはエコーを弱く設定する。
【0037】
また、エコー制御部105は、マイク16Bの歌唱判定情報が入力されたとき、マイク16Bの入力系統であるディレイ51Bの遅延量およびゲイン調整部52Bのゲインを調整し、歌唱音に適したエコーを付与する。例えば、遅延量を大きく設定し、かつゲインを大きく設定する。一方で、歌唱情報が入力されていない場合は、遅延量をゼロ、あるいは相対的に小さく設定し、かつゲインを小さく設定し、エコーを付与しない、またはエコーを弱く設定する。
【0038】
なお、ゲイン調整部52Aおよびゲイン調整部52Bは、それぞれディレイ51Aおよびディレイ51Bの前段に設けてもよいが、図5に示すように、各ディレイの後段に設けることで、ディレイの遅延量の時間分だけ歌唱音の判定に時間をかけることができる。つまり、エコーがかかり始めるのは、各ディレイの出力信号が加算器に到達するタイミングであるため、ディレイの時間以内に歌唱音の判定を行い、ゲインを調整すれば、歌唱音の頭からエコーを付与し、ナレーションの頭からエコーを付与しない態様とすることが可能である。
【0039】
このようにして、歌唱音の判定をマイク毎に行うことで、片方が歌唱音、片方がナレーションである等の状況において、歌唱音が入力されているマイクの音声信号にのみ適切なエコーを付与し、ナレーションにエコーを付与しない(あるいは聞き取りやすい程度にエコーを付与する)ように構成することが可能となる。
【0040】
なお、歌唱判定部103は、上述の所定時間(100ms)内における音量が小さい場合(100msの積算値が所定値未満である場合)、無音であると判定する態様としてもよい。無音であると判定した場合についても、エコーを付与しない、あるいは採点を行わない態様とする。また、無音の場合は、パワーアンプの増幅量をゼロ、あるいは小さく設定し、ハウリングの発生を防止する態様としてもよい。
【0041】
なお、本実施形態のカラオケ装置においては、2本のマイクについて説明したが、さらに多数のマイクを備えた場合においても、マイク毎に歌唱音を判定することが可能である。無論、1本のマイクであっても可能である。
【0042】
以上のように、本実施形態のカラオケ装置では、各マイクの収音した音声が歌唱音であるか否かを判定することにより、歌唱音の場合にのみエコーを付与(あるいはエコーを強くする)ことができる。したがって、歌唱音にエコーが付与されない、あるいはナレーションに強いエコーが付与されてしまう、といった態様を防止することができる。特に、従来のようなリファレンスデータに基づく歌唱区間の判定では、歌唱タイミングがリファレンスと大きくずれた場合や、アドリブ歌唱を行う場合、アカペラで歌う場合などにおいて、歌唱音にエコーを付与しない状況であったが、本実施形態によれば、いつでも歌唱さえ行えば、適切なエコーが付与される。
【0043】
また、本実施形態においては、歌唱判定装置をカラオケ装置に適用する例について説明したが、例えばPA機器(ミキサ)等に内蔵させ、マイク毎にエフェクトを付与するか否かを自動設定する等の態様も可能である。
【符号の説明】
【0044】
1…カラオケ装置
11…CPU
12…RAM
13…HDD
15…操作部
16A…マイク
16B…マイク
17A…A/Dコンバータ
17B…A/Dコンバータ
18…音源
19…ミキサ
20…サウンドシステム
21…スピーカ
22…デコーダ
23…表示処理部
24…モニタ
101…ピッチ抽出部
102…音量抽出部
103…歌唱判定部
104…採点部
105…エコー制御部

【特許請求の範囲】
【請求項1】
入力された音声信号のピッチを抽出する分析部と、
前記分析部の抽出したピッチの安定度に基づいて、歌唱音が入力されているか否かを判定する歌唱判定部と、
を備えた歌唱判定装置。
【請求項2】
前記分析部は、前記音声信号の音量を抽出し、
前記歌唱判定部は、前記音量の安定度に基づいて歌唱音が入力されているか否かを判定する請求項1に記載の歌唱判定装置。
【請求項3】
複数のマイクを備え、
前記分析部は、各マイクから音声信号をそれぞれ入力し、
前記歌唱判定部は、マイク毎の音声信号について歌唱音の判定を行う請求項1または請求項2に記載の歌唱判定装置。
【請求項4】
請求項1乃至請求項3のいずれかに記載の歌唱判定装置と、
歌唱音が入力されていると判定した場合に、入力された音声信号にエコーを付与するエコー制御部と、
を備えたカラオケ装置。
【請求項5】
前記エコー制御部は、
前記入力された音声信号を遅延するディレイと、
前記ディレイの出力信号のゲインを調整するゲイン調整部と、を含む請求項4に記載のカラオケ装置。
【請求項6】
請求項1乃至請求項3のいずれかに記載の歌唱判定装置を備えたカラオケ装置、または請求項4もしくは請求項5に記載のカラオケ装置であって、
歌唱音が入力されていると判定した場合に、入力された音声信号の歌唱採点を行うことを特徴とするカラオケ装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate