説明

歌唱力評価方法及びカラオケ装置

【課題】マイクから入力された音声が、伴奏情報なのか人間の歌声なのかを判定して歌声部分のみを採点する歌唱力評価方法及びカラオケ装置を提供すること。
【解決手段】カラオケ装置1に内臓されている採点処理部12は、マイク2から入力された音声信号がカラオケの伴奏なのか?人間の歌声なのか?を判定する伴奏・歌声判定部21を備える。伴奏・歌声判別部21は、マイク2から入力された音声信号に周波数分析を行いスペクトルを算出し、スペクトルのエネルギーが高周波数帯域に集中していることが検出されたときに『入力音声信号は伴奏情報である』と判定する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、歌唱力評価方法及びカラオケ装置に関する。
【背景技術】
【0002】
現在市販されている殆ど全てのカラオケ装置には、カラオケ採点機能が付いている。従来のカラオケ採点装置として、例えば特許文献1に示すようなマイクから入力された歌唱者の歌声から抽出した音程(ピッチ)とガイドメロディの音程を比較して、その一致度に基づき得点を算出するというものが知られている。
【特許文献1】特許第2925759号公報
【0003】
これらのカラオケ採点装置では、マイクから入力された歌唱者の歌声からピッチを検出し、ピッチに基づいて歌唱者の歌の採点を行う。しかし、マイクにはいつも歌唱者の歌声が入力されるとは限らない。例えばカラオケBOXなどに設置されたカラオケ装置の場合、マイクには歌唱者の歌声と伴奏情報が混ざりあった音声信号が入力される場合が多い。歌唱者がマイクを口元から離して歌っている場合、歌唱者の声が小さい場合、伴奏の音量が大きい場合などは、カラオケ伴奏が歌唱者の持つマイクに回り込み、カラオケ採点結果に影響を与える場合がある(図13参照)。
【発明の開示】
【発明が解決しようとする課題】
【0004】
本発明は、上記問題を解決するためになされたものであり、音声信号入力手段から入力された音声信号が歌唱者の歌声情報か伴奏情報かを判定することのできる歌唱力評価方法及び歌唱力評価機能を有するカラオケ装置を提供することを目的とする。
【課題を解決するための手段】
【0005】
上記目的を達成するために、本発明の請求項1に記載の歌唱力評価方法は、コンピュータに、音声信号入力手段から入力された入力音声信号に周波数分析を行いスペクトルを算出させるスペクトル算出ステップと、当該スペクトル算出ステップを実行して得られたスペクトルをスペクトル記憶手段に記憶するスペクトル記憶ステップと、前記スペクトル記憶手段より読み出されたスペクトルのエネルギーが高周波数帯域に集中していることが検出されたときに入力音声信号は伴奏情報であると判定する伴奏・歌声判定ステップとを実行させることを特徴とする。
【0006】
また、本発明の請求項2に記載の歌唱力評価方法は、請求項1に記載の発明の構成に加え、前記伴奏・歌声判定ステップでは、前記スペクトル記憶手段より読み出されたスペクトルからピッチを算出させ、当該ピッチが一定しきい値より高いときに入力音声信号は伴奏情報であると判定することを特徴とする。
【0007】
また、本発明の請求項3に記載の歌唱力評価方法は、請求項1に記載の発明の構成に加え、前記伴奏・歌声判定ステップでは、前記スペクトル記憶手段より読み出されたスペクトルからスペクトルの傾きを算出させ、算出されたスペクトルの傾きが一定しきい値より大きいときに入力音声信号は伴奏情報であると判定することを特徴とする。
【0008】
また、本発明の請求項4に記載の歌唱力評価方法は、請求項1乃至3の何れかに記載の歌唱力評価方法であって、前記伴奏・歌声判定ステップでは、さらに前記スペクトル記憶手段より読み出されたスペクトルから、スペクトルに含まれる倍音の量を測定し、当該倍音の量が一定しきい値より多いときに入力音声信号は伴奏情報であると判定することを特徴とする。
【0009】
また、本発明の請求項5に記載の歌唱力評価方法は、請求項1乃至3の何れかに記載の歌唱力評価方法であって、前記伴奏・歌声判定ステップでは、さらに前記スペクトル記憶手段より読み出されたスペクトルから、スペクトルに含まれる極値の数を数え、当該極値の数が一定しきい値より多いときに入力音声信号は伴奏情報であると判定することを特徴とする。
【0010】
また、本発明の請求項6に記載の歌唱力評価機能を搭載したカラオケ装置は、音声信号入力手段から入力された入力音声信号に周波数分析を行いスペクトルを算出するスペクトル算出手段と、当該スペクトル算出手段により得られたスペクトルを記憶するスペクトル記憶手段と、前記スペクトル記憶手段により読み出されたスペクトルのエネルギーが高周波数帯域に集中していることが検出されたときに入力音声信号は伴奏情報であると判定する伴奏・歌声判定手段とを備えたことを特徴とする。
【0011】
また、本発明の請求項7に記載の歌唱力評価機能を搭載したカラオケ装置は、請求項6に記載の発明の構成に加え、前記伴奏・歌声判定手段は、前記スペクトル記憶手段により読み出されたスペクトルからピッチを算出し、当該ピッチが一定しきい値より高いときに入力音声信号は伴奏情報であると判定することを特徴とする。
【0012】
また、本発明の請求項8に記載の歌唱力評価機能を搭載したカラオケ装置は、請求項6に記載の発明の構成に加え、前記伴奏・歌声判定手段は、前記スペクトル記憶手段により読み出されたスペクトルからスペクトルの傾きを算出し、算出されたスペクトルの傾きが一定しきい値より大きいときに入力音声信号は伴奏情報であると判定することを特徴とする。
【0013】
また、本発明の請求項9に記載の歌唱力評価機能を搭載したカラオケ装置は、請求項6乃至8の何れかに記載のカラオケ装置であって、前記伴奏・歌声判定手段は、さらに前記スペクトル記憶手段により読み出されたスペクトルから、スペクトルに含まれる倍音の量を測定し、当該倍音の量が一定しきい値より多いときに入力音声信号は伴奏情報であると判定することを特徴とする。
【0014】
また、本発明の請求項10に記載の歌唱力評価機能を搭載したカラオケ装置は、請求項6乃至8の何れかに記載のカラオケ装置であって、前記伴奏・歌声判定手段は、さらに前記スペクトル記憶手段により読み出されたスペクトルから、スペクトルに含まれる極値の数を数え、当該極値の数が一定しきい値より多いときに入力音声信号は伴奏情報であると判定することを特徴とする。
【発明の効果】
【0015】
本発明の請求項1に記載の歌唱力評価方法は、入力音声信号より算出されたスペクトルの周波数特性を用いて入力音声信号が伴奏情報なのか、歌声情報なのかを判定することができる。本発明によれば、マイク等から入力された伴奏情報を歌声情報と誤って採点してしまうのを防ぐことができるため、高精度な歌唱力評価が可能となる。
【0016】
また、本発明の請求項2に記載の歌唱力評価方法は、入力音声信号より算出されたピッチを用いて入力音声信号が伴奏情報なのか、歌声情報なのかを判定することができる。本発明によれば、マイク等から入力された伴奏情報を歌声情報と誤って採点してしまうのを防ぐことができるため、高精度な歌唱力評価が可能となる。
【0017】
また、本発明の請求項3に記載の歌唱力評価方法は、入力音声信号より算出されたスペクトルの傾き用いて入力音声信号が伴奏情報なのか、歌声情報なのかを判定することができる。本発明によれば、マイク等から入力された伴奏情報を歌声情報と誤って採点してしまうのを防ぐことができるため、高精度な歌唱力評価が可能となる。
【0018】
また、本発明の請求項4に記載の歌唱力評価方法は、請求項1乃至3の何れかに記載の発明の効果に加え、さらにスペクトルに含まれる倍音の量を利用して伴奏・歌声判定を行うことで、より高精度な歌唱力評価が可能となる。
【0019】
また、本発明の請求項5に記載の歌唱力評価方法は、請求項1乃至3の何れかに記載の発明の効果に加え、さらにスペクトルの極値の数を利用して伴奏・歌声判定を行うことで、より高精度な歌唱力評価が可能となる。
【0020】
また、本発明の請求項6に記載の歌唱力評価機能を搭載したカラオケ装置は、入力音声信号より算出されたスペクトルの周波数特性を用いて入力音声信号が伴奏情報なのか、歌声情報なのかを判定することができる。カラオケBOXなどにおいて、マイクに回りこんできた伴奏情報を歌声情報と誤って採点してしまう不具合を防ぐことができるため、高精度な歌唱力評価機能を提供できる。
【0021】
また、本発明の請求項7に記載の歌唱力評価機能を搭載したカラオケ装置は、入力音声信号より算出されたピッチを用いて入力音声信号が伴奏情報なのか、歌声情報なのかを判定することができる。カラオケBOXなどにおいて、マイクに回りこんできた伴奏情報を歌声情報と誤って採点してしまう不具合を防ぐことができるため、高精度な歌唱力評価機能を提供できる。
【0022】
また、本発明の請求項8に記載の歌唱力評価機能を搭載したカラオケ装置は、入力音声信号より算出されたスペクトルの傾きを用いて入力音声信号が伴奏情報なのか、歌声情報なのかを判定することができる。カラオケBOXなどにおいて、マイクに回りこんできた伴奏情報を歌声情報と誤って採点してしまう不具合を防ぐことができるため、高精度な歌唱力評価機能を提供できる。
【0023】
また、本発明の請求項9に記載の歌唱力評価機能を搭載したカラオケ装置は、請求項6乃至8の何れかに記載の発明の効果に加え、さらにスペクトルに含まれる倍音の量を利用して伴奏・歌声判定を行うため、より高精度な歌唱力評価機能を提供できる。
【0024】
また、本発明の請求項10に記載の歌唱力評価機能を搭載したカラオケ装置は、請求項6乃至8の何れかに記載の発明の効果に加え、さらにスペクトルの極値の数を利用して伴奏・歌声判定を行うため、より高精度な歌唱力評価機能を提供できる。
【発明を実施するための最良の形態】
【0025】
次に本発明を適用した実施の形態について図面を参照して詳しく説明する。本発明の実施形態として、歌唱力評価装置を搭載したカラオケ装置について説明する。図1は本実施形態におけるカラオケ採点装置の外観である。図1に示すように、カラオケ装置1にはマイク2、ディスプレイ3、AMP4が接続されており、AMP4にはスピーカ5が接続されている。
【0026】
図2は、カラオケ装置1の内部構造について説明したブロック図である。図2に示すように、カラオケ装置はCPU(Central Processing Unit)19を中心にした電子回路で構成される。CPU19はHDD(Hard Disk Drive)18、ビデオコントローラ6、ミキサ7、RAM(Random Access Memory)9、採点処理部12に接続され、各機器の動作を制御する。マイク2は、カラオケ装置1内部のA/D変換部17に接続される。A/D変換部17は、RAM9とミキサ7に接続される。ミキサ7は演奏装置8に接続されており、ミキサ7の出力を演奏装置8を経由して外部のAMP4に伝える。RAM9には、A/D変換部17、採点処理部12、CPU19が接続されている。RAM9にはA/D変換部17によりA/D変換された音声信号、採点処理部12により算出されたカラオケ採点結果などが記録される。
【0027】
採点処理部12は、ピッチ抽出部13、ビブラート検出部14、得点算出部15から構成され、ピッチ抽出部13とビブラート検出部14の出力を基に、得点算出部15で得点算出を行う構造になっている。
【0028】
HDD18には、多数のカラオケ曲の背景映像、演奏データ、歌詞テロップ、その他の情報が蓄えられている。操作部16は、パネルスイッチや、リモコン受信回路から成り、ユーザによる操作信号をCPU19に伝える。歌い手が多数のカラオケ曲から特定の曲を選択し操作部16より入力すると、CPU19は、その信号を受けてHDD18より該当するカラオケ曲の演奏データを読み出し、ミキサに出力する。
【0029】
一方、マイク2より入力された歌唱者の歌声は、A/D変換部17でサンプリングされ、ミキサ7に送られる。ミキサ7はマイク2から入力された歌唱者の歌声とHDD18より読み出された演奏データを合成し、演奏装置8に出力する。合成された演奏データはAMP4を経由してスピーカ5から出力される。同時に、CPU19は背景映像および歌詞テロップをビデオコントローラ6に送る。歌詞テロップは、演奏と同期してディスプレイ3に表示され、現在演奏されている歌詞テロップの色が変化していく。歌唱者は歌詞テロップを見ながら伴奏に従って歌を歌う。この一連の動作制御はCPU19が担当している。なお、ビデオコントローラ6が請求項に言う「表示制御手段」に相当し、ディスプレイ3が請求項に言う「表示手段」に相当する。
【0030】
次に、採点処理部12の動作について説明する。カラオケ装置に付属するカラオケ採点機能を使用するかどうかは歌唱者の意思に委ねられる。カラオケ採点を希望する歌唱者は操作部16を操作して、採点機能をONにする。歌唱者のカラオケ歌唱が始まると、CPU19は採点処理部12に採点開始指示を与える。採点開始指示を与えられた採点処理部12はカラオケ採点を開始する。カラオケ採点が開始されると、CPU19はHDD18から歌唱者が歌うカラオケ曲データを読み出し、読み出された曲データに含まれているガイドメロディをRAM9に書き込み始める。一方、マイク2より入力された歌唱者の歌声は、A/D変換部17によりサンプリングされ、DMA(Direct Memory Access)によりRAM9に音声信号として記録される。ピッチ抽出部13はRAM9から音声信号を読み出し、ピッチを算出する。同時に、ビブラート検出部14はRAM9から音声信号を読み出し、ビブラートを検出する。得点算出部15はピッチ抽出部13より検出されたピッチ情報とRAM9より読み出されたガイドメロディを比較し、この比較結果にビブラート検出部14より検出されたビブラート情報と伴奏・歌声判定部21より出力された伴奏/歌声の判定結果を加味して得点を算出する。算出された得点は、採点結果としてRAM9に書き込まれる。なお、このA/D変換部17が請求項に言う音声信号入力手段に相当する。
【0031】
演奏終了後、CPU19が採点終了指示を採点処理部12に与えると、カラオケ採点処理は終了する。CPU19はRAM9から読み出した採点結果をビデオコントローラ6に送る。採点結果はディスプレイ3に表示され、歌唱者は歌の採点結果を確認し一喜一憂する。なお、本実施形態では演奏終了後に得点をディスプレイ3に表示しているが、これに限らず歌唱者が歌い始めてから現時点までの中間得点を順次ディスプレイに表示していき歌唱者が歌いながら得点を確認できる構造にしても良い。
【0032】
採点処理部12は、DSP(Digital Signal Processor)と採点処理を行う採点専用ファームウェアによって構成される。通常のカラオケ採点装置ではDSPはピッチ算出のみに用いられ、採点処理はCPUが行う構成が多かったが、本実施形態では採点に関わる殆ど全ての処理をDSP(採点処理部)が担当する。この構成により、採点回路設計の自由度が格段に向上すると共に非常に詳細な分析が可能となる。
【0033】
次に、RAM9に設定される記憶領域について、図3を参照して説明する。音声信号記憶メモリ9Aは、A/D変換部17によりA/D変換された音声信号を記憶する領域である。自己相関関数記憶メモリ9Bは、採点処理部12内部にあるピッチ抽出部13で算出される自己相関関数を記憶する領域である。フーリエ級数記憶メモリ9Cは採点処理部12内部にあるピッチ抽出部13で算出されるフーリエ級数を記憶する領域である。有声・無声判定結果記憶メモリ9Dは、RAM9より読み出された切り出し音声フレームが有声音か?無声音か?判定した結果を記憶する領域である。伴奏・歌声判定結果記憶メモリ9Eは、RAM9より読み出された切り出し音声フレームが歌声情報か?伴奏情報か?判定した結果を記憶する領域である。ピッチ記憶メモリ9Fは、ピッチ抽出部13で算出されるピッチを記憶する領域である。ピッチ変化量記憶メモリ9Gは、ビブラート検出部14により算出されたピッチ変化量を記憶する領域である。ビブラート情報記憶メモリ9Hは、ビブラート検出部14により算出されたビブラート情報を記憶する領域である。瞬時得点記憶メモリ9Iは、得点算出部15により算出された瞬時得点を記憶する領域である。累積得点記憶メモリ9Jは、得点算出部15により算出された累積得点を記憶する領域である。ワークメモリ9Wは、採点処理部が、採点処理の一時記憶などに使用する領域である。なお、この自己相関関数記憶メモリ9B及びフーリエ級数記憶メモリ9Cが請求項に言う「スペクトル記憶手段」に相当する。
【0034】
図4は、採点処理部12で行われる採点動作手順について説明したフローチャートである。採点処理部12の動作について、図3、図4を参照して説明する。採点処理部12は、ピッチ抽出部13、ビブラート検出部14、伴奏・歌声判定部21、得点算出部15より構成される。
【0035】
まず、ピッチ抽出部13の動作について図4に示すフローチャートを参照して説明する。ピッチ抽出処理では、まずRAM9の音声信号記憶メモリ9Aより読み出された音声信号を基に自己相関関数を算出し、RAM9の自己相関関数記憶メモリ9Bに書き込む(S10)。次に、RAM9の音声信号記憶メモリ9Aより読み出された音声信号に対して高速フーリエ変換を行い、得られたフーリエ級数をRAM9のフーリエ級数記憶メモリ9Cに書き込む(S11)。次に、RAM9の自己相関関数記憶メモリ9Bから読み出された自己相関関数を基に「入力音声が有声音か無声音か?」の判定を行い、判定結果をRAM9の有声・無声判定結果記憶領域9Dに書き込む(S12)。次に、RAM9の自己相関関数記憶メモリ9BとRAM9のフーリエ級数記憶メモリ9Cから、自己相関関数とフーリエ級数を読み出し、これらを基に伴奏・歌声判定を行い、得られた伴奏・歌声判定結果をRAM9の伴奏・歌声判定結果記憶メモリ9Eに書き込む(S13)。次に、RAM9の自己相関関数記憶メモリ9BとRAM9のフーリエ級数記憶メモリ9Cから、自己相関関数とフーリエ級数を読み出し、これらを基にピッチ抽出を行い、検出されたピッチをRAM9のピッチ記憶メモリ9Fに書き込む(S14)。上述S10〜S14までの処理をピッチ抽出部13が担当する。なお、上記S10及びS11の処理が請求項に言う「スペクトル算出ステップ」及び「スペクトル記憶ステップ」に相当し、S10及びS11の処理を実行する採点処理部(DSP)12が「スペクトル算出手段」に相当する。また、上記S13の処理が請求項に言う「伴奏・歌声判定ステップ」に相当し、S10及びS11の処理を実行する採点処理部(DSP)12が「伴奏・歌声判定手段」に相当する。
【0036】
次に、ビブラート検出部14の処理について説明する。ビブラート検出部14では、RAM9のピッチ記憶メモリ9Fより読み出されたピッチを基にピッチ変化量を算出しRAM9のピッチ変化量記憶メモリ9Gに書き込む(S15)。次に、RAM9のピッチ変化量記憶メモリ9Gより読み出されたピッチ変化量を基にビブラート検出を行い、ビブラート検出結果をRAM9のビブラート情報記憶メモリに書き込む(S16)。上述S15〜S16までの処理をビブラート検出部14が担当する。
【0037】
得点算出部15は、RAM9のピッチ記憶メモリ9F、ガイドメロディ記憶メモリ9M、有声・無声判定結果記憶メモリ9D、伴奏・歌声判定結果記憶メモリ9E、ピッチ変化量記憶メモリ9G、ビブラート情報記憶メモリ9Hより、それぞれピッチ、ガイドメロディ、有声・無声判定結果、伴奏・歌声判定結果、ピッチ変化量、ビブラート検出結果を読み出し、これらを基に得点算出を行う(S17)。処理S17により得られた得点算出結果は、RAM9の瞬時得点記憶メモリ9I、累積得点記憶メモリ9Jに書き込まれる。RAM9の瞬時得点記憶メモリ9Iには、短時間について分析した瞬時得点が記録され、RAM9の累積得点記憶メモリ9Jには、採点を始めてから現在に至るまで瞬時得点を累積して平均をとった平均得点が記録される。
【0038】
なお、上記瞬時得点は上記ガイドメロディとピッチの比較を行い、その類似度を得点としている。ただし、有声・無声判定結果記憶メモリ9Dより読み出された判定結果が"無声音"と判定されている無声区間については得点算出を行わない。また、伴奏・歌声判定結果記憶メモリ9Eより読み出された判定結果が"伴奏情報"と判定されている伴奏区間については、得点算出を行わない。また、ピッチ変化量記憶メモリ9Gより読み出されたピッチ変化量が激しい区間についても得点算出を行わない。また、ビブラート情報記憶メモリ9Hより読み出された情報より、"ビブラート区間"と判定された区間については、ビブラートの美しさを算出し得点とする構成になっている。これら一連の採点処理は、CPU19から採点終了指示を受ける(S18)ことで終了する。累積得点記憶メモリ9Jに書き込まれた平均得点が歌唱者の歌の得点となる。
【0039】
以下、ピッチ抽出部13、ビブラート検出部14、得点算出部15の動作について詳細に説明する。ピッチ抽出部13では、前処理として、入力音声に自己相関分析を行い、自己相関関数を求める。本実施形態では、マイク2より入力された歌唱音声は、A/D変換器17によりサンプリング周波数48[kHz]でサンプリングされ、RAM9の音声信号記憶メモリ9Aに書き込まれる。採点処理部12は、RAM9の音声信号記憶メモリ9Aから、1回の分析につき1440[point]の分析フレームを切り出し分析を行う。自己相関関数法では、『分析フレーム:F={x(1),x(2),…,x(N)}』と『分析フレームをi[point]ずらしたもの:F={x(i),x(1+i),…,x(N+i)}』の相関を求める。相関値R(0,i)を計算する式の一例を数式1に示す。
【数1】

【0040】
自己相関関数法では、FとFのずれ量iを1〜N[point]まで変化させ、相関値(類似度)R(0,i)を順次算出していく。このようにして算出された自己相関関数R(0,i)は、メモリ9の自己相関関数記憶メモリ9Bに書き込まれる。
【0041】
自己相関関数を用いたピッチ抽出法では、ピッチ(基本周波数)fは相関値R(0,i)を利用して数式2により算出される。数式2は、ずれ量iを順次変化させていったときの相関値R(0,i)が最大になるずれ量argmax{R(0,i)}を音声信号の基本周期として検出し、サンプリング周波数48000[Hz]を基本周期で割ったものをピッチとして算出するという意味である。このようにして抽出されたピッチは、RAM9のピッチ記憶メモリ9Fに書き込まれる。
【数2】

【0042】
ここで、歌唱者の歌声が有声音か無声音か判別する方法について簡単に説明する。人間の声には有声音と無声音があるが、一般的に無声音からはピッチを算出することはできないことが知られている。このため、ピッチを算出する前に有声音・無声音判定を行う必要がある。有声・無声は、数式1で使用する自己相関関数の比R(0,imax)/R(0,0)を用いて簡単に判定できる。R(0,imax)/R(0,0)が一定しきい値より大きければ有声音、一定しきい値より小さければ無声音と判定する。本実施の形態では、無声音はピッチの信頼度が低いため歌唱力評価には用いない。また、有声・無声判定法としては、自己相関関数の比に限らずゼロクロス法などの他の公知な有声・無声判定技術を用いることもできる。
【0043】
なお、本実施形態では自己相関関数を利用したピッチ抽出と高速フーリエ変換(FFT)を利用したピッチ抽出を併用することにより、より信頼性の高いピッチ抽出を実現する。高速フーリエ変換を用いたピッチ抽出では、メモリ9の音声信号記憶メモリから読み出された音声信号に対し、高速フーリエ変換を用いてFFTスペクトルを算出し、フーリエ級数記憶メモリ9Cに書き込む。ピッチは、FFTスペクトルが最大値をとるときの周波数として検出する。自己相関関数を利用したピッチ抽出法は男性低音系の歌声からのピッチ抽出に有効で、高速フーリエ変換を用いたピッチ抽出法は女性高音系の歌声からのピッチ抽出に有効である。採点処理に用いるピッチfは、自己相関関数より算出したピッチf1と高速フーリエ変換により算出したピッチf2から、例えば表1に示す選択基準によって選択する。f1とf2が一定しきい値FTHより大きいときはf=f2を選択し、それ以外のときはf=f1を選択する。この方法により、信頼性の高いピッチfを選択することができる。FTHは、高音と低音を判断する予め設定されたしきい値である。ここでは、例えばFTH=400[Hz]とする。
【表1】

【0044】
次に、ビブラート検出部14の動作について説明する。ビブラート検出部14では、まずピッチ変化量を算出する。ピッチ変化量D(i)は、RAM9のピッチ記憶メモリ9Fより読み出された現在のピッチfi+1と一分析フレーム過去のピッチfを用いて、数式3により算出される。算出されたピッチ変化量D(i)は、ピッチ変化量記憶メモリ9Gに書き込まれる。
【数3】

【0045】
RAM9のピッチ変化量記憶メモリ9Gには、数式3で算出されたピッチの変化量信号が例えば500[ms]分バッファリングされている。フレームシフトを10[ms]とすると500[ms]は、50フレーム分に相当するので、N=50ポイント分のピッチ変化量信号をバッファリングされていることになる。50ポイントのピッチの変化量信号D(i)に対して、数式4で示される自己相関関数e(τ)を算出する。自己相関関数は信号の周期性を調べるのに適している関数である。自己相関関数e(τ)が一定しきい値を超えた場合、ピッチ変化量信号にある程度の周期性があると考えられるため、入力音声信号にビブラートがかかっていると判定することができる。このようにして判定されたビブラート判定結果は、ビブラート情報記憶メモリ9Hに書き込まれる。
【数4】

【0046】
次に、得点算出部15の動作について詳細に説明する。得点算出部15では、入力音声信号を表2に示す(i)〜(iv)の4つの区間に分類する。(i)無声区間と(iii)ピッチの変化が激しい区間(音程変化量が大きい区間)は得点算出には用いず、(ii)ビブラート区間と(iv)通常歌唱区間について得点算出を行う。なお、伴奏・歌声判定部21により伴奏情報と判定された区間は(i)の無声区間に分類され、得点算出に用いられない。(iv)通常歌唱区間では、入力音声信号から抽出されたピッチとガイドメロディを比較し、その類似度に比例した得点を算出する。(ii)ビブラート区間の得点は、例えば数式4で算出される相関の強さe(τ)の最大値に予め設定された定数を乗じて算出する。ビブラートはe(τ)の値が大きければ大きいほど周期性が強く、美しいと考えられる。従って、例えばe(τ)の最大値に予め設定された定数を乗ずることによりビブラート区間の得点を算出する。最終的な得点は(ii)ビブラート区間の得点と(iv)通常歌唱区間の得点の合計として算出される。
【表2】

【0047】
図5は、得点算出部15のブロック図である。信頼性算出モジュール151は、RAM9の有声・無声判定結果記憶メモリ9Dと伴奏・歌声判定結果メモリ9E及びピッチ変化量記憶メモリ9Gよりそれぞれ有声・無声判定結果、伴奏・歌声判定結果、ピッチ変化量を読み出し、これらを基にピッチの信頼性を算出し、算出されたピッチの信頼性をRAM9のワーク領域9Wに書き込む。瞬時得点算出モジュール152は、RAM9のピッチ記憶メモリ9F、ビブラート情報記憶メモリ9H、ガイドメロディ記憶メモリ9M、ワーク領域9Wよりそれぞれピッチ、ビブラート判定結果、ガイドメロディ、ピッチの信頼性を読み出し、歌唱者の歌声1分析フレーム分の瞬時得点を算出し、算出した瞬時得点をRAM9の瞬時得点記憶メモリ9Iに書き込む。得点累積モジュール153は、RAM9の瞬時得点記憶メモリ9Iより読み出された瞬時得点を累積し、カラオケ採点が始まってから現在に至るまでの累積得点を算出し、RAM9の累積得点記憶メモリ9Jに記録する。
【0048】
カラオケ採点終了後、累積得点記憶メモリ9Jに記録された累積得点は、RAM9より読み出され、ビデオコントローラ6を経由して、ディスプレイ3に表示される。歌唱者は、ディスプレイ3に表示された採点結果を見て一喜一憂する。なお、得点は累積得点をそのままディスプレイに表示しても良いし、得点変換関数や変換テーブルを通して変換をかけたものを表示しても良い。これらの変換テーブルや変換関数は事前に得点分布の統計調査を行った上で、例えば100点が算出される確率が全体の5%以下になるように設計した変換テーブルや変換関数を用いる。
【0049】
次に、伴奏・歌声判定部21の動作について詳細に説明する。まず、カラオケ装置に接続されているダイナミックマイクから入力された音声がカラオケの伴奏なのか、人間の歌声なのかを判定する回路を設計するために、ダイナミックマイクの周波数特性について考察する。
【0050】
図6は、一般的なカラオケ装置に接続されるダイナミックマイクの周波数特性を示したものである。ダイナミックマイクは、歌唱者の口元からマイクまでの距離により周波数特性が変わる特性を持つ。例えば、(a)音源とマイクの距離が25mm場合、200[Hz]付近の低音が最も強調され、1000[Hz]以上の高音は弱めになる低域強調特性となる。(b)音源とマイクの距離が50mmの場合、特性はフラットに近いものとなる。(c)音源がマイクから600mm離れた場合では、100[Hz]付近の低音はほとんど入らず、1000[Hz]以上の高音が強調される右肩上がりのグラフ(高域強調特性)となる。
【0051】
このマイク周波数特性をさらに分かり易い例を用いて説明したものが図7である。例えばソプラノ歌手が離れたところから歌った場合でも、ダイナミックマイクは歌声を拾うことができる。ソプラノ歌手の高い声は1〜2[m]離れていても拾う。マイクが遠くても、高い音なら拾う。一方、ベースボーカルの低い声は、10[cm]離したら拾わない。
【0052】
上述のダイナミックマイクの性質により、マイクを持っている歌唱者より遠くにあるスピーカからカラオケ伴奏がマイクに回り込む場合、マイクに入ってくる伴奏はスピーカから出た伴奏に高域強調をかけたものとなる。つまり、マイクに回り込んできた音はBASSライン(低音)の比重が小さく、ドラムのハイハットの音や、エレキギターの音(高音)の比重が大きな伴奏となる(図8参照)。従って、ダイナミックマイクから入力された伴奏情報に対して周波数分析を行い、スペクトルを算出すると、スペクトルのエネルギーは高周波数帯域に集中する傾向が現れる。
【0053】
この性質を利用して、伴奏情報と人間の声を判別することができる。スペクトルのエネルギーが高周波数帯域に集中する特徴を検出する1つの方法としてピッチ抽出を利用する方法がある。歌い手より遠くにあるスピーカから回り込んできた伴奏からピッチを抽出すると、人間の歌声よりも高い周波数となることが多い(但し女性の高音:800Hz付近以上では帯域が重なることもある)。以下、伴奏・歌声の判別方法について説明する。
【0054】
本発明の実施形態では、先ず、ピッチ検出部13で人間の声より高い帯域を考慮してピッチを計算する。具体的には、図4の自己相関関数算出(S10)とフーリエ級数算出(S11)における分析帯域を人間の歌唱帯域(70Hz〜1200Hz)より高めに設定して例えば70Hz〜7000Hzとする。70Hz〜7000Hzの分析帯域をもつ自己相関関数及びフーリエ級数からピッチを抽出する。この構成で1200Hz以上のピッチが検出された場合は、その部分は伴奏情報とみなし得点算出に用いない。この方法では、例えば高音域を得意とする一部の女性歌手が歌った場合、歌声の一部が伴奏と見なされる場合がある。ただし、常に1200Hz(D6)以上の音程で歌い続ける歌唱者はいないため、カラオケ採点においては、実用上は問題ない。まず、上述の方法により判定された伴奏・歌声判定結果が、伴奏・歌声判定結果記憶メモリ9Eに書き込まれる。
【0055】
ただし、800Hz帯域付近の伴奏情報がマイクから入力されることもあるため、上述の判定法のみでは完全に伴奏情報を除去できない問題がある。次に、800Hz帯域付近の女性の声なのか伴奏情報なのか判定し難い(ある程度高い)帯域のピッチが検出された場合に、自己相関関数の特徴を用いて伴奏を判定する方法を説明する。例えば、女性が800Hz付近の高音で歌った場合、その歌声から抽出した自己相関関数は、図9に示すように比較的滑らかな波形となることが多い(倍音が少ない)。一方、伴奏情報から算出した自己相関関数は図10に示すようにスペクトルに含まれる極値(ローカルピーク)の数が極端に多い(倍音が多い)。男性低音系の歌声は倍音は多いが、検出されるピッチは低い周波数となる。
【0056】
この特徴を用いて、例えば480Hz〜1200Hzの『女性の歌声か伴奏情報か判定し難いピッチ』が検出された場合でも、自己相関関数などのスペクトルのローカルピーク(極値)が例えば100以上ある(倍音が異常に多い)ときは、その部分は伴奏またはノイズと判定することができる。本発明の実施形態では、上述の方法を利用してRAM9の自己相関関数記憶メモリ9Bより自己相関関数が持つローカルピーク(極値)の数を数える。ローカルピークの数が予め設定されたしきい値TH(例えば100)より大きい場合は入力音声は人間の歌声では無く伴奏情報(またはノイズ)と判定する。この方法により判定された伴奏・歌声判定結果はRAM9の伴奏・歌声判定結果記憶メモリ9Eに記録される。
【0057】
また、倍音が異常に多いことを検出する方法は、この他にも様々な方法がある。例えば、スペクトルの隣り合う要素を結んだ長さLを算出し、この尺度Lが一定しきい値より大きいとき『倍音が異常に多い』と判定することも可能である。例えば、数式1により算出された自己相関関数R(0,i)を「スペクトル」とした場合、このスペクトルから数式5や数式6を用いて長さLを算出することができる。数式5と数式6は本質的に同じものであり、どちらを用いても『倍音の多さ』を測定(定量化)することができる。このように、例えば480Hz〜1200Hzの『女性の歌声か伴奏情報か判定し難いピッチ』が検出された場合でも、Lが一定閾値より大きいときは、その部分は伴奏またはノイズと判定することができる。また、スペクトルとして自己相関関数の変わりにFFTスペクトルやその他のスペクトルを利用できることは言うまでも無い。
【数5】

【数6】

【0058】
なお、本実施形態では、上述の自己相関関数を利用した伴奏・歌声判定に加え、さらにメモリ9のフーリエ級数記憶メモリ9Cに記憶されたフーリエ級数(FFTスペクトル)を用いて歌声・伴奏判別を行うことで、さらに伴奏・歌声判定の信頼度を高める。以下、フーリエ級数を用いた伴奏・歌声判定方法について説明する。図11(a)はマイクから採取された歌声に高速フーリエ変換をかけ得られたFFTスペクトル、図11(b)はマイクに回り込んできた伴奏から得られたFFTスペクトルである。ピッチは、例えば、FFTスペクトルが最大値をとるときの周波数として検出することができる。歌声から抽出したピッチは、400[Hz]付近、マイクに回りこんできた伴奏のFFTスペクトルは1500[Hz]付近に分布している。例えば、1200[Hz]以上のピッチが検出された場合は、その部分は伴奏情報とみなし得点算出に用いない構成とすることにより、カラオケ採点の精度を高めることができる。この方法により判定された伴奏・歌声判定結果はRAM9の伴奏・歌声判定結果記憶メモリ9Eに記録される。
【0059】
最後に、本発明の実施形態では上述の伴奏・歌声判定に加え、メモリ9のフーリエ級数記憶メモリ9Cより読み出したFFTスペクトル(フーリエ級数)の傾きから歌声・伴奏判定を行う。以下、スペクトルの傾きから伴奏・歌声判定を行う方法について説明する。200[Hz]〜7000[Hz]区間スペクトルを切り出し、最小2乗法によりスペクトルを直線近似したときのスペクトルの傾きを算出する。直線の傾きが予め設定された一定しきい値THより大きいとき、『入力音声は伴奏情報である』と判定する。この方法により判定された伴奏・歌声判定結果はRAM9の伴奏・歌声判定結果記憶メモリ9Eに記録される。
【0060】
図12(a)はマイクから入力された歌声に高速フーリエ変換をかけて求めたFFTスペクトルの傾き、図12(b)はマイクに回り込んできた伴奏に高速フーリエ変換をかけて求めたFFTスペクトルの傾きである。歌声から算出したFFTスペクトルの傾きは大きくなり、伴奏から算出したFFTスペクトルの傾きは小さくなることが観察できる。この特徴を用いて歌声とマイクから回りこんできた伴奏を判別することは容易である。このように『歌唱者より遠くにある音源から入ってくる音は、ダイナミックマイクの高域強調特性により高域強調される』という特徴を用いて伴奏・歌声の判定をすることが可能である。
【0061】
なお、本実施形態では、ピッチ検出法として自己相関関数法及びフーリエ変換法を用いているが、これに限らず、ピッチ検出法として例えば相互相関法、ケプストラム法、平方根・4乗根スペクトルの自己相関法、対数スペクトルの自己相関法、線形予測法など他の公知のピッチ検出法を用いることもできる。本発明は、人間の声である可能性が少ない高音ピッチが検出されたときに入力音声を伴奏情報として判定するというもので、ピッチ検出法は特に限定しない。また、伴奏判別に用いるスペクトルとしては、例えば線形予測分析によって得られたLPCスペクトル、相互相関関数、ケプストラム、LPCケプストラム、平方根・4乗根スペクトルなどを用いることもできることは言うまでもない。
【0062】
また、直線の傾きを求めるのに使う周波数特徴としてはLPCスペクトル、群遅延スペクトル、LPCケプストラム、ケプストラム、自己相関関数、相互相関関数など、他の公知の周波数特徴を用いることができる。
【0063】
例えば、入力音声に高速フーリエ変換をかけ、FFTスペクトルを求める。次に、FFTスペクトルに高速逆フーリエ変換をかけるとケプストラムと呼ばれる特徴量が求まる。このケプストラムの高次の係数を0に置き換えて、さらに高速フーリエ変換をかけると、平滑化されたスペクトルが求まる。この平滑化されたスペクトルにおいて、例えば600[Hz]以上の高次のスペクトル係数の平均値AHと600[Hz]未満の低次の係数の平均値ALを算出する。例えば、数式7により高次のスペクトル係数と低次のスペクトル係数の比RATEを求め、RATEが一定しきい値より大きい場合、入力音声は伴奏情報であると判定することもできる。
【数7】

【0064】
なお、上述の例では、逆フーリエ変換を行った後のケプストラムを用いて平滑化スペクトルを求めたが、これに限らず、平滑化を行わないフーリエ変換係数からAH、AL、RATEを算出し、高次の係数と低次の係数の比:RATEを算出しても良い。さらに、比RATEや直線の傾きを求めるのに使う周波数特徴としてはLPCスペクトル、群遅延スペクトル、LPCケプストラム、ケプストラム、自己相関関数、相互相関関数など、他の公知の周波数特徴を用いることができることは言うまでもない。
【0065】
また、本実施形態では、歌唱者の歌声から抽出したピッチとガイドメロディとを比較してその類似度より得点を算出する例を示した。しかし、これに限らずガイドメロディを参照しない採点システムを構築することも可能である。例えば、歌唱者の歌声から抽出したピッチと当該ピッチの最近傍にある平均率音階上(または純正率音階上)の音程との最小距離を算出し、当該最小距離が小さいほど高い得点を算出する採点アルゴリズムを搭載した採点システムとしても良い。また、人の歌声に含まれる倍音の量を測定し、倍音が多いほど高い得点を算出する採点システムを構築しても良い。また、ガイドメロディと調和音の関係にある音程(不協和音にならない音程)を推定し、歌唱者の歌声が調和音と一致したときに高得点を加算するアルゴリズムを採用しても良い。
【産業上の利用可能性】
【0066】
本発明は、カラオケ装置に搭載されるカラオケ採点装置、及び歌唱力評価装置に利用することができる。
【図面の簡単な説明】
【0067】
【図1】本発明の第一実施形態におけるカラオケ装置の外観である。
【図2】本発明の第一実施形態におけるカラオケ装置のブロック図である。
【図3】RAM9に確保される記憶領域を示す図である。
【図4】同カラオケ装置の採点処理部の動作を示すフローチャートである。
【図5】本発明の実施形態における得点算出手順を示すブロック図である。
【図6】ダイナミックマイクの周波数特性を示す図である。
【図7】ダイナミックマイクの周波数特性により引き起こされる現象を具体的に説明した図である。
【図8】カラオケでマイクに回り込む伴奏情報の性質について説明した図である。
【図9】女性が歌う880[Hz]の歌声から算出した自己相関関数(ローカルピーク16個)を示した図である。
【図10】伴奏情報から算出した自己相関関数を示した図である。
【図11】歌声から抽出したFFTスペクトルと伴奏から抽出したFFTスペクトルを示す図である。
【図12】歌声から算出したスペクトルの傾きとマイクに回り込んだ伴奏から算出したスペクトルの傾きを比較した図である。
【図13】カラオケ採点における伴奏の回り込みを説明する図である。
【符号の説明】
【0068】
1 カラオケ装置
2 マイク
3 ディスプレイ
4 AMP
5 スピーカ
6 ビデオコントローラ
7 ミキサ(エフェクタ)
8 演奏装置
9 RAM(Random Access Memory)
12 採点処理部(採点DSP)
13 ピッチ抽出部
14 ビブラート検出部
15 得点算出部
16 操作部
17 A/D変換部
18 HDD(Hard Disk Drive)
19 CPU(Central Processing Unit)
21 伴奏・歌声判定部
151 信頼性算出モジュール
152 瞬時得点算出モジュール
153 得点累積モジュール

【特許請求の範囲】
【請求項1】
コンピュータに、
音声信号入力手段から入力された入力音声信号に周波数分析を行いスペクトルを算出させるスペクトル算出ステップと、
当該スペクトル算出ステップを実行して得られたスペクトルをスペクトル記憶手段に記憶するスペクトル記憶ステップと、
前記スペクトル記憶手段より読み出されたスペクトルのエネルギーが高周波数帯域に集中していることが検出されたときに入力音声信号は伴奏情報であると判定する伴奏・歌声判定ステップとを実行させることを特徴とする歌唱力評価方法。
【請求項2】
前記伴奏・歌声判定ステップでは、
前記スペクトル記憶手段より読み出されたスペクトルからピッチを算出させ、
当該ピッチが一定しきい値より高いときに入力音声信号は伴奏情報であると判定することを特徴とする請求項1に記載の歌唱力評価方法。
【請求項3】
前記伴奏・歌声判定ステップでは、
前記スペクトル記憶手段より読み出されたスペクトルからスペクトルの傾きを算出させ、
算出されたスペクトルの傾きが一定しきい値より大きいときに入力音声信号は伴奏情報であると判定することを特徴とする請求項1に記載の歌唱力評価方法。
【請求項4】
請求項1乃至3の何れかに記載の歌唱力評価方法であって、
前記伴奏・歌声判定ステップでは、さらに前記スペクトル記憶手段より読み出されたスペクトルから、スペクトルに含まれる倍音の量を測定し、
当該倍音の量が一定しきい値より多いときに入力音声信号は伴奏情報であると判定することを特徴とする歌唱力評価方法。
【請求項5】
請求項1乃至3の何れかに記載の歌唱力評価方法であって、
前記伴奏・歌声判定ステップでは、さらに前記スペクトル記憶手段より読み出されたスペクトルから、スペクトルに含まれる極値の数を数え、
当該極値の数が一定しきい値より多いときに入力音声信号は伴奏情報であると判定することを特徴とする歌唱力評価方法。
【請求項6】
音声信号入力手段から入力された入力音声信号に周波数分析を行いスペクトルを算出するスペクトル算出手段と、
当該スペクトル算出手段により得られたスペクトルを記憶するスペクトル記憶手段と、
前記スペクトル記憶手段により読み出されたスペクトルのエネルギーが高周波数帯域に集中していることが検出されたときに入力音声信号は伴奏情報であると判定する伴奏・歌声判定手段とを備えたことを特徴とする歌唱力評価機能を搭載したカラオケ装置。
【請求項7】
前記伴奏・歌声判定手段は、
前記スペクトル記憶手段により読み出されたスペクトルからピッチを算出し、
当該ピッチが一定しきい値より高いときに入力音声信号は伴奏情報であると判定することを特徴とする請求項6に記載の歌唱力評価機能を搭載したカラオケ装置。
【請求項8】
前記伴奏・歌声判定手段は、
前記スペクトル記憶手段により読み出されたスペクトルからスペクトルの傾きを算出し、
算出されたスペクトルの傾きが一定しきい値より大きいときに入力音声信号は伴奏情報であると判定することを特徴とする請求項6に記載の歌唱力評価機能を搭載したカラオケ装置。
【請求項9】
請求項6乃至8の何れかに記載のカラオケ装置であって、
前記伴奏・歌声判定手段は、さらに前記スペクトル記憶手段により読み出されたスペクトルから、スペクトルに含まれる倍音の量を測定し、
当該倍音の量が一定しきい値より多いときに入力音声信号は伴奏情報であると判定することを特徴とする歌唱力評価機能を搭載したカラオケ装置。
【請求項10】
請求項6乃至8の何れかに記載のカラオケ装置であって、
前記伴奏・歌声判定手段は、さらに前記スペクトル記憶手段により読み出されたスペクトルから、スペクトルに含まれる極値の数を数え、
当該極値の数が一定しきい値より多いときに入力音声信号は伴奏情報であると判定することを特徴とする歌唱力評価機能を搭載したカラオケ装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate


【公開番号】特開2008−15388(P2008−15388A)
【公開日】平成20年1月24日(2008.1.24)
【国際特許分類】
【出願番号】特願2006−188742(P2006−188742)
【出願日】平成18年7月10日(2006.7.10)
【出願人】(598072272)株式会社ディー・ディー・エス (14)
【Fターム(参考)】