説明

リファレンスデータ編集装置、こぶし評価装置、リファレンスデータ編集方法、こぶし評価方法及びプログラム

【課題】リファレンスのデータからこぶしの技法を用いて歌唱すべき区間を検出し、リファレンスデータに該検出された区間を示すデータを加えることが可能なリファレンスデータ編集装置、リファレンスデータ編集方法、および、上記検出されたリファレンスデータにおけるこぶし区間に基づき、歌唱者の音声についてこぶしの技法を評価することが可能なこぶし評価装置、こぶし評価方法を提供することを目的とする。
【解決手段】カラオケ装置1のCPU11は、ガイドメロディからピッチを検出し、該ピッチの変動の態様からまず「リファレンスこぶし区間」を特定する。すなわち、ピッチが短い区間だけ上昇し、再び元のピッチに戻ることを指標としてこぶしを検出する。また、該検出したリファレンスこぶし区間と、別途検出した歌唱音声においてこぶしが用いられている区間とを比較し、歌唱者が適切なタイミングでこぶしを回して歌唱したか否かに基づいて評価する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、リファレンスデータ編集装置、こぶし評価装置、リファレンスデータ編集方法、こぶし評価方法及びプログラムに関する。
【背景技術】
【0002】
カラオケ装置において歌唱の評価を行うための技術が種々提案されている。例えば、特許文献1に記載のカラオケ装置においては、歌唱者の音声からピッチ(音程)、音長、タイミングなどのパラメータを抽出し、抽出された各パラメータに基づいて歌唱の評価を行う技術が開示されている。
【特許文献1】特開平10−78750号公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
ところで、カラオケ装置を用いて歌唱の練習をする歌唱者は、歌い始めや歌い終わりを意図的にずらしたり、声質や音量を変化させたり、ビブラートやこぶしなどの技法を用いたりするなど、様々な表現方法を用いて歌のなかに情感を表現しようと試みる。
従来のカラオケ装置では、模範となる歌唱やガイドメロディなどのリファレンスに基づいて歌唱を評価している。リファレンスにおいては、例えば「こぶし」を用いて歌唱すべき区間におけるピッチが一過的に高くなるように設定されるなどしており、カラオケ装置は、該リファレンスのピッチと歌唱者のピッチとを比較して評価していた。
【0004】
しかし、こぶしのピッチ変化の態様は歌唱者ごとに様々であり、ピッチ変化の態様がリファレンスと似ているか否かによって評価を行うのは適切ではない。むしろ、こぶしを用いて歌唱すべき区間で、歌唱者が実際にこぶしを用いて歌唱したか否かを判定するのが適切であると考えられる。
【0005】
本発明は、上述した事情に鑑みてなされたものであり、リファレンスデータからこぶしの技法を用いて歌唱すべき区間を検出し、リファレンスデータに該検出された区間を示すデータを加えることが可能なリファレンスデータ編集装置、リファレンスデータ編集方法、を提供することを目的とする。また、上記検出されたリファレンスデータにおけるこぶし区間に基づき、歌唱者の音声についてこぶしの技法を評価することが可能なこぶし評価装置、こぶし評価方法を提供することを目的とする。また、コンピュータに、上記リファレンスデータ編集およびこぶしの評価を行わせるためのプログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明に係るリファレンスデータ編集装置は、旋律を表すリファレンスデータを受取る受取手段と、前記受取手段が受取ったリファレンスデータが表す旋律からピッチを検出するピッチ検出手段と、前記ピッチ検出手段により検出された前記旋律のピッチを参照し、前記旋律においてピッチが上昇した後下降する1または複数の区間から、(1)ピッチが上昇する直前のピッチとピッチが下降した直後のピッチが等しく、(2)ピッチが上昇している時間長が所定の閾値よりも短いという条件を満たす区間をリファレンスこぶし区間として特定するリファレンスこぶし区間特定手段と前記リファレンスこぶし区間特定手段が特定したリファレンスこぶし区間を示すリファレンスこぶし区間データを前記リファレンスデータに加える編集手段とを有することを特徴とする。
【0007】
本発明に係るこぶし評価装置は、音声を表す音声データを受取る受取手段と、前記受取手段が受取った音声データが表す音声からピッチを検出するピッチ検出手段と、前記ピッチ検出手段により検出された前記音声のピッチを参照し、前記音声においてピッチが上昇した後下降する1または複数の区間から、(1)ピッチが上昇する区間におけるピッチの変化の割合の絶対値が所定の閾値よりも大きく、(2)ピッチが下降する区間におけるピッチの変化の割合の絶対値が所定の閾値よりも大きく、(3)ピッチが上昇し始めてから下降し終わるまでに要する時間が所定の範囲内であることを特徴とする候補区間を特定する候補区間特定手段と、前記音声において、ビブラートの技法が用いられている区間を表すビブラート区間データを受取る第2の受取手段と、前記候補区間特定手段により特定された候補区間の各々について、前記第2の受取手段が受け取ったビブラート区間データが表すビブラート区間に含まれなければ、該候補区間をこぶしの技法が用いられているこぶし区間として特定するこぶし区間特定手段と旋律を表すリファレンスデータを受取る第3の受取手段と、前記第3の受取手段が受取ったリファレンスデータが表す旋律からピッチを検出する第2のピッチ検出手段と、前記第2のピッチ検出手段により検出された前記旋律のピッチを参照し、前記旋律においてピッチが上昇した後下降する1または複数の区間から、(1)ピッチが上昇する直前のピッチとピッチが下降した直後のピッチが等しく、(2)ピッチが上昇している時間長が所定の閾値よりも短いという条件を満たす区間をリファレンスこぶし区間として特定するリファレンスこぶし区間特定手段と前記リファレンスこぶし区間特定手段により特定されたリファレンスこぶし区間と、前記こぶし区間特定手段により特定されたこぶし区間とに基づいて前記音声の評価をする評価手段とを有することを特徴とする。
【0008】
本発明に係るこぶし評価装置は、上記の構成において、前記評価手段は、前記リファレンスこぶし区間特定手段により特定されたリファレンスこぶし区間と、前記こぶし区間特定手段により特定されたこぶし区間が高い一致度を示すほど高い評価を出力しても良い。
【0009】
本発明に係るリファレンスデータ編集方法は、旋律を表すリファレンスデータを受取る受取段階と、前記受取段階において受取ったリファレンスデータが表す旋律からピッチを検出するピッチ検出段階と、前記ピッチ検出段階において検出された前記旋律のピッチを参照し、前記旋律においてピッチが上昇した後下降する1または複数の区間から、(1)ピッチが上昇する直前のピッチとピッチが下降した直後のピッチが等しく、(2)ピッチが上昇している時間長が所定の閾値よりも短いという条件を満たす区間をリファレンスこぶし区間として特定するリファレンスこぶし区間特定段階と前記リファレンスこぶし区間特定段階において特定されたリファレンスこぶし区間を示すリファレンスこぶし区間データを前記リファレンスデータに加える編集段階とを有することを特徴とする。
【0010】
本発明に係るこぶし評価方法は、音声を表す音声データを受取る受取段階と、前記受取段階において受取った音声データが表す音声からピッチを検出するピッチ検出段階と、前記ピッチ検出段階において検出された前記音声のピッチを参照し、前記音声においてピッチが上昇した後下降する1または複数の区間から、(1)ピッチが上昇する区間におけるピッチの変化の割合の絶対値が所定の閾値よりも大きく、(2)ピッチが下降する区間におけるピッチの変化の割合の絶対値が所定の閾値よりも大きく、(3)ピッチが上昇し始めてから下降し終わるまでに要する時間が所定の範囲内であることを特徴とする候補区間を特定する候補区間特定段階と、前記音声において、ビブラートの技法が用いられている区間を表すビブラート区間データを受取る第2の受取段階と、前記候補区間特定段階において特定された候補区間の各々について、前記第2の受取段階が受け取ったビブラート区間データが表すビブラート区間に含まれなければ、該候補区間をこぶしの技法が用いられているこぶし区間として特定するこぶし区間特定段階と旋律を表すリファレンスデータを受取る第3の受取段階と、前記第3の受取段階において受取ったリファレンスデータが表す旋律からピッチを検出する第2のピッチ検出段階と、前記第2のピッチ検出段階において検出された前記旋律のピッチを参照し、前記旋律においてピッチが上昇した後下降する1または複数の区間から、(1)ピッチが上昇する直前のピッチとピッチが下降した直後のピッチが等しく、(2)ピッチが上昇している時間長が所定の閾値よりも短いという条件を満たす区間をリファレンスこぶし区間として特定するリファレンスこぶし区間特定段階と前記リファレンスこぶし区間特定段階において特定されたリファレンスこぶし区間と、前記こぶし区間特定段階において特定されたこぶし区間とに基づいて前記音声の評価をする評価段階とを有することを特徴とする。
【0011】
本発明に係るプログラムは、コンピュータを、旋律を表すリファレンスデータを受取る受取手段と、前記受取手段が受取ったリファレンスデータが表す旋律からピッチを検出するピッチ検出手段と、前記ピッチ検出手段により検出された前記旋律のピッチを参照し、前記旋律においてピッチが上昇した後下降する1または複数の区間から、(1)ピッチが上昇する直前のピッチとピッチが下降した直後のピッチが等しく、(2)ピッチが上昇している時間長が所定の閾値よりも短いという条件を満たす区間をリファレンスこぶし区間として特定するリファレンスこぶし区間特定手段と前記リファレンスこぶし区間特定手段が特定したリファレンスこぶし区間を示すリファレンスこぶし区間データを前記リファレンスデータに加える編集手段として機能させることを特徴とする。
【0012】
本発明に係るプログラムは、コンピュータを、音声を表す音声データを受取る受取手段と、前記受取手段が受取った音声データが表す音声からピッチを検出するピッチ検出手段と、前記ピッチ検出手段により検出された前記音声のピッチを参照し、前記音声においてピッチが上昇した後下降する1または複数の区間から、(1)ピッチが上昇する区間におけるピッチの変化の割合の絶対値が所定の閾値よりも大きく、(2)ピッチが下降する区間におけるピッチの変化の割合の絶対値が所定の閾値よりも大きく、(3)ピッチが上昇し始めてから下降し終わるまでに要する時間が所定の範囲内であることを特徴とする候補区間を特定する候補区間特定手段と、前記音声において、ビブラートの技法が用いられている区間を表すビブラート区間データを受取る第2の受取手段と、前記候補区間特定手段により特定された候補区間の各々について、前記第2の受取手段が受け取ったビブラート区間データが表すビブラート区間に含まれなければ、該候補区間をこぶしの技法が用いられているこぶし区間として特定するこぶし区間特定手段と旋律を表すリファレンスデータを受取る第3の受取手段と、前記第3の受取手段が受取ったリファレンスデータが表す旋律からピッチを検出する第2のピッチ検出手段と、前記第2のピッチ検出手段により検出された前記旋律のピッチを参照し、前記旋律においてピッチが上昇した後下降する1または複数の区間から、(1)ピッチが上昇する直前のピッチとピッチが下降した直後のピッチが等しく、(2)ピッチが上昇している時間長が所定の閾値よりも短いという条件を満たす区間をリファレンスこぶし区間として特定するリファレンスこぶし区間特定手段と前記リファレンスこぶし区間特定手段により特定されたリファレンスこぶし区間と、前記こぶし区間特定手段により特定されたこぶし区間とに基づいて前記音声の評価をする評価手段として機能させることを特徴とする。
【発明の効果】
【0013】
本発明に係るリファレンスデータ編集装置、こぶし評価装置、リファレンスデータ編集方法、こぶし評価方法及びプログラムによれば、リファレンスデータからこぶしの技法を用いて歌唱すべき区間を検出し、リファレンスデータに該検出された区間を示すデータを加えること、上記検出されたリファレンスデータにおけるこぶし区間に基づき、歌唱者の音声についてこぶしの技法を評価することが可能になる。
【発明を実施するための最良の形態】
【0014】
以下では、本発明の一実施形態に係るカラオケ装置について説明する。なお、以下の説明では、上記カラオケ装置を用いて歌唱を練習する者を「歌唱者」と呼ぶ。
【0015】
(A:構成)
図1は、カラオケ装置1のハードウェア構成を示したブロック図である。カラオケ装置1は、カラオケ伴奏を再生するカラオケ機能を備えるとともに、歌唱の模範的な旋律を示すガイドメロディ(リファレンス)から「こぶし」の技法を用いて歌唱すべき区間(以下、リファレンスこぶし区間)を特定するリファレンスこぶし区間特定機能、歌唱者の歌唱音声から「こぶし」の技法を用いて歌唱している区間(以下、歌唱こぶし区間)を特定する歌唱こぶし区間特定機能、および歌唱音声においてこぶしに関する評価を行うこぶし評価機能を備える。なお、「こぶし」とは、装飾的に加える、うねるような節回しを行う技法である。
【0016】
図1において、CPU(Central Processing Unit)11は、ROM(Read Only Memory)12に記憶されている制御プログラムを読み出してRAM(Random Access Memory)13にロードし、これを実行することにより、カラオケ装置1の各部を制御する。
【0017】
表示部15は、例えば液晶ディスプレイなどであり、CPU11の制御の下で、カラオケ装置1を操作するためのメニュー画面や、背景画像に歌詞テロップが重ねられたカラオケ画面などの各種画面を表示する。
操作部16は、テンキーや上下キー、演奏開始キーなどの各種のキーを備えており、押下されたキーに対応した操作信号をCPU11へ出力する。
【0018】
マイクロホン17は、音声を収音し、該音声を音声信号(アナログデータ)に変換する。
音声処理部18は、マイクロホン17が生成した音声信号をA/D変換し、デジタルデータ(音声データ)に変換してCPU11に出力する。また、音声処理部18は、CPU11から受取った音声データをD/A変換し、音声信号に変換してスピーカ19に出力する。
スピーカ19は、音声処理部18から受取った音声信号に基づいて音声を放音する。
【0019】
記憶部14は、例えばHDD(Hard Disk Drive)などの大容量の記憶手段であり、各種の記憶領域を有している。
楽曲データ記憶領域14aには、複数の楽曲データが格納されている。図2は、各楽曲データの内容を模式的に示した図である。各楽曲データは、ヘッダと伴奏データと歌詞データとガイドメロディデータとを有している。
【0020】
ヘッダには、楽曲を特定する曲番号データ、楽曲の曲名を示す曲名データ、ジャンルを示すジャンルデータ、楽曲の演奏時間を示す演奏時間データなどが含まれている。
伴奏データには、楽曲の伴奏を行う各種楽器の演奏音が楽曲の進行に伴って記されている。伴奏データは、例えばMIDI(Musical Instrument Digital Interface)形式などのデータ形式で記されている。
歌詞データには、歌詞の内容(文字)が、表示すべきタイミング、表示部15の画面において表示すべき位置、および楽曲の進行に伴い表示態様を変える所謂ワイプ処理をするタイミングと対応付けられて記されている。
【0021】
ガイドメロディデータには、歌唱の模範的な旋律を示したガイドメロディが書き込まれている。該ガイドメロディはMIDIフォーマットに従って記述されており、旋律は、時刻と対応付けられた複数の音名(ノート)により指定されている。
【0022】
なお、本実施形態におけるガイドメロディは、「こぶし」を用いて歌唱すべき区間において一過的にピッチが上昇するように作成されている。図3は、ガイドメロディが示すピッチの変動の一例を示したグラフである。同図においては、ノートA、B、およびCが含まれており、ピッチは区間1のピッチP(ベースライン)から区間2に示されるピッチPまで一過的に高くなり、区間3において再びベースラインであるピッチPに戻るようにガイドメロディは生成されている。ここでは、ノートBの区間2がこぶしを用いるべき区間である。
【0023】
歌唱音声データ記憶領域14bには、歌唱者の歌唱を表す音声データ(以下、歌唱音声データ)が各楽曲について記憶される。該歌唱音声データは、マイクロホン17から出力された歌唱を表す音声信号が音声処理部18でA/D変換されることにより生成される。歌唱音声データは、WAVE形式やMP3(MPEG-1 Audio Layer-3)形式などの音声データである。
ビブラート区間データ記憶領域14cには、各楽曲の歌唱音声データにおいて「ビブラート」の技法が用いられている区間(以下、ビブラート区間)を示すデータが記憶される。
【0024】
歌唱こぶし区間データ記憶領域14dには、各楽曲の歌唱音声データにおいて「こぶし」の技法が用いられている歌唱こぶし区間を示すデータ(歌唱こぶし区間データ)が記憶される。
パラメータ記憶領域14eには、各楽曲の歌唱音声データから抽出されたピッチや、該ピッチから抽出された各種のパラメータが記憶される。
【0025】
リファレンスこぶし区間データ記憶領域14fには、リファレンスであるガイドメロディにおいて特定されたリファレンスこぶし区間を示すデータ(リファレンスこぶし区間データ)が記憶される。
以上に説明したカラオケ装置1の各部は、バス20を介して互いにデータをやり取りする。
【0026】
(B:動作)
次に、カラオケ装置1が実行する処理について説明する。
(B−1:カラオケ伴奏処理)
歌唱者が、操作部16を操作して歌唱する楽曲を選択すると、楽曲の曲番号データなど楽曲を特定する操作信号が操作部16からCPU11に出力される。CPU11は、操作部16から供給された操作信号が示す楽曲データを楽曲データ記憶領域14aから読み出し、読み出した楽曲データについてカラオケ伴奏処理を行う。
【0027】
図4は、カラオケ伴奏処理の流れを示すフローチャートである。
ステップSA100において、CPU11は、楽曲データ記憶領域14aから楽曲データに含まれる伴奏データを読み出して音声処理部18に出力する。そして音声処理部18は、上記伴奏データをD/A変換によりアナログの音声信号に変換し、スピーカ19に出力する。スピーカ19は、受取った伴奏データに基づいてカラオケ伴奏を放音する。また、CPU11は、楽曲データ記憶領域14aから楽曲データに含まれる歌詞データを読み出して、該歌詞データに従って歌詞テロップを表示部15に表示させる。
【0028】
歌唱者は、表示部15に表示された歌詞テロップを見ながら、スピーカ19から放音されるカラオケ伴奏にあわせて歌唱を行う。歌唱者による歌唱はマイクロホン17により音声信号に変換され、該音声信号がA/D変換されることにより歌唱音声データが生成される(ステップSA110)。該歌唱音声データは、歌唱音声データ記憶領域14bに書き込まれる。
【0029】
ステップSA120において、CPU11は、楽曲の演奏が一曲分終了したか否かを判定する。ステップSA120の判定結果が“No”である場合には、楽曲の残りの部分についてステップSA100およびステップSA110の処理を行う。ステップSA120の判定結果が“Yes”である場合には、カラオケ伴奏処理を終了する。
【0030】
(B−2:リファレンスこぶし区間特定処理)
次に、リファレンスであるガイドメロディにおいて、「こぶし」の技法を用いて歌唱するべき区間を特定するリファレンスこぶし区間特定処理について説明する。図5は、リファレンスこぶし区間特定処理の流れを示したフローチャートである。
ステップSB100において、CPU11は、ガイドメロディからピッチを検出する。上述のように、ガイドメロディは、MIDIフォーマットに従って記述されているため、CPU11はMIDIフォーマットによって示される音名(ノート)をピッチ(周波数)データに変換することでガイドメロディからピッチを検出する。
【0031】
ステップSB110において、CPU11は、ガイドメロディデータからリファレンスこぶし区間を特定する。以下では図3を参照して、CPU11がガイドメロディからリファレンスこぶし区間を特定する方法を説明する。
CPU11は、ガイドメロディが示すピッチの変動の態様から以下の条件(1)および(2)を同時に満たす区間を「リファレンスこぶし区間」として特定する。すなわち、CPU11は、ピッチが上がった後に下がる区間において、
(1)ピッチが上がる前のピッチとピッチが下がった後のピッチが同じレベルである
(2)ピッチが上がっている区間の時間長が所定の値より小さい
区間を「リファレンスこぶし区間」として特定する。
【0032】
例えば図3に示したガイドメロディにおいては、CPU11は、ピッチが上がった後に下がる区間として区間2を特定する。該区間は上記条件(1)および(2)の条件も同時に満たすため、区間2をリファレンスこぶし区間と特定する。CPU11は、上述のようにリファレンスこぶし区間を特定し、特定した区間を記したリファレンスこぶし区間データを、リファレンスこぶし区間データ記憶領域14fに書き込む。
【0033】
ステップSB120において、CPU11は、「こぶし抜きガイドメロディデータ」を生成する。こぶし抜きガイドメロディデータとは、ガイドメロディデータからこぶしの技法に起因するピッチの変動を差し引いたガイドメロディデータを指す。
図6は、図3に示されたガイドメロディデータに基づいて生成されたこぶし抜きガイドメロディデータである。CPU11は、図3に示されたガイドメロディにおいて、区間2がリファレンスこぶし区間であることを特定すると、該特定した区間のピッチをベースラインである区間1および3のピッチと等しくなるように変更する。すなわち、図6に示されるように、ノートBを発音する全区間でピッチがPになるように変更する。その結果、こぶしの技法が用いられないガイドメロディを表す「こぶし抜きガイドメロディデータ」が生成される。CPU11は、生成したこぶし抜きガイドメロディデータを、楽曲データ記憶領域14aに書き込む。
以上で、リファレンスこぶし区間特定処理を終了する。
【0034】
(B−3:ビブラート区間特定処理)
CPU11は、歌唱音声から「歌唱こぶし区間」を特定するにあたり、予め「こぶし」と類似した特徴を示す「ビブラート」が用いられている区間を特定するビブラート区間特定処理を行う。ビブラートとは、音を伸ばしながらピッチをわずかに上下させ震えるような音色を出すことにより音に豊かな響きを与える歌唱技法である。
【0035】
図7は、ビブラート区間特定処理の流れを示したフローチャートである。
ステップSC100において、CPU11は、歌唱音声データを歌唱音声データ記憶領域14bから読み出し、該歌唱音声データから所定時間長(例えば、10msec)のフレーム単位でピッチを検出し、検出したピッチを表す歌唱ピッチデータを生成する。
なお、歌唱ピッチデータにおいては、上記歌唱音声データから検出されたピッチの値を、「こぶし抜きガイドメロディデータ」のピッチをゼロ基準とした場合の相対的な値に変換して表す。生成された歌唱ピッチデータは、パラメータ記憶領域14eに書き込まれる。
【0036】
図8には、ステップSC100において生成される歌唱ピッチデータの一例をグラフA1で示す。図8において、横軸は時刻(楽曲が開始されてからの経過時間)を表し、図8においては、楽曲の一部分を取り出して示す。また、縦軸には、各時刻における歌唱ピッチデータの値が示されている。
【0037】
ステップSC110において、CPU11は、パラメータ記憶領域14eから歌唱ピッチデータを読み出し、該歌唱ピッチデータから特定の周波数成分を抽出するフィルタ処理を施し、新たなピッチデータ(以下、フィルタ歌唱ピッチデータ)を生成する。本実施形態においては、CPU11は、歌唱ピッチデータを6Hzより低い周波数の成分を抽出するローパスフィルタを用いる。
図8におけるグラフA2は、グラフA1の歌唱ピッチデータを上記ローパスフィルタによりフィルタ処理することで生成されたフィルタ歌唱ピッチデータを示している。
【0038】
図8に示されるように、フィルタをかける前の歌唱ピッチデータ(A1)には、波形に細かい乱れがある。このような波形の乱れは例えばリバーブによるものであり、リバーブのかかった音声データからピッチを検出した場合には、その検出結果は正弦波にならず波形の乱れたものとなる。そのため、リバーブのかかった音声からビブラート区間を特定することが困難であった。更には、音声にリバーブがかかっているか否かを音声データから判定することも困難であった。しかしながら、ローパスフィルタで処理された歌唱ピッチデータにおいては、音声にかけられたリバーブの影響は取り除かれており、後述の処理においてより適切にビブラート区間を特定することが可能になる。
【0039】
ステップSC120において、CPU11は、歌唱音声データにおいてビブラート区間の特徴を示す区間(以下、ビブラート候補区間)を以下の条件で特定する。
CPU11は、ステップSC110において生成されたフィルタ歌唱ピッチデータの表すピッチが、負から正又は正から負に変化する(ゼロクロスする)箇所をゼロクロス箇所として特定する。例えば図8に示すフィルタ歌唱ピッチデータにおいては、フィルタ歌唱ピッチデータ(A2)がゼロクロスする時刻(例えば、時刻P1,P2,P3,P4など)が、ゼロクロス箇所として特定される。
【0040】
次いで、CPU11は、フィルタ歌唱ピッチデータにおいてゼロクロス箇所が現れる時間間隔を測定し、測定された時間間隔が予め定められた範囲内であり、かつ、その時間間隔が連続して所定回数以上検出された区間を、ビブラート候補区間として特定する。この処理によって、図8に示した例では、ゼロクロス箇所がほぼ等間隔で現れる区間A3がビブラート候補区間として特定される。なお、図8に含まれない楽曲部分においてもビブラート候補区間が特定される。
【0041】
ステップSC130において、CPU11は、ステップSC120で特定されたビブラート候補区間の各々について、ビブラート技法が実際に用いられていることを更に検証するため、以下のようにビブラート候補区間の各々から各種パラメータを抽出する。なお、以下の説明において、例えば図8における区間A3のようにフィルタ歌唱ピッチデータの値が周期的に変動している場合に、単位時間あたりの振動の回数を「ビブラートの振動数」と呼ぶ。
【0042】
(1)ビブラートの振動数の平均値(Af;Average of frequency)
パラメータAfは各ビブラート候補区間におけるビブラートの振動数の平均値であり、上記フィルタ歌唱ピッチデータが横軸とゼロクロスする時間間隔の逆数の平均値として算出される。
(2)ビブラートの振動数の標準偏差(Df;Deviation of frequency)
パラメータDfは、上記フィルタ歌唱ピッチデータが横軸とゼロクロスする時間間隔の逆数の分布の標準偏差として算出される。本パラメータから、ビブラートの振動数の「ばらつき」の大きさを推定することができる。すなわち、本パラメータの値が0に近いほど均一な振動数を持つ、優れたビブラートであることを示す。
【0043】
ここで、以下のパラメータの説明において用いられる「ピッチ振動幅」について説明する。図9は、図8におけるフィルタ歌唱ピッチデータ(A2)を取り出して示したグラフである。図9において、CPU11は、以下のようにして上記ビブラート候補区間における「ピッチ振動幅」を算出する。まず、CPU11は、フィルタ歌唱ピッチデータを時間で微分することにより、該データのグラフから極大値および極小値を特定する。
【0044】
例えば、図9においてQ2、Q4、Q6、Q8、およびQ10は極大値を示し、Q1、Q3、Q5、Q7、およびQ9は極小値を示す。CPU11は、特定された1つの極小値と、時間的に直後に隣接する極大値との差分をピッチ振動幅とし、該ピッチ振動幅を、該値の算出に用いた極小値と極大値との中間の時刻に位置付ける。例えば極小値Q1と極大値Q2とからはピッチ振動幅W1が生成される。図9には、以上のようにして生成されたピッチ振動幅W1〜5が書き込まれている。
【0045】
さて、ステップSC140で抽出されるパラメータの説明に戻る。
(3)ピッチ振動幅の平均値(Ap;Average of pitch)
パラメータApは、各ビブラート候補区間において算出されたピッチ振動幅の平均値を示す。
(4)ピッチ振動幅の標準偏差(Dp;Deviation of pitch)
パラメータDpは、各ビブラート候補区間において算出されたピッチ振動幅の標準偏差を示す。本パラメータから、ビブラート区間におけるピッチの振動幅の「ばらつき」の大きさを推定することができる。すなわち、本パラメータの値が0に近いほど均一の振動幅でピッチが振動する、優れたビブラートであることを示す。
【0046】
(5)ピッチ振動幅の線形近似直線の傾き(Sp;Slope of pitch)
パラメータSpは、上記ピッチ振動幅のグラフにおける線形近似直線の傾きを示す。図10は、図9において算出されたピッチ振動幅のグラフを取り出して示している。CPU11は、ビブラート候補区間におけるピッチ振動幅の点について、線形近似直線を決定する。例えば、図10に示す区間A3においては、線形近似直線のグラフは直線L1のように決定され、(式1)として表される。
(式1)P=15t+150
このように線形近似直線を算出することにより直線の傾きSpが決定される。上記の例では、ピッチ振動幅の線形近似直線の傾きSpは、15である。
本パラメータから、ビブラートを行っている間のピッチの振動幅の安定性を推定することができる。すなわち、Spの絶対値が小さい値であるほど、ビブラートを行っている間にピッチの変動幅が均一に保たれた、優れたビブラートであることを表す。
【0047】
ステップSC140において、CPU11は、以下のような基準で、ステップSC120において特定されたビブラート候補区間の各々について、ビブラート区間として最終的に決定するか否かを判定する。すなわち、
(1)Dfが所定の閾値より小さい
(2)Apが所定の範囲内である
(3)Dpが所定の閾値より小さい
(4)Spの絶対値が所定の閾値より小さい
CPU11は、上記(1)ないし(4)の全ての条件を満たすビブラート候補区間をビブラート区間として最終決定する。
【0048】
上記の条件により特定されたビブラート区間においては、ビブラートが用いられている可能性は非常に高いことが期待される。なぜなら、一般にビブラートにおいては、ビブラートの振動数、ピッチの振動幅のばらつきは小さく、また、その振動幅は所定の大きさの範囲内(例えば500セント以内など)にあり、更にはピッチの変動幅はビブラート区間を通して略一定となるからである。なお、「セント」とは、ピッチの相対的な音程差を示す単位であり、例えば+100セントが示すピッチは基準となるピッチから半音分上の音程を示す。CPU11は、特定した区間を表すビブラート区間データを、ビブラート区間データ記憶領域14cに記憶する。
【0049】
図11に、図8に示された歌唱ピッチデータについて生成されたビブラート区間データを示す。図11に示されるように、ビブラート区間データにおいては、各楽曲についての歌唱音声データにおいて特定されたビブラート区間について、その開始時刻と終了時刻が書き込まれている。
以上で、ビブラート区間特定処理は終了する。
【0050】
以上のように、ステップSC120で、フィルタ歌唱ピッチデータにおいてピッチの振動の時間間隔が予め定められた範囲内であり、且つその時間間隔が連続して所定回数以上検出されたことを条件として一旦ビブラート区間の候補を絞り込んだ。そしてステップSC130において抽出されたパラメータに基づいて上記ビブラート候補区間がビブラート区間として適切であるか検証した。以上のように、ビブラートに特有のピッチの変動を示すか否かを複数の条件で判定することで、最終的に正確なビブラート区間を特定することができる。
【0051】
(B−4:歌唱こぶし区間特定処理)
CPU11は、上述のビブラート区間特定処理を終えると、歌唱こぶし区間特定処理を行う。歌唱こぶし区間特定処理とは、歌唱音声データからこぶしを用いて歌唱している区間を特定する処理である。図12は、歌唱こぶし区間特定処理の流れを示すフローチャートである。
【0052】
ステップSD100において、CPU11は、パラメータ記憶領域14eから、フィルタ歌唱ピッチデータを読み出す。
次にステップSD110において、CPU11は、歌唱音声データにおいてこぶしを含む可能性がある区間(以下、歌唱こぶし候補区間)を以下のように特定する。なお、以下では、フィルタ歌唱ピッチデータの一部を模式的に示した図13を参照して説明する。なお、図13において、P(>0)およびP(<0)は、それぞれピッチが上昇している区間Aおよび減少している区間Bにおけるピッチの変動幅を示す。また、区間Cは、区間Aの開始から区間Bの終了までの区間を示す。t、t、およびtは、それぞれ区間A、B、およびCの時間幅を示す。
【0053】
CPU11は、フィルタ歌唱ピッチデータから、以下に示す条件(1)ないし(3)を同時に満たす区間を「歌唱こぶし候補区間」として特定する。すなわち、ピッチが上がった後に下がる区間(図13では、区間C)において、
(1)ピッチが上がる区間(区間A)においてピッチの変化の割合の絶対値(|P/t|)が所定値よりも大きい
(2)ピッチが下がる区間(区間B)においてピッチの変化の割合の絶対値(|P/t|)が所定値よりも大きい
(3)ピッチが上がり始めてから下がり終わるまでの区間の長さ(t)が所定の範囲内であること。すなわち、ピッチの一過的な上昇が、所定の時間内に起こる
区間を「歌唱こぶし候補区間」として特定する。
【0054】
以上の条件(1)ないし(3)により、図14(図8と同じフィルタ歌唱ピッチデータを示す)において歌唱こぶし候補区間を特定すると、区間1、2、3、4、5、および6が特定される。CPU11は、該歌唱こぶし候補区間を示すデータを歌唱こぶし候補区間データとして生成し、歌唱こぶし区間データ記憶領域14dに書き込む。
図15は、歌唱こぶし候補区間データの一例を示している。歌唱こぶし候補区間データにおいては、歌唱音声データにおいて特定された歌唱こぶし候補区間の各々について、ピッチの変動の開始時刻と終了時刻が書き込まれている。例えば、図15において、00m14s500〜00m15s400msとのデータは、図14における区間3のピッチ変動と対応している。
【0055】
ステップSD120において、CPU11は、歌唱こぶし区間を特定する。すなわちCPU11は、ビブラート区間データ記憶領域14cからビブラート区間データを、歌唱こぶし区間データ記憶領域14dから歌唱こぶし候補区間データを読み出し、読み出した1または複数の歌唱こぶし候補区間から、ビブラート区間に含まれている歌唱こぶし候補区間を除外することにより、歌唱こぶし区間を特定する。
【0056】
例えば、図14に示されたフィルタ歌唱ピッチデータからは、図15に示す歌唱こぶし候補区間データと、図11に示すビブラート区間データとが生成されるが、図15に示された複数の歌唱こぶし候補区間のうち、00m12s200ms〜00m12s800msの区間のみは、ビブラート区間に含まれないが、該区間を除く他の区間は、ビブラート区間に含まれる。従って、00m12s200ms〜00m12s800msの区間が歌唱こぶし区間として特定される。
なお、歌唱こぶし候補区間とビブラート区間の開始時刻または終了時刻がずれている場合には、歌唱こぶし候補区間の一部がビブラート区間に含まれていれば該歌唱こぶし候補区間はビブラート区間に含まれていると判定する。
【0057】
上述したように、歌唱こぶし候補区間特定処理においては、所定の時間内にピッチが一過的に上昇することを条件として歌唱こぶし候補区間を特定する。そのような条件により特定された区間には、歌唱音声に含まれるビブラートのピッチの振動も含まれてしまう。そこで、一旦特定された歌唱こぶし候補区間から別途特定されたビブラート区間を除外することにより、こぶしを用いて歌唱されている歌唱こぶし区間が適切に特定される。
【0058】
(B−5:こぶし評価処理)
次に、歌唱者の歌唱音声における「こぶし」の技法を評価するこぶし評価処理について説明する。CPU11は、リファレンスこぶし区間に対応する区間で、歌唱者がこぶしの技法を用いて歌唱したか否かを判定することにより、歌唱音声におけるこぶしの評価を行う。
【0059】
具体的には、特定された歌唱こぶし区間とリファレンスこぶし区間とを比較し、上記リファレンスこぶし区間の中間の時刻の直前または直後の上記所定長の区間に中間の時刻を持つような歌唱こぶし区間がある場合には、こぶしに関する評価に加点する。なぜなら、その場合、リファレンスこぶし区間と歌唱こぶし区間は略一致していると考えられ、従って、該リファレンスこぶし区間において実際にこぶしを用いて歌唱されたと考えられるからである。
一方、上記リファレンスこぶし区間の中間の時刻の直前または直後の上記所定長の区間に中間の時刻を持つような歌唱こぶし区間が無い場合には、こぶしに関する評価に加点をしない。なぜなら、その場合、こぶしを用いて歌唱すべき区間においてこぶしが用いられていないと考えられるからである。
【0060】
上述したように、歌唱音声データにおいては、図14の区間1が歌唱こぶし区間として特定された。そして、ガイドメロディにおいては、例えば時刻00m12s200ms〜00m13s200msにおいてこぶしが検出された場合、該歌唱こぶし区間の中間の時刻は、00m12s700msであり、上記歌唱こぶし区間(区間1)の中間の時刻(00m12s500ms)との差分値は、200msとなる。例えば上記所定長が500msと設定されている場合には、上記の差分値は該閾値以下であることから、評価に加点される。
【0061】
(C:変形例)
以上、本発明の一実施形態について説明したが、本発明は上述の実施形態に限定されることなく、他の様々な形態で実施可能である。以下にその一例を示す。
【0062】
(1)上述した実施形態においては、歌唱音声データはWAVE形式やMP3形式のデータとしたが、データの形式はこれに限定されるものではなく、歌唱音声を表すデータであればどのような形式のデータであってもよい。
【0063】
(2)上述した実施形態では、CPU11は、歌唱音声データに対して特定の周波数以下の周波数成分を抽出するローパスフィルタ処理を行ったが、CPU11が行うフィルタ処理は上記のローパスフィルタによる処理に限定されない。例えば、所定の周波数幅の周波数成分を取り出すフィルタを用いてもよい。要するに、特定の周波数帯域の成分を抽出するフィルタ処理であればどのようなものであってもよい。
【0064】
(3)上述した実施形態においては、カラオケ装置1を利用する歌唱者の歌唱音声データについて、歌唱こぶし区間の特定やこぶしの評価など各種の処理を行う場合について説明した。しかし、処理の対象となる音声データは、歌唱音声を表すデータに限らず、例えばバイオリンやフルートなどの楽器の演奏音を表す音声データであってもよい。そのようにすれば、例えば楽器においてこぶしと特性が類似した演奏技法を検出することができる。
【0065】
(4)上述した実施形態においては、マイクロホン17に入力された音声から生成された歌唱音声データについて、歌唱こぶし区間の特定やこぶしの評価を行う場合について説明した。しかし、処理の対象となる音声データは、何らかの記憶手段に記憶された音声データでも良い。
【0066】
(5)上述した実施形態において、上記ガイドメロディは、各々所定のピッチと音長を有する複数の楽音の音名と時間データにより旋律を示すMIDIデータであり、該ガイドメロディから、上述の「リファレンスこぶし区間特定処理」によりリファレンスこぶし区間が特定される場合について説明した。
しかし、上記ガイドメロディは、各々所定のピッチと音長を有する複数の楽音の波形データにより旋律を示すデータ(WAVE形式、MP3形式など)であっても良い。その場合は、該ガイドメロディから、FFT(Fast Fourier Transform)などの方法を用いてピッチを検出し、該検出されたピッチを用いて上述の「リファレンスこぶし区間特定処理」でリファレンスこぶし区間を特定すれば良い。
また、ガイドメロディは、ピッチの時間変化を表すデータであっても良い。その場合は、上記リファレンスこぶし区間特定処理において各楽音の音名をピッチに変換する処理は不要であり、該ガイドメロディに書き込まれたピッチを用いて、上述の「リファレンスこぶし区間特定処理」によりリファレンスこぶし区間を特定すれば良い。
また、リファレンスとして用いる音声データが、例えば歌手による模範歌唱やカラオケ伴奏における特定のパートなどを表すデータ(WAVE形式、MP3形式など)でも良い。そのように、リファレンスとして用いる音声データにおいてピッチの時間変化が連続的になる部分が含まれる場合には、上述の「歌唱こぶし区間特定処理」によってリファレンスこぶし区間を特定すれば良い。
以上に説明したように、上述した実施形態において示した「リファレンスこぶし区間特定処理」だけではなく、「歌唱こぶし区間特定処理」をリファレンスにおけるこぶし区間の特定に用いても良く、リファレンスとして用いられるデータの特性に応じて両者を使い分けるようにすれば良い。
【0067】
(6)上述した実施形態においては、ガイドメロディにおいてリファレンスこぶし区間を特定し、歌唱音声データの該リファレンスこぶし区間に対応する区間にこぶしが検出されるか否かに基づいてこぶしの評価を行う場合について説明した。しかし、ガイドメロディにおいてこぶしが用いられている区間を示すデータが楽曲データに含まれているなどの場合には該データをリファレンスこぶし区間データとして用いれば良く、リファレンスこぶし区間特定処理を行う必要は無い。
【0068】
(7)上述した実施形態では、ガイドメロディのピッチに基づいてリファレンスこぶし区間を特定する場合について説明した。本変形例では、更に歌詞データに基づいてリファレンスこぶし区間を特定するようにしても良い。歌詞データにおいては、ワイプ処理するタイミングから、各文字とガイドメロディの楽音の対応関係を特定することが可能である。そこで、CPU11は、1つの文字と対応するガイドメロディ部分に複数のピッチが見られるとの条件を更に併せてリファレンスこぶし区間を特定するようにしても良いし、一旦上述の方法でリファレンスこぶし区間を特定した後に、1つの文字と対応するガイドメロディ部分に複数のピッチが見られるとの条件を更に用いてリファレンスこぶし区間を特定するようにしても良い。
【0069】
(8)上述した実施形態においては、ガイドメロディにおいて、ピッチの変動の態様が上述した条件(1)および(2)を同時に満たす区間をリファレンスこぶし区間として特定する場合について説明した。しかし、ガイドメロディデータからこぶし区間を特定する方法は上述の方法に限られるものではない。例えば、楽曲データに含まれる伴奏データから、歌唱の旋律と略一致する旋律を演奏する楽器(例えばピアノ)の伴奏データを読出し、該伴奏データとガイドメロディデータとから該伴奏データのピッチを基準としたガイドメロディデータのピッチの相対値(差分値)を算出し、その相対値が一過的に上昇する区間をリファレンスこぶし区間として特定するとしても良い。なぜなら、伴奏データにおいてはこぶしの技法に起因するピッチの変動は含まれていないと考えられ、上記の差分値はこぶしによるピッチの一過的な上昇を抽出したものであると考えられるからである。
【0070】
(9)上述した実施形態においては、歌唱音声データからビブラート区間を特定し、該ビブラート区間を歌唱こぶし候補区間から除外して歌唱こぶし区間を特定する場合について説明した。しかし、楽曲データに付随しているなど、ビブラートの技法を用いて歌唱すべき区間を示すデータが得られる場合には、上述のビブラート区間特定処理を行う必要はない。その場合、該データが示す区間をビブラート区間データ記憶領域14cに書き込んでおき、歌唱こぶし区間特定処理の際には、該書き込まれたデータを読み出して用いれば良い。
【0071】
(10)上述した実施形態においては、ビブラート区間を特定する方法の一例として、ピッチの変動の態様に基づく場合について説明した。しかし、ビブラート区間を特定する方法は上述の方法に限定されるものではない。例えば、ビブラートの区間を特定するために上記実施形態において用いた複数の条件のうち、いずれかを用いないとしても良いし、上記の条件に加え、他の条件を組み合わせて用いても良い。
【0072】
(11)上述した実施形態においては、歌唱こぶし区間特定処理において、フィルタ歌唱ピッチデータの、ピッチの変動の態様が条件(1)ないし(3)の条件を満たす区間を「歌唱こぶし候補区間」として特定する場合について説明した。しかし、上記の条件に加え、例えば以下のような条件(a)、(b)、(c)、および(d)に基づいて歌唱こぶし候補区間を特定しても良い。
(a)ピッチの立ち上がりが、ノート(楽音)の発音を開始するタイミングの直後の所定の期間内にある場合に、該ピッチの上昇区間を歌唱こぶし候補区間とする。
図16は、フィルタ歌唱ピッチデータの一部を取り出して示した図である。図16(a)に示されているように、時刻t1からt3まで伸ばして発音するノートにおいて、その発音開始(時刻t1)から所定の時間以上経過してからピッチの立ち上がり(時刻t2)が見られる場合には、該区間を歌唱こぶし候補区間とは特定しない。なぜなら、各ノートの発音開始の直後にこぶしを回すのが一般的であるからである。
【0073】
(b)こぶしの直前および直後に所定のレベルを超えるピッチの下降がない。
図16(b)に示されているように、時刻t5において極大値を示すピッチの一過的な上昇の直前に時刻t4において極小値を示すようなピッチの大きな下降が見られる場合には、上記時刻t5において極大値を示すピッチの一過的な上昇の区間を歌唱こぶし候補区間とは特定しない。
【0074】
(c)こぶしの直後に所定のレベルを超えるピッチの上昇がない。
図16(c)に示されているように、時刻t6において極大値を示すピッチの一過的な上昇の直後に時刻t7において極大値を示すようなピッチの大きな上昇が見られる場合には、時刻t6において極大値を示すピッチの一過的な上昇の区間を歌唱こぶし候補区間とは特定しない。
【0075】
(d)ピッチの一過的な上昇の後に一定期間の平坦部(区間内のピッチの最大値と最小値の差分が一定値以内である部分)がある。
図16(d)に示されているように、時刻t8において極大値を示すピッチの一過的な上昇が終了した後に時刻t9において極小値を示すピッチの下降や、時刻t10において極大値を示すピッチの上昇が見られ、該区間におけるピッチの変動幅は所定の閾値より大きくなるため、時刻t8において極大値を示すピッチの一過的な上昇の区間を歌唱こぶし候補区間とは特定しない。
なお、上述の実施形態において示した条件(1)ないし(3)、および上記の条件(a)、(b)、(c)、および(d)の中から、複数の条件を選択して用いることにより歌唱こぶし候補区間を特定するとしても良く、該条件の組み合わせ方法は適切に設定すれば良い。
【0076】
(12)上述した実施形態においては、歌唱こぶし区間を特定するに際し、歌唱こぶし候補区間の一部でもビブラート区間に含まれている場合には、該歌唱こぶし候補区間はビブラート区間に含まれていると判定する場合について説明した。しかし、各歌唱こぶし候補区間がビブラート区間に含まれるか否かを判定する方法は、上記の方法に限定されるものではない。たとえば、各歌唱こぶし候補区間の開始時刻から終了時刻までがビブラート区間に含まれる場合に、該歌唱こぶし候補区間はビブラート区間に含まれると判定しても良い。また、各歌唱こぶし候補区間において、ピッチが極大値を示す時刻がビブラート区間に含まれる場合に、該歌唱こぶし候補区間はビブラート区間に含まれると判定しても良い。
【0077】
(13)上述した実施形態においては、上記リファレンスこぶし区間の中間の時刻の直前または直後の上記所定長の区間に中間の時刻を持つような歌唱こぶし区間があるか否かによりこぶしの評価をする場合について説明した。しかし、こぶしの評価方法は、上記の方法に限定されるものではない。
例えば、上記の方法において、リファレンスこぶし区間および歌唱こぶし区間の中間の時刻に代えて、両こぶし区間のピッチが最大値を示す時刻同士で比較しても良い。また、上記リファレンスこぶし区間の開始時刻の直前および直後の所定の区間において、歌唱こぶし区間の開始時刻が見られるか否かによりこぶしの評価を行っても良い。
【0078】
(14)上述した実施形態においては、ガイドメロディにおいてリファレンスこぶし区間を特定し、一方歌唱音声データにおいて歌唱こぶし区間を特定し、その後、特定されたリファレンスこぶし区間および歌唱こぶし区間を比較することにより歌唱のこぶしを評価する場合について説明した。しかし、リファレンスこぶし区間を一旦特定し、該特定されたリファレンスこぶし区間と対応する区間の歌唱音声データにおいて、こぶしが用いられているか否かを判定することによりこぶしの評価をしても良い。その場合、リファレンスこぶし区間と対応する区間の歌唱音声のピッチが上述した歌唱こぶし区間特定処理において用いた条件を満たすか否かを判定すれば良い。
【0079】
(15)上述した実施形態においては、リファレンスこぶし区間に対応する歌唱音声の区間においてこぶしが検出された場合に、評価に加点する場合について説明した。しかし、リファレンスこぶし区間に対応する歌唱音声の区間においてこぶしが検出されなかった場合に、評価に減点するようにしても良い。
【0080】
(16)上述した実施形態においては、リファレンスこぶし区間に対応する歌唱音声の区間においてこぶしが検出されるか否かによりこぶしの評価処理を行う場合について説明した。しかし、こぶしの評価は上述の方法に限られるものではない。例えば、リファレンスこぶし区間と歌唱こぶし区間とから、こぶしにおいてピッチが上昇するタイミングのずれの大きさを算出し、該ずれが大きい場合に減点したり、小さいほど加点したりするなどの評価をしても良い。
【0081】
(17)上述した実施形態において、歌唱音声とガイドメロディのピッチを比較することによる従来の歌唱評価(以下、総合評価)をこぶしの評価と合わせて行っても良い。その場合、歌唱音声においてこぶしが検出されたにも関わらず、対応するガイドメロディの区間にこぶしが検出されなかった場合には、上記総合評価において該歌唱こぶし区間における歌唱音声とガイドメロディの間のピッチのずれに応じた減点を行わないとしても良い。なぜなら、歌唱者は上記こぶし区間において意図的にこぶしを回して歌唱したと考えられ、そのことに由来するガイドメロディからのピッチのずれに基づいて総合評価において減点することは適切ではないからである。
【0082】
(18)上述した実施形態では、カラオケ装置1が、上記実施形態に係る機能の全てを実現する場合について説明した。しかし、ネットワークで接続された2以上の装置が上記機能を分担するようにし、それら複数の装置を備えるシステムが同実施形態のカラオケ装置1の機能を実現するようにしてもよい。
【0083】
(19)上述した実施形態におけるカラオケ装置1のCPU11によって実行されるプログラムは、磁気テープ、磁気ディスク、フレキシブルディスク、光記録媒体、光磁気記録媒体、RAM、ROMなどの記録媒体に記憶した状態で提供し得る。また、インターネットのようなネットワーク経由でカラオケ装置1にダウンロードさせることも可能である。
【0084】
(20)上述した実施形態においては、ガイドメロディにおけるこぶし区間を表すリファレンスこぶし区間データを生成し、該リファレンスこぶし区間データを記憶部14のリファレンスこぶし区間データ記憶領域14fに記憶し、歌唱音声のこぶしに関する評価を行う場合に、該データを読み出して評価に用いる場合について説明した。該方法はすなわち、リファレンスこぶし区間データを楽曲データやガイドメロディデータとは別に新たなファイルとして生成し、ガイドメロディデータにリファレンスこぶし区間データを併せて用いる方法である。
しかし、生成したリファレンスこぶし区間データをガイドメロディに加える方法は、上述の方法に限られるものではない。例えば、こぶしを用いて歌唱すべき区間が書き込まれたガイドメロディデータを新たに生成しても良い。その場合、こぶし区間を表すリファレンスこぶし区間データを、例えば楽曲データのヘッダやガイドメロディデータの冒頭に書き込むなどしても良いし、ガイドメロディデータにおけるこぶし区間のデータを改変するなどしても良い。
【図面の簡単な説明】
【0085】
【図1】カラオケ装置1の構成を示すブロック図である。
【図2】楽曲データの内容を示す図である。
【図3】ガイドメロディデータが表すピッチを示したグラフである。
【図4】カラオケ伴奏処理の流れを示すフローチャートである。
【図5】リファレンスこぶし区間特定処理の流れを示したフローチャートである。
【図6】こぶし抜きガイドメロディデータが表すピッチを示したグラフである。
【図7】ビブラート区間特定処理の流れを示すフローチャートである。
【図8】歌唱ピッチデータおよびフィルタ歌唱ピッチデータを示す図である。
【図9】ピッチ振動幅の算出方法を説明するための図である。
【図10】ピッチ振動幅の線形近似直線の算出方法を示す図である。
【図11】ビブラート区間データの一例を示す図である。
【図12】歌唱こぶし区間特定処理の流れを示すフローチャートである。
【図13】歌唱こぶし候補区間の特定方法を説明するための図である。
【図14】フィルタ歌唱ピッチデータを示す図である。
【図15】歌唱こぶし候補区間データの一例を示す図である。
【図16】歌唱こぶし区間の特定方法を説明するための図である。
【符号の説明】
【0086】
1…カラオケ装置、11…CPU、12…ROM、13…RAM、14…記憶部、15…表示部、16…操作部、17…マイクロホン、18…音声処理部、19…スピーカ、20…バス。

【特許請求の範囲】
【請求項1】
旋律を表すリファレンスデータを受取る受取手段と、
前記受取手段が受取ったリファレンスデータが表す旋律からピッチを検出するピッチ検出手段と、
前記ピッチ検出手段により検出された前記旋律のピッチを参照し、前記旋律においてピッチが上昇した後下降する1または複数の区間から、
(1)ピッチが上昇する直前のピッチとピッチが下降した直後のピッチが等しく、
(2)ピッチが上昇している時間長が所定の閾値よりも短い
という条件を満たす区間をリファレンスこぶし区間として特定するリファレンスこぶし区間特定手段と
前記リファレンスこぶし区間特定手段が特定したリファレンスこぶし区間を示すリファレンスこぶし区間データを前記リファレンスデータに加える編集手段と
を有することを特徴とするリファレンスデータ編集装置。
【請求項2】
音声を表す音声データを受取る受取手段と、
前記受取手段が受取った音声データが表す音声からピッチを検出するピッチ検出手段と、
前記ピッチ検出手段により検出された前記音声のピッチを参照し、前記音声においてピッチが上昇した後下降する1または複数の区間から、
(1)ピッチが上昇する区間におけるピッチの変化の割合の絶対値が所定の閾値よりも大きく、
(2)ピッチが下降する区間におけるピッチの変化の割合の絶対値が所定の閾値よりも大きく、
(3)ピッチが上昇し始めてから下降し終わるまでに要する時間が所定の範囲内である
ことを特徴とする候補区間を特定する候補区間特定手段と、
前記音声において、ビブラートの技法が用いられている区間を表すビブラート区間データを受取る第2の受取手段と、
前記候補区間特定手段により特定された候補区間の各々について、前記第2の受取手段が受け取ったビブラート区間データが表すビブラート区間に含まれなければ、該候補区間をこぶしの技法が用いられているこぶし区間として特定するこぶし区間特定手段と
旋律を表すリファレンスデータを受取る第3の受取手段と、
前記第3の受取手段が受取ったリファレンスデータが表す旋律からピッチを検出する第2のピッチ検出手段と、
前記第2のピッチ検出手段により検出された前記旋律のピッチを参照し、前記旋律においてピッチが上昇した後下降する1または複数の区間から、
(1)ピッチが上昇する直前のピッチとピッチが下降した直後のピッチが等しく、
(2)ピッチが上昇している時間長が所定の閾値よりも短い
という条件を満たす区間をリファレンスこぶし区間として特定するリファレンスこぶし区間特定手段と
前記リファレンスこぶし区間特定手段により特定されたリファレンスこぶし区間と、前記こぶし区間特定手段により特定されたこぶし区間とに基づいて前記音声の評価をする評価手段と
を有することを特徴とするこぶし評価装置。
【請求項3】
前記評価手段は、前記リファレンスこぶし区間特定手段により特定されたリファレンスこぶし区間と、前記こぶし区間特定手段により特定されたこぶし区間が高い一致度を示すほど高い評価を出力する
ことを特徴とする請求項2に記載のこぶし評価装置。
【請求項4】
旋律を表すリファレンスデータを受取る受取段階と、
前記受取段階において受取ったリファレンスデータが表す旋律からピッチを検出するピッチ検出段階と、
前記ピッチ検出段階において検出された前記旋律のピッチを参照し、前記旋律においてピッチが上昇した後下降する1または複数の区間から、
(1)ピッチが上昇する直前のピッチとピッチが下降した直後のピッチが等しく、
(2)ピッチが上昇している時間長が所定の閾値よりも短い
という条件を満たす区間をリファレンスこぶし区間として特定するリファレンスこぶし区間特定段階と
前記リファレンスこぶし区間特定段階において特定されたリファレンスこぶし区間を示すリファレンスこぶし区間データを前記リファレンスデータに加える編集段階と
を有することを特徴とするリファレンスデータ編集方法。
【請求項5】
音声を表す音声データを受取る受取段階と、
前記受取段階において受取った音声データが表す音声からピッチを検出するピッチ検出段階と、
前記ピッチ検出段階において検出された前記音声のピッチを参照し、前記音声においてピッチが上昇した後下降する1または複数の区間から、
(1)ピッチが上昇する区間におけるピッチの変化の割合の絶対値が所定の閾値よりも大きく、
(2)ピッチが下降する区間におけるピッチの変化の割合の絶対値が所定の閾値よりも大きく、
(3)ピッチが上昇し始めてから下降し終わるまでに要する時間が所定の範囲内である
ことを特徴とする候補区間を特定する候補区間特定段階と、
前記音声において、ビブラートの技法が用いられている区間を表すビブラート区間データを受取る第2の受取段階と、
前記候補区間特定段階において特定された候補区間の各々について、前記第2の受取段階が受け取ったビブラート区間データが表すビブラート区間に含まれなければ、該候補区間をこぶしの技法が用いられているこぶし区間として特定するこぶし区間特定段階と
旋律を表すリファレンスデータを受取る第3の受取段階と、
前記第3の受取段階において受取ったリファレンスデータが表す旋律からピッチを検出する第2のピッチ検出段階と、
前記第2のピッチ検出段階において検出された前記旋律のピッチを参照し、前記旋律においてピッチが上昇した後下降する1または複数の区間から、
(1)ピッチが上昇する直前のピッチとピッチが下降した直後のピッチが等しく、
(2)ピッチが上昇している時間長が所定の閾値よりも短い
という条件を満たす区間をリファレンスこぶし区間として特定するリファレンスこぶし区間特定段階と
前記リファレンスこぶし区間特定段階において特定されたリファレンスこぶし区間と、前記こぶし区間特定段階において特定されたこぶし区間とに基づいて前記音声の評価をする評価段階と
を有することを特徴とするこぶし評価方法。
【請求項6】
コンピュータを、
旋律を表すリファレンスデータを受取る受取手段と、
前記受取手段が受取ったリファレンスデータが表す旋律からピッチを検出するピッチ検出手段と、
前記ピッチ検出手段により検出された前記旋律のピッチを参照し、前記旋律においてピッチが上昇した後下降する1または複数の区間から、
(1)ピッチが上昇する直前のピッチとピッチが下降した直後のピッチが等しく、
(2)ピッチが上昇している時間長が所定の閾値よりも短い
という条件を満たす区間をリファレンスこぶし区間として特定するリファレンスこぶし区間特定手段と
前記リファレンスこぶし区間特定手段が特定したリファレンスこぶし区間を示すリファレンスこぶし区間データを前記リファレンスデータに加える編集手段
として機能させるためのプログラム。
【請求項7】
コンピュータを、
音声を表す音声データを受取る受取手段と、
前記受取手段が受取った音声データが表す音声からピッチを検出するピッチ検出手段と、
前記ピッチ検出手段により検出された前記音声のピッチを参照し、前記音声においてピッチが上昇した後下降する1または複数の区間から、
(1)ピッチが上昇する区間におけるピッチの変化の割合の絶対値が所定の閾値よりも大きく、
(2)ピッチが下降する区間におけるピッチの変化の割合の絶対値が所定の閾値よりも大きく、
(3)ピッチが上昇し始めてから下降し終わるまでに要する時間が所定の範囲内である
ことを特徴とする候補区間を特定する候補区間特定手段と、
前記音声において、ビブラートの技法が用いられている区間を表すビブラート区間データを受取る第2の受取手段と、
前記候補区間特定手段により特定された候補区間の各々について、前記第2の受取手段が受け取ったビブラート区間データが表すビブラート区間に含まれなければ、該候補区間をこぶしの技法が用いられているこぶし区間として特定するこぶし区間特定手段と
旋律を表すリファレンスデータを受取る第3の受取手段と、
前記第3の受取手段が受取ったリファレンスデータが表す旋律からピッチを検出する第2のピッチ検出手段と、
前記第2のピッチ検出手段により検出された前記旋律のピッチを参照し、前記旋律においてピッチが上昇した後下降する1または複数の区間から、
(1)ピッチが上昇する直前のピッチとピッチが下降した直後のピッチが等しく、
(2)ピッチが上昇している時間長が所定の閾値よりも短い
という条件を満たす区間をリファレンスこぶし区間として特定するリファレンスこぶし区間特定手段と
前記リファレンスこぶし区間特定手段により特定されたリファレンスこぶし区間と、前記こぶし区間特定手段により特定されたこぶし区間とに基づいて前記音声の評価をする評価手段
として機能させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate