ビブラート検出方法、歌唱訓練プログラム及びカラオケ装置

【課題】歌唱力評価に適した信頼性の高いビブラート検出方法を提供すること。また、それらを応用した歌唱訓練プログラム及び人間の主観と相関の強い得点を算出できる歌唱力評価機能を持つカラオケ装置を提供すること。
【解決手段】
入力音声信号よりピッチ変化量Δｆを算出する。周期性算出モジュール１４３Ａは複数フレーム分のピッチ変化量Δｆに対して自己相関分析を行いビブラート検出を行う。ピッチ変化量Δｆに対し自己相関分析を用いることによりノイズや外乱に強いビブラート検出が可能となる。正位相・逆位相合成モジュール１４３Ｂは、自己相関関数より算出された正位相の相関係数・逆位相の相関係数を合成することにより、さらに信頼性の高いビブラート検出が可能となる。このようにして検出したビブラート情報を歌唱訓練プログラムやカラオケ装置に利用する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、ビブラート検出方法、歌唱訓練プログラム及びカラオケ装置に関する。
【背景技術】
【０００２】
現在市販されている殆ど全てのカラオケ装置には、カラオケ採点機能が付いている。従来のカラオケ採点は、マイクから入力された歌唱者の歌声から抽出した音程（ピッチ）とガイドメロディの音程を比較して、その一致度に基づき得点を算出するというものである。
【０００３】
ガイドメロディーと歌唱者の音程（ピッチ）を比較して音程の採点を行うカラオケ採点法では、歌唱者が"ビブラート歌唱"を行った場合、得点が著しく低下する。無表情に直線的な音程で歌った場合の得点が高くなり、人間の主観と異なった採点結果となる。ビブラートとは、音程を上下に震わせて音に表情をつける技術で、上手な歌唱者はビブラートを使うことが多い。人間の主観に近い採点アルゴリズムを作るためにはビブラート検出・加点機能が必要である。この問題について顧みた結果、特許文献１〜特許文献３のビブラート検出機能・加点機能を備えたカラオケ採点装置が発明されている。これらの文献には、ビブラートは正弦波的な音程変化をすることを利用してビブラート判定を行うという概念・検出方法・ビブラート加点方法が記載されている。
【特許文献１】特開２００４−１０２１４６号公報
【特許文献２】特開２００４−１３８６３４号公報
【特許文献３】特開２００５−１０７０８７号公報
【０００４】
特許文献１には、歌声データから音程変化を算出し、音程変化波形のピーク値、半値幅、繰り返し周期などを基準としてビブラートか否かの判定を行うことが記載されている。特許文献２には、歌声の音程とガイドメロディの差分をとり、その差分が正負反転するタイミングなどから音高波形の１周期を推定し、それを基にしてビブラート判定を行うことが記載されている。特許文献３には、歌唱ピッチデータの振幅の中央をゼロ点として、ゼロクロス点の間隔から周期を求めている。その周期をもとにビブラート判定を行うことが記載されている。
【０００５】
しかし、これらの文献に記載されているビブラート検出方法には以下の問題がある。特許文献１〜特許文献３に示されるビブラート検出法は、ビブラート周期の判定基準として、歌唱者の音程ピッチまたはピッチの差分が一定時間内にピークをとった回数（特許文献１参照）や、正負反転した回数（特許文献２及び特許文献３参照）などの尺度を用いてビブラート判定を行っているが、これらの単純な尺度では、例えば入力音声信号に高調波ノイズなどの外乱が侵入し、ピッチ抽出誤りが発生した場合、歌唱者がビブラートをかけていない部分でも、ビブラートをかけていると判定してしまう危険がある。特にカラオケ装置は、ＡＭＰ・モニター・スピーカー・電源コードなどが密集したカラオケＢＯＸなどに設置されるため、これらの単純な評価尺度を用いたビブラート検出法ではビブラート検出回路が上手く動作せず採点結果に悪影響を与える問題がある。人間の主観評価と相関の強い採点ができるカラオケ採点装置を作るためには、より信頼性の高いビブラート検出方法が必要となる。
【発明の開示】
【発明が解決しようとする課題】
【０００６】
本発明は上記問題を解決するためになされたものであり、歌唱力採点に適した信頼性の高いビブラート検出方法、それらを応用した歌唱訓練プログラム及び人間の主観と相関の強い得点を算出できる歌唱力評価機能を持つカラオケ装置を提供する。
【課題を解決するための手段】
【０００７】
上記目的を達成するために、本発明の請求項１に記載のビブラート検出方法は、コンピュータに、音声信号入力手段より入力された音声信号からピッチを抽出させるピッチ抽出ステップと、当該ピッチ抽出ステップを実行させて得られたピッチをピッチ記憶手段に順次記憶させるピッチ記憶ステップと、前記ピッチ記憶手段に記憶された複数のピッチを読み出し、読み出された複数のピッチにより構成される一定区間長のフレームに対して自己相関分析または相互相関分析を行うことで相関関数を算出させる音程相関関数算出ステップと、当該音程相関関数算出ステップを実行して得られた相関関数を音程相関関数記憶手段に記憶させる音程相関関数記憶ステップとを実行させ、前記音程相関関数記憶手段から読み出された相関関数の特性を用いて入力音声中のビブラート区間を検出させることを特徴とする。
【０００８】
また、本発明の請求項２に記載のビブラート検出方法は、コンピュータに、音声信号入力手段より入力された音声信号から音程変化量を抽出させる音程変化量抽出ステップと、当該音程変化量抽出ステップを実行させて得られた音程変化量を音程変化量記憶手段に順次記憶させる音程変化量記憶ステップと、前記音程変化量記憶手段より複数の音程変化量を読み出し、読み出された複数の音程変化量により構成される一定区間長のフレームに対して自己相関分析または相互相関分析を行うことで相関関数を算出させる音程相関関数算出ステップと、当該音程相関関数算出ステップを実行して得られた相関関数を音程相関関数記憶手段に記憶させる音程相関関数記憶ステップとを実行させ、前記音程相関関数記憶手段から読み出された相関関数の特性を用いて入力音声中のビブラート区間を検出させることを特徴とする。
【０００９】
また、本発明の請求項３に記載のビブラート検出方法は、請求項２に記載の発明の構成に加え、前記音程変化量抽出ステップとして、前記音声信号入力手段より入力された音声信号からピッチを抽出させるピッチ抽出ステップと、当該ピッチ抽出ステップを実行して得られたピッチをピッチ記憶手段に記憶させるピッチ記憶ステップを実行させ、前記ピッチ記憶手段から読み出された２つ以上のピッチの差分をとることにより音程変化量を算出させることを特徴とする。
【００１０】
また、本発明の請求項４に記載のビブラート検出方法は、請求項１乃至請求項３の何れかに記載のビブラート検出方法において、前記音程相関関数記憶手段より読み出された相関関数の特性として相関関数を構成する相関係数の一部（正位相の相関係数）と、当該相関係数に対する逆位相の相関係数を利用し、前記正位相の相関係数と前記逆位相の相関係数を用いてビブラート検出を行うことを特徴とする。
【００１１】
また、本発明の請求項５に記載のビブラート検出方法は、請求項４に記載のビブラート検出方法において、前記正位相の相関係数と前記逆位相の相関係数を合成した相関係数を用いてビブラート検出を行うことを特徴とする。
【００１２】
また、本発明の請求項６に記載のビブラート検出方法は、請求項１乃至請求項５の何れかに記載のビブラート検出方法において、前記音程相関関数記憶手段より読み出された相関関数を構成する相関係数の一部が一定しきい値を超えたときに、ビブラートと判定することを特徴とする。
【００１３】
また、本発明の請求項７に記載のビブラート検出方法は、請求項１乃至請求項６の何れかに記載のビブラート検出方法において、前記相関関数により算出される相関の強さをビブラートの美しさとして算出することを特徴とする。
【００１４】
また、本発明の請求項８に記載の歌唱者が歌唱訓練を行うことを補助する歌唱訓練補助をコンピュータに実行させる歌唱訓練プログラムは、音声信号入力手段より入力された音声信号からピッチを抽出するピッチ抽出ステップと、当該ピッチ抽出ステップを実行して得られたピッチをピッチ記憶手段に順次記憶するピッチ記憶ステップと、前記ピッチ記憶手段に記憶された複数のピッチを読み出し、読み出された複数のピッチにより構成される一定区間長のフレームに対して自己相関分析または相互相関分析を行うことで相関関数を算出する音程相関関数算出ステップと、当該音程相関関数算出ステップを実行して得られた相関関数を音程相関関数記憶手段に記憶する音程相関関数記憶ステップと、前記音程相関関数記憶手段より読み出された相関関数の特性を用いて入力音声中のビブラート情報を抽出するビブラート検出ステップと、当該ビブラート検出ステップを実行して得られたビブラート情報を表示手段に表示するビブラート表示ステップを備え、歌唱者の歌声から抽出したビブラート情報を確認できるようにしたことを特徴とする。
【００１５】
また、本発明の請求項９に記載の歌唱者が歌唱訓練を行うことを補助する歌唱訓練補助をコンピュータに実行させる歌唱訓練プログラムは、音声信号入力手段より入力された音声信号から音程変化量を抽出する音程変化量抽出ステップと、当該音程変化量抽出ステップを実行して得られた音程変化量を音程変化量記憶手段に順次記憶する音程変化量記憶ステップと、前記音程変化量記憶手段より複数の音程変化量を読み出し、読み出された複数の音程変化量により構成される一定区間長のフレームに対して自己相関分析または相互相関分析を行うことで相関関数を算出する音程相関関数算出ステップと、当該音程相関関数算出ステップを実行して得られた相関関数を音程相関関数記憶手段に記憶する音程相関関数記憶ステップと、前記音程相関関数記憶手段より読み出された相関関数の特性を用いて入力音声中のビブラート情報を抽出するビブラート検出ステップと、当該ビブラート検出ステップを実行して得られたビブラート情報を表示手段に表示するビブラート表示ステップを備え、歌唱者の歌声から抽出したビブラート情報を確認できるようにしたことを特徴とする。
【００１６】
また、請求項１０に記載の歌唱力評価機能を有するカラオケ装置は、音声信号入力手段より入力された音声信号からピッチを抽出するピッチ抽出手段と、当該ピッチ抽出手段により得られたピッチを順次記憶するピッチ記憶手段と、前記ピッチ記憶手段に記憶された複数のピッチを読み出し、読み出された複数のピッチにより構成される一定区間長のフレームに対して自己相関分析または相互相関分析を行うことで相関関数を算出する音程相関関数算出手段と、当該音程相関関数算出手段により得られた相関関数を記憶する音程相関関数記憶手段と、前記音程相関関数記憶手段より読み出された相関関数の特性を用いて入力音声中のビブラート区間を検出するビブラート検出手段とを備えることを特徴とする。
【００１７】
また、請求項１１に記載の歌唱力評価機能を有するカラオケ装置は、音声信号入力手段より入力された音声信号から音程変化量を抽出する音程変化量抽出手段と、当該音程変化量抽出手段により得られた音程変化量を音程変化量記憶手段に順次記憶する音程変化量記憶手段と、前記音程変化量記憶手段より複数の音程変化量を読み出し、読み出された複数の音程変化量により構成される一定区間長のフレームに対して自己相関分析または相互相関分析を行うことで相関関数を算出する音程相関関数算出手段と、当該音程相関関数算出手段により得られた相関関数を記憶する音程相関関数記憶手段と、前記音程相関関数記憶手段より読み出された相関関数の特性を用いて入力音声中のビブラート区間を検出するビブラート検出手段とを備えることを特徴とする。
【００１８】
また、請求項１２に記載の歌唱力評価機能を有するカラオケ装置は、請求項１０乃至請求項１１の何れかに記載のカラオケ装置において、前記音程相関関数記憶手段より読み出された相関関数の特性として相関関数を構成する相関係数の一部（正位相の相関係数）と、当該相関係数に対する逆位相の相関係数を利用し、前記正位相の相関係数と前記逆位相の相関係数を用いて入力音声中のビブラート区間を検出するビブラート検出手段とを備えることを特徴とする。
【００１９】
また、請求項１３に記載の歌唱者の歌唱訓練を補助する歌唱訓練補助機能を搭載したカラオケ装置は、音声信号入力手段より入力された音声信号からピッチを抽出するピッチ抽出手段と、当該ピッチ抽出手段により得られたピッチを順次記憶するピッチ記憶手段と、前記ピッチ記憶手段に記憶された複数のピッチを読み出し、読み出された複数のピッチにより構成される一定区間長のフレームに対して自己相関分析または相互相関分析を行うことで相関関数を算出する音程相関関数算出手段と、当該音程相関関数算出手段により得られた相関関数を記憶する音程相関関数記憶手段と、前記音程相関関数記憶手段より読み出された相関関数の特性を用いて入力音声中のビブラート区間を検出するビブラート検出手段と、当該ビブラート検出手段により得られたビブラート情報を表示手段に表示するビブラート表示制御手段を備え、歌唱者の歌声から抽出したビブラート情報を確認できるようにしたことを特徴とする。
【００２０】
また、請求項１４に記載の歌唱者の歌唱訓練を補助する歌唱訓練補助機能を搭載したカラオケ装置は、音声信号入力手段より入力された音声信号から音程変化量を抽出する音程変化量抽出手段と、当該音程変化量抽出手段により得られた音程変化量を音程変化量記憶手段に順次記憶する音程変化量記憶手段と、前記音程変化量記憶手段より複数の音程変化量を読み出し、読み出された複数の音程変化量により構成される一定区間長のフレームに対して自己相関分析または相互相関分析を行うことで相関関数を算出する音程相関関数算出手段と、当該音程相関関数算出手段により得られた相関関数を記憶する音程相関関数記憶手段と、前記音程相関関数記憶手段より読み出された相関関数の特性を用いて入力音声中のビブラート区間を検出するビブラート検出手段と、当該ビブラート検出手段により得られたビブラート情報を表示手段に表示するビブラート表示制御手段を備え、歌唱者の歌声から抽出したビブラート情報を確認できるようにしたことを特徴とする。
【発明の効果】
【００２１】
本発明の請求項１に記載のビブラート検出方法は、入力音声信号より抽出された複数のピッチにより構成されるフレームに対して、自己相関分析を行うことで高精度なビブラート検出を実現する。
【００２２】
また、本発明の請求項２に記載のビブラート検出方法は、入力音声信号より抽出された複数の音程変化量により構成されるフレームに対して、自己相関分析を行うことで高精度なビブラート検出を実現する。
【００２３】
また、本発明の請求項３に記載のビブラート検出方法は、請求項２に記載のビブラート検出方法における音程変化量抽出ステップとして、比較的軽い処理で算出できる音程の差分を採用した構成である。この構成のビブラート検出方法は、例えばハードウェア資源の制約がある歌唱力評価装置への搭載に有効である。
【００２４】
また、本発明の請求項４に記載のビブラート検出方法は、請求項１乃至請求項３の何れかに記載の発明の効果に加え、正位相の相関係数と逆位相の相関係数を用いることでさらに信頼性の高いビブラート検出を実現することができる。
【００２５】
また、本発明の請求項５に記載のビブラート検出方法は、請求項４に記載の発明の効果に加え、正位相の相関係数と逆位相の相関係数を合成することで相関係数から突発的なノイズを除去することができさらに外乱の影響に強い信頼性の高いビブラート検出を実現することができる。
【００２６】
また、本発明の請求項６に記載のビブラート検出方法は、請求項１乃至請求項５の何れかに記載のビブラート検出方法に加え、相関係数をしきい値と比較する簡単な回路構成でビブラート検出を行うことができる。
【００２７】
また、本発明の請求項７に記載のビブラート検出方法によれば、請求項１乃至請求項６の何れかに記載のビブラート検出方法の副産物として算出された相関関数の相関の強さをビブラートの美しさとして利用することができる。
【００２８】
また、本発明の請求項８に記載の歌唱訓練プログラムは、自己相関関数を用いた検出精度の高いビブラート検出方法を応用して、歌唱力の向上を目指す歌唱者がビブラート歌唱を練習できるように構成したコンピュータにより実行されるプログラムである。本発明により歌唱者は、聴覚が鍛えられたミュージシャンや音楽の先生にしか分からなかった「自分の歌声にビブラートがかかっているか？」、「そのビブラートはきれいかどうか？」などを視覚的に確認することができる。
【００２９】
また、本発明の請求項９に記載の歌唱訓練プログラムは、自己相関関数を用いた検出精度の高いビブラート検出方法を応用して、歌唱力の向上を目指す歌唱者がビブラート歌唱を練習できるように構成したコンピュータにより実行されるプログラムである。本発明により歌唱者は、聴覚が鍛えられたミュージシャンや音楽の先生にしか分からなかった「自分の歌声にビブラートがかかっているか？」、「そのビブラートはきれいかどうか？」などを視覚的に確認することができる。
【００３０】
また、本発明の請求項１０に記載のカラオケ装置は、入力音声信号より抽出された複数のピッチに対して自己相関分析を行う検出精度の高いビブラート検出手段を備える。カラオケ装置に搭載される歌唱力評価機能は、高精度なビブラート検出手段を備えることで、ビブラート歌唱に対応した高精度な歌唱力評価が可能となる。
【００３１】
また、本発明の請求項１１に記載のカラオケ装置は、入力音声信号より抽出された複数の時系列音程変化量に対して自己相関分析を行う検出精度の高いビブラート検出手段を備える。カラオケ装置に搭載される歌唱力評価機能は、高精度なビブラート検出手段を備えることで、ビブラート歌唱に対応した高精度な歌唱力評価が可能となる。
【００３２】
また、本発明の請求項１２に記載の歌唱力評価機能を有するカラオケ装置は、請求項１１に記載の発明の構成に加え、正位相の相関係数と逆位相の相関係数を用いたさらに信頼性の高いビブラート検出手段を搭載した構成である。この構成のカラオケ装置は、特にノイズや外乱の多い環境に設置される場合でも安定して高精度なビブラート検出ができ、ビブラート歌唱に対応した高精度で信頼性の高い歌唱力評価が可能となる。
【００３３】
また、本発明の請求項１３に記載の発明は、自己相関関数を用いた検出精度の高いビブラート検出手段を応用して、歌唱力の向上を目指す歌唱者がビブラート歌唱を練習できる歌唱訓練補助機能を搭載したカラオケ装置である。本発明により歌唱者は、聴覚が鍛えられたミュージシャンや音楽の先生にしか分からなかった「自分の歌声にビブラートがかかっているか？」、「そのビブラートはきれいかどうか？」などを視覚的に確認することができる。
【００３４】
また、本発明の請求項１４に記載の発明は、自己相関関数を用いた検出精度の高いビブラート検出手段を応用して、歌唱力の向上を目指す歌唱者がビブラート歌唱を練習できる歌唱訓練補助機能を搭載したカラオケ装置である。本発明により歌唱者は、聴覚が鍛えられたミュージシャンや音楽の先生にしか分からなかった「自分の歌声にビブラートがかかっているか？」、「そのビブラートはきれいかどうか？」などを視覚的に確認することができる。
【発明を実施するための最良の形態】
【００３５】
次に本発明を適用した実施の形態について図面を参照して詳しく説明する。まず本発明の第一実施形態として、歌唱力評価装置を搭載したカラオケ装置について説明する。図１は第一実施形態におけるカラオケ採点装置の外観である。図１に示すように、カラオケ装置１にはマイク２、ディスプレイ３、ＡＭＰ４が接続されており、ＡＭＰ４にはスピーカ５が接続されている。
【００３６】
図２は、カラオケ装置１の内部構造について説明したブロック図である。図２に示すように、カラオケ装置はＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１９を中心にした電子回路で構成される。ＣＰＵ１９はＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）１８、ビデオコントローラ６、ミキサ７、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）９、採点処理部１２に接続され、各機器の動作を制御する。マイク２は、カラオケ装置１内部のＡ／Ｄ変換部１７に接続される。Ａ／Ｄ変換部１７は、ＲＡＭ９とミキサ７に接続される。ミキサ７は演奏装置８に接続されており、ミキサ７の出力を演奏装置８を経由して外部のＡＭＰ４に伝える。ＲＡＭ９には、Ａ／Ｄ変換部１７、採点処理部１２、ＣＰＵ１９が接続されている。ＲＡＭ９にはＡ／Ｄ変換部１７によりＡ／Ｄ変換された音声信号、採点処理部１２により算出されたカラオケ採点結果などが記録される。
【００３７】
採点処理部１２は、ピッチ抽出部１３、ビブラート検出部１４、得点算出部１５から構成され、ピッチ抽出部１３とビブラート検出部１４の出力を基に、得点算出部１５で得点算出を行う構造になっている。
【００３８】
ＨＤＤ１８には、多数のカラオケ曲の背景映像、演奏データ、歌詞テロップ、その他の情報が蓄えられている。操作部１６は、パネルスイッチや、リモコン受信回路から成り、ユーザによる操作信号をＣＰＵ１９に伝える。歌い手が多数のカラオケ曲から特定の曲を選択し操作部１６より入力すると、ＣＰＵ１９は、その信号を受けてＨＤＤ１８より該当するカラオケ曲の演奏データを読み出し、ミキサに出力する。
【００３９】
一方、マイク２より入力された歌唱者の歌声は、Ａ／Ｄ変換部１７でサンプリングされ、ミキサ７に送られる。ミキサ７はマイク２から入力された歌唱者の歌声とＨＤＤ１８より読み出された演奏データを合成し、演奏装置８に出力する。合成された演奏データはＡＭＰ４を経由してスピーカ５から出力される。同時に、ＣＰＵ１９は背景映像および歌詞テロップをビデオコントローラ６に送る。歌詞テロップは、演奏と同期してディスプレイ３に表示され、現在演奏されている歌詞テロップの色が変化していく。歌唱者は歌詞テロップを見ながら伴奏に従って歌を歌う。この一連の動作制御はＣＰＵ１９が担当している。なお、ビデオコントローラ６が請求項に言う「表示制御手段」及び「ビブラート表示制御手段」に相当し、ディスプレイ３が請求項に言う「表示手段」に相当する。
【００４０】
次に、採点処理部１２の動作について説明する。カラオケ装置に付属するカラオケ採点機能を使用するかどうかは歌唱者の意思に委ねられる。カラオケ採点を希望する歌唱者は操作部１６を操作して、採点機能をＯＮにする。歌唱者のカラオケ歌唱が始まると、ＣＰＵ１９は採点処理部１２に採点開始指示を与える。採点開始指示を与えられた採点処理部１２はカラオケ採点を開始する。マイク２より入力された歌唱者の歌声は、Ａ／Ｄ変換部１７によりサンプリングされ、ＤＭＡ（ＤｉｒｅｃｔＭｅｍｏｒｙＡｃｃｅｓｓ）によりＲＡＭ９に音声信号として記録される。ピッチ抽出部１３はＲＡＭ９から音声信号を読み出し、ピッチを算出する。同時に、ビブラート検出部１４はＲＡＭ９から音声信号を読み出し、ビブラートを検出する。得点算出部１５はピッチ抽出部１３より検出されたピッチ情報と、ビブラート検出部１４により検出されたビブラート情報に基づき、得点を算出する。算出された得点は、採点結果としてＲＡＭ９に書き込まれる。なお、このＡ／Ｄ変換部１７が請求項に言う音声信号入力手段に相当する。
【００４１】
演奏終了後、ＣＰＵ１９が採点終了指示を採点処理部１２に与えると、カラオケ採点処理は終了する。ＣＰＵ１９はＲＡＭ９から読み出した採点結果をビデオコントローラ６に送る。採点結果はディスプレイ３に表示され、歌唱者は歌の採点結果を確認し一喜一憂する。なお、本実施形態では演奏終了後に得点をディスプレイ３に表示しているが、これに限らず歌唱者が歌い始めてから現時点までの中間得点を順次ディスプレイに表示していき歌唱者が歌いながら得点を確認できる構造にしても良い。
【００４２】
第一実施形態では、採点処理部１２は、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）と採点処理を行う採点専用ファームウェアによって構成される。通常のカラオケ採点装置ではＤＳＰはピッチ算出のみに用いられ、採点処理はＣＰＵが行う構成が多かったが、本実施形態では採点に関わる殆ど全ての処理をＤＳＰ（採点処理部）が担当する。この構成により、採点回路設計の自由度が格段に向上すると共に非常に詳細な分析が可能となる。
【００４３】
次に、ＲＡＭ９に設定される記憶領域について、図３を参照して説明する。音声信号記憶メモリ９Ａは、Ａ／Ｄ変換部１７によりＡ／Ｄ変換された音声信号を記憶する領域である。自己相関関数記憶メモリ９Ｂは、採点処理部１２内部にあるピッチ抽出部１３で算出される自己相関関数を記憶する領域である。合成自己相関関数記憶メモリ９Ｃは、ピッチ抽出部１３で算出される合成自己相関関数を記憶する領域である。有声・無声判定結果記憶メモリ９Ｄは、ＲＡＭ９より読み出された切り出し音声フレームが有声音か？無声音か？判定した結果を記憶する領域である。ピッチ記憶メモリ９Ｅは、ピッチ抽出部１３で算出されるピッチを記憶する領域である。ピッチ変化量Ｉ記憶メモリ９Ｆは、ビブラート検出部１４により算出されたピッチ変化量Ｉを記憶する領域である。ピッチ変化量ＩＩ記憶メモリ９Ｇは、ビブラート検出部１４により算出されたピッチ変化量ＩＩを記憶する領域である。ビブラート情報記憶メモリ９Ｈは、ビブラート検出部１４により算出されたビブラート情報を記憶する領域である。瞬時得点記憶メモリ９Ｉは、得点算出部１５により算出された瞬時得点を記憶する領域である。累積得点記憶メモリ９Ｊは、得点算出部１５により算出された累積得点を記憶する領域である。ビブラート比率記憶メモリ９Ｋは、採点におけるビブラートの寄与度を記憶する領域である。ワークメモリ９Ｗは、採点処理部が、採点処理の一時記憶などに使用する領域である。なお、ピッチ記憶メモリ９Ｅが請求項に言う「ピッチ記憶手段」に相当し、ビブラート情報記憶メモリ９Ｈが請求項にいう「ビブラート記憶手段」に相当する。また、ピッチ変化量Ｉ記憶メモリ９Ｆ及びピッチ変化量ＩＩ記憶メモリ９Ｇは請求項にいう「音程変化量記憶手段」に相当する。また、ワークメモリ９Ｗが請求項に言う「音程相関関数記憶手段」に相当する。
【００４４】
図４は、採点処理部１２で行われる採点動作手順について説明したフローチャート、図５は採点処理部１２のブロック図である。採点処理部１２の動作について、図３、図４、図５を参照して説明する。採点処理部１２は、ピッチ抽出部１３、ビブラート検出部１４、得点算出部１５より構成される。
【００４５】
まず、ピッチ抽出部１３の動作について図４に示すフローチャートを参照して説明する。自己相関関数算出モジュール１３１は、ＲＡＭ９の音声信号記憶メモリ９Ａより読み出された音声信号を基に自己相関関数を算出し、ＲＡＭ９の自己相関関数記憶メモリ９Ｂに書き込む（Ｓ１０）。合成自己相関関数算出モジュール１３２は、ＲＡＭ９の自己相関関数記憶メモリ９Ｂから読み出された自己相関関数を基に合成自己相関関数を算出し、ＲＡＭ９の合成自己相関関数記憶メモリ９Ｃに書き込む（Ｓ１１）。なお、合成自己相関関数の詳細については後述する。有声・無声判定モジュール１３３は、ＲＡＭ９の自己相関関数記憶メモリ９Ｂから読み出された自己相関関数を基に「入力音声が有声音か無声音か？」の判定を行い、判定結果をＲＡＭ９の有声・無声判定結果記憶領域９Ｄに書き込む（Ｓ１２）。ピッチ抽出モジュール１３４は、ＲＡＭ９の自己相関関数記憶メモリ９ＢとＲＡＭ９の合成自己相関関数記憶メモリ９Ｃから、自己相関関数と合成自己相関関数を読み出し、これらを基にピッチ抽出を行い、検出されたピッチをＲＡＭ９のピッチ記憶メモリ９Ｅに書き込む（Ｓ１３）。上述Ｓ１０〜Ｓ１３までの処理をピッチ抽出部１３が担当する。なお、上記Ｓ１３の処理が請求項に言う「ピッチ抽出ステップ」、「ピッチ記憶ステップ」に相当し、Ｓ１３の処理を実行する採点処理部（ＤＳＰ）１２が「ピッチ抽出手段」に相当する。
【００４６】
次に、ビブラート検出部１４の処理について説明する。ピッチ変化量Ｉ算出モジュール１４１は、ＲＡＭ９のピッチ記憶メモリ９Ｅより読み出されたピッチを基にピッチ変化量Ｉを算出しＲＡＭ９のピッチ変化量Ｉ記憶メモリ９Ｆに書き込む（Ｓ１４）。ピッチ変化量ＩＩ算出モジュール１４２は、ＲＡＭ９の合成自己相関関数記憶メモリ９Ｃより読み出された合成自己相関関数を基にピッチ変化量ＩＩを算出し、ＲＡＭ９のピッチ変化量ＩＩ記憶メモリ９Ｇに書き込む（Ｓ１５）。ビブラート検出モジュール１４３は、ＲＡＭ９のピッチ変化量ＩＩ記憶メモリ９Ｇより読み出されたピッチ変化量ＩＩを基にビブラート検出を行い、ビブラート検出結果をＲＡＭ９のビブラート情報記憶メモリに書き込む（Ｓ１６）。ビブラート検出モジュールの動作の詳細については後述する。上述Ｓ１４〜Ｓ１６までの処理をビブラート検出部１４が担当する。なお、上記Ｓ１４及び上記Ｓ１５の処理が請求項に言う「音程変化量抽出ステップ」及び「音程変化量記憶ステップ」に相当し、Ｓ１４及びＳ１５の処理を実行する採点処理部（ＤＳＰ）１２が「音程変化量抽出手段」に相当する。また、上記Ｓ１６の処理が請求項に言う「ビブラート検出ステップ」及び「ビブラート記憶ステップ」に相当し、Ｓ１６の処理を実行する採点処理部（ＤＳＰ）１２が「ビブラート検出手段」に相当する。
【００４７】
得点算出部１５は、ＲＡＭ９の有声・無声判定結果記憶メモリ９Ｄ、ピッチ記憶メモリ９Ｅ、ピッチ変化量Ｉ記憶メモリ９Ｆ、ピッチ変化量ＩＩ記憶メモリ９Ｇ、ビブラート情報記憶メモリ９Ｈより、それぞれ有声・無声判定結果、ピッチ、ピッチ変化量Ｉ、ピッチ変化量ＩＩ、ビブラート検出結果を読み出し、これらを基に得点算出を行う（Ｓ１７）。処理Ｓ１７により得られた得点算出結果は、ＲＡＭ９の瞬時得点記憶メモリ９Ｉ、累積得点記憶メモリ９Ｊに書き込まれる。これら一連の採点処理は、ＣＰＵ１９から採点終了指示を受ける（Ｓ１８）ことで終了する。
【００４８】
以下、ピッチ抽出部１３、ビブラート検出部１４、得点算出部１５の動作とその物理的意味について詳細に説明する。ピッチ抽出部１３では、低音のピッチ抽出に有利な自己相関関数法を歌唱ピッチ抽出用に改良して用いる。
【００４９】
図６は自己相関関数によるピッチ抽出法について説明したものである。第一実施形態では、マイク２より入力された歌唱音声は、Ａ／Ｄ変換器１７によりサンプリング周波数４８［ｋＨｚ］でサンプリングされ、ＲＡＭ９の音声信号記憶メモリ９Ａに書き込まれる。採点処理部１２は、ＲＡＭ９の音声信号記憶メモリ９Ａから、１回の分析につき１４４０［ｐｏｉｎｔ］の分析フレームを切り出し分析を行う。自己相関関数法では、『分析フレーム：Ｆ_０＝｛ｘ（１），ｘ（２），…，ｘ（Ｎ）｝』と『分析フレームをｉ［ｐｏｉｎｔ］ずらしたもの：Ｆ_ｉ＝｛ｘ（ｉ），ｘ（１＋ｉ），…，ｘ（Ｎ＋ｉ）｝』の相関を求める。相関値Ｒ（０，ｉ）を計算する式の一例を数式１に示す。
【数１】

【００５０】
自己相関関数法では、Ｆ_０とＦ_ｉのずれ量ｉを１〜Ｎ［ｐｏｉｎｔ］まで変化させ、相関値（類似度）Ｒ（０，ｉ）を順次算出していく。このようにして算出された自己相関関数Ｒ（０，ｉ）は、メモリ９の自己相関関数記憶メモリ９Ｂに書き込まれる。
【００５１】
通常の自己相関関数を用いたピッチ抽出法では、ピッチ（基本周波数）ｆは、相関値Ｒ（０，ｉ）を利用して数式２により算出される。数式２は、ずれ量ｉを順次変化させていったときの相関値Ｒ（０，ｉ）が最大になるずれ量ａｒｇｍａｘ_ｉ｛Ｒ（０，ｉ）｝を音声信号の基本周期として検出し、サンプリング周波数４８０００［Ｈｚ］を基本周期で割ったものをピッチとして算出するという意味である。
【数２】

【００５２】
表１（ａ）〜表１（ｃ）は自己相関関数法において、基本周期ｉのときに計算されるピッチｆ_ｉを示したものである。表１（ａ）〜表１（ｃ）が示すように、自己相関関数法は、低音域の音程分解能（周波数分解能）が細かくなり高音域の音程分解能が粗くなる特徴をもつ。
【表１】

【００５３】
図７（ａ）は男性歌唱者が発声したＡ４（４４０［Ｈｚ］）の歌声に自己相関分析を行ったものである。自己相関関数は、周波数４４０［Ｈｚ］付近で最大値をとっている。一方、２２０［Ｈｚ］付近，１１０［Ｈｚ］付近，４４０［Ｈｚ］付近でも自己相関関数は極大値をとっている。これは、楽音（歌声）には"倍音"が存在するためである。例えば、Ａ２（１１０Ｈｚ）で発声した歌声は、Ａ３（２２０Ｈｚ）の倍音やＡ４（４４０Ｈｚ）の倍音を多く含む。
【００５４】
会話認識用途のピッチ抽出では、４４０［Ｈｚ］として検出すべきものを２２０［Ｈｚ］／８８０［Ｈｚ］と誤って検出する半ピッチ／倍ピッチ誤りが問題となるが、カラオケ採点用途のピッチ抽出では、半ピッチ／倍ピッチ誤りは大した問題ではないと考える。以下その理由について説明する。４４０［Ｈｚ］を音階で表すと"Ａ４"である。２２０［Ｈｚ］はＡ４より１オクターブ低い"Ａ３"、８８０［Ｈｚ］はＡ４より１オクターブ高い"Ａ５"で、何れもＡ（ラ）の音である。カラオケでは、女性が男性歌手の歌を１オクターブ高い音程で歌うことがある。さらに、ガイドメロディーのピッチは歌唱者に聞き取り易くするために原曲の１オクターブ上に設定してあることが多い。歌唱者のピッチとガイドメロディは１オクターブ異なることもあるし、同じ音程となることもある。従って、カラオケ採点にはオクターブ情報は不要である。歌唱者が発声した音程が"Ａ４（４４０［Ｈｚ］）なのか？"，"Ａ３（２２０［Ｈｚ］）なのか？"は問題では無く、音程がＡであることが分かれば十分である。
【００５５】
次に自己相関関数の音程分解能を向上させる方法について図７を参照して説明する。自己相関関数を用いて分析された約４オクターブの帯域を、〔１〕７０〜１５０［Ｈｚ］帯域、〔２〕１４０〜３００［Ｈｚ］帯域、〔３〕２８０〜６００［Ｈｚ］帯域、〔４〕５６０〜１２００［Ｈｚ］帯域の４帯域（それぞれ１オクターブ強の帯域）に分割する（図７（ａ）参照）。次に、〔１〕，〔２〕，〔３〕，〔４〕の各帯域の自己相関関数を加算・合成する（図７（ｂ）参照）。図７（ｂ）の一部を拡大したものが図７（ｃ）である。〔１〕の帯域では自己相関関数のポイント数が多く、〔４〕の範囲ではポイント数が少ない。〔２〕〜〔４〕に、線形補間を行うことで、ポイント数の格差を無くしてから合成する。この方法は、高音域（例えば〔４〕）のポイント数を、低音域（〔１〕）のポイント数で補うことになるため、高音域でピッチ抽出時の音程分解能が粗くなる問題を解消できる。さらに、自己相関関数を"補強"するため、突発的なノイズに強いピッチ抽出が可能となる。この合成した自己相関関数（以下、合成自己相関関数と記す）が最大値（または、極大値・極小値・極値）をとる周波数（音程）をピッチ周波数ｆとして検出する。なお、この合成処理によって生成された合成自己相関関数は１オクターブ強の周波数帯域を持つスペクトルとなる。従って、本実施形態における合成自己相関関数からは１オクターブ強の帯域に整理されたピッチが抽出される。
【００５６】
図７（ｂ）に示す合成自己相関関数は音階毎の音声パワーの強さを示したものと考えることができる。図７（ｂ）の例では、パワーは"Ａ"と"Ｇ＃"の中間で最大値をとり、歌唱者は『Ａ（ラ）より微妙に低い音程』で発声していることが分かる。合成自己相関関数を用いることで、音程分解能の高い歌唱力評価用のピッチ抽出を実現できる。
【００５７】
しかし、前述の合成自己相関関数が最大値（または、極大値・極小値・極値）をとる周波数（音程）をピッチとする方法では、フォルマント（声道の共振特性）の影響によりピッチの誤検出が起きる場合がある。この現象について説明する。図８（ａ）は男性低音系歌唱者の歌声から自己相関関数を算出した例である。この音程はＡ２＃で、自己相関関数法により正しくピッチを求めることができる。一方、図８（ｂ）は合成自己相関関数と〔１〕７０〜１５０［Ｈｚ］帯域の自己相関関数を重ね書きしたものである。自己相関関数を合成することにより、フォルマント（声道の共振特性）の影響を受け、誤ったピッチ（Ｄ）を検出していることが分かる。
【００５８】
声が低い場合や声に厚みがある（倍音が多い）場合はフォルマントの影響によりピッチの誤検出が起き易くなる。図８（ｂ）には、この問題を回避する方法についても説明している。（ａ）自己相関関数からピッチｆを求めた後、（ｂ）合成自己相関関数が最大となる周波数をｆ±Δの範囲で最探索し、ピッチｆ’として求め直す『２段探索』を用いてピッチ抽出する。２段探索を用いることで、フォルマントの影響によるピッチ誤検出を回避できる。第一実施形態では、このようにして計算されたピッチｆがＲＡＭ９のピッチ記憶メモリ９Ｅに書き込まれる。同様に合成自己相関関数はＲＡＭ９の合成自己相関関数記憶メモリ９Ｃに書き込まれる。
【００５９】
図９には、合成自己相関関数をピッチ抽出に用いたときの音程分解能を示す。比較のため、自己相関関数法と高速フーリエ変換法の音程分解能も示す。合成自己相関関数は、（ｙ）半音階の１／１０の音程分解能境界よりさらに細かい音程分解能を持ち、半音階を１８〜３７等分することができる。従来のピッチ抽出法との検出精度の違いを例を用いて説明する。例えば、高速フーリエ変換法では、歌唱者が１００［Ｈｚ］付近の低い音程で歌った場合、音程分解能は３００［ｃｅｎｔ］程度となる。１００［ｃｅｎｔ］は半音の差で、例えば『ド』と『ド＃』の違いである。３００［ｃｅｎｔ］は半音階の３倍である。つまり、高速フーリエ変換によるピッチ抽出では、低音系男性歌唱者が『ド』で歌っているのか『ド＃』で歌っているのかさえ判別できない。これに対し、本実施形態で示す合成自己相関関数は周波数帯域に関わらず、半音階を最低１８分割して分析することが可能である。『微妙に高いド＃』とか『微妙に低いド＃』を表現できる。
【００６０】
次に、歌唱者の歌声が有声音か無声音か判別する方法について簡単に説明する。人間の声には有声音と無声音があるが、一般的に無声音からはピッチを算出することはできないことが知られている。このため、ピッチを算出する前に有声音・無声音判定を行う必要がある。有声・無声は、数式１で使用する自己相関関数の比Ｒ（０，ｉ_ｍａｘ）／Ｒ（０，０）を用いて簡単に判定できる。Ｒ（０，ｉ_ｍａｘ）／Ｒ（０，０）が一定しきい値より大きければ有声音、一定しきい値より小さければ無声音と判定する。本実施形態では、無声音はピッチの信頼度が低いため歌唱力評価には用いない。また、有声・無声判定法としては、自己相関関数の比に限らずゼロクロス法などの他の公知な有声・無声判定技術を用いることもできる。
【００６１】
なお、本実施形態では、自己相関関数で分析する周波数帯域をカラオケ採点で必要と考えられる４オクターブ（７０［Ｈｚ］〜１２００［Ｈｚ］）の範囲とし、〔１〕７０〜１５０［Ｈｚ］帯域、〔２〕１４０〜３００［Ｈｚ］帯域、〔３〕２８０〜６００［Ｈｚ］帯域、〔４〕５６０〜１２００［Ｈｚ］帯域の４帯域（それぞれ１オクターブ強の帯域）に分割しているが、これに限らず、分析帯域は必要に応じて自由に変更することができる。
【００６２】
例えば、世界屈指のアカペラグループのベースヴォーカルはＡ１（５５Ｈｚ）を発声することができ、高音域を得意とする一部の女性ヴォーカルはＡ６（１７６０Ｈｚ）付近の高音を含む旋律を歌うという事実もある。これらを考慮に入れて、５０［Ｈｚ］〜１７６０［Ｈｚ］の帯域を分析する特別仕様の歌唱力評価システムを作ることもできる。この場合、例えば人間の発声する音程を５０［Ｈｚ］〜１７００［Ｈｚ］の約５オクターブとして各分析帯域を、〔１〕５０〜１２０［Ｈｚ］帯域、〔２〕１００〜２４０［Ｈｚ］帯域、〔３〕２００〜４８０［Ｈｚ］帯域、〔４〕４００〜９６０［Ｈｚ］帯域、〔５〕８００〜１９２０［Ｈｚ］帯域の５帯域に分割する。この方法では分析帯域を広げられるだけではなく、音程分解能が飛躍的に向上する利点がある。図１０は、分析帯域を５０［Ｈｚ］〜１７６０［Ｈｚ］としたときの音程分解能と、分析帯域を７０［Ｈｚ］〜１２００［Ｈｚ］としたときの音程分解能を比較したものを示す。最低分析周波数を７０［Ｈｚ］から５０［Ｈｚ］まで下げると音程分解能は２．５［ｃｅｎｔ］から１．８［ｃｅｎｔ］に改善され、より細かい分析ができるようになる。
【００６３】
また、本実施形態ではサンプリング周波数４８０００［Ｈｚ］のＡ／Ｄ変換器１７を使用した例を示しているが、例えばサンプリング周波数を９６０００［Ｈｚ］に変更しても音程分解能を向上させることができる。例えば、プロ志向の歌唱者の歌声を分析する場合には、最低分析周波数を下げる、サンプリング周波数を向上させるなどの調整をすることが好ましい。ただし、最低分析周波数を下げたり、サンプリング周波数を上げたりすると分析時間が長くかかることから、これらのパラメータはハードウェアの性能と、分析する歌唱者のレベルを考慮に入れて適宜決定する必要がある。
【００６４】
なお、本実施形態では数式１に示した自己相関関数を用いてピッチ抽出を行っているが、これに限らず、例えば数式１を数式３に置き換えることも可能である。数式３はユークリッド距離と呼ばれる尺度である。数式１を用いた実施形態では、「相関値Ｒ（０，ｉ）が最大値（または極大値）をとるずれ量」を分析フレームの基本周期と判定しピッチ抽出を行っていたが、これを数式３に置き換えた場合は「ユークリッド距離Ｒ（０，ｉ）が最小値（または極小値）をとるずれ量」を分析フレームの基本周期と判定しピッチ抽出を行うことができる。ここでいう相関関数は、数式１に限らず「切り出しフレーム同士のずらし量を変化させて２フレームの相関（類似度）または距離（非類似度）を調べる関数」のことである。
【数３】

【００６５】
また、本ピッチ抽出法の実施形態では、周波数帯域毎に分割した自己相関関数の重ね合わせにより音程分解能の細かいピッチ抽出法を実現したが、これは例えば隣り合うフレーム同士の相関を算出する相互相関関数の重ね合わせでも実現できることは言うまでもない。
【００６６】
これまで説明してきた、合成自己相関によるピッチ抽出手順の全貌を図１１に示す。採点処理部１２は、ＲＡＭ９の音声信号記憶メモリ９Ａより音声信号を読み出す（図１１（ａ）参照）。次に、読み出した音声信号から約３０［ｍｓ］のフレームを切り出す（図１１（ｂ）参照）。図１１（ｃ）が切り出した音声信号フレームから算出された自己相関関数である。図１１（ｄ）では、自己相関関数を４つの帯域に分割しこれらを重ね合わせることで合成自己相関関数を求めている。図１１（ｅ）は合成自己相関関数の時系列データを９０度回転させて（図１１（ｆ）参照）音程毎のパワーの強さを色の濃さとして表現したものである。これは一種のソナグラムで音程毎のパワーの強さが時間の経過と共に変化していく様子を観察するのに適している。図１１（ｇ）は合成自己相関関数から求めたピッチ周波数（音階）である。本手法により、音程分解能が非常に細かい歌唱力評価用のピッチ抽出が実現する。
【００６７】
次に、ピッチ変化量算出方法について図１２を参照して説明する。ピッチ抽出部１３はピッチと合成自己相関関数を算出し、結果をＲＡＭ９に書き込む。ピッチ変化量は、ピッチの差分として求める方法と合成自己相関関数のずらしマッチングを用いて求める方法の２通りがある。ピッチ変化量Ｉ算出モジュール１４１では、ＲＡＭ９のピッチ記憶メモリ９Ｅより読み出されたピッチを２フレーム分バッファリングし、現在のピッチｆ（ｔ＋１）と一分析フレーム過去のピッチｆ（ｔ）を用いて、数式４によりピッチ変化量Ｉ（Δｆ_ｐ）を算出し、ピッチ変化量Ｉ記憶メモリ９Ｆに書き込む。
【数４】

【００６８】
しかし、ピッチｆ（ｔ）（スカラー）は突発的なノイズの影響を受け易いため、数式４で算出されたピッチ変化量Ｉ（Δｆ_ｐ）は外乱の多い実環境に対応できない可能性がある。より信頼性の高いピッチ変化量算出法として、合成自己相関パターン（ベクトル）のずらしマッチングを用いたピッチ変化量ＩＩ算出も算出する。ピッチ変化量ＩＩ算出モジュール１４２は、ＲＡＭ９の合成自己相関関数記憶メモリ９Ｃより読み出された合成自己相関関数を２フレーム分バッファリングし、現在の合成自己相関関数と一分析フレーム過去の合成自己相関関数を用いてピッチ変化量ＩＩ（Δｆ_ｓ）を算出し、ピッチ変化量ＩＩ記憶メモリ９Ｇに書き込む。
【００６９】
合成自己相関関数のずらしマッチングによるピッチ変化量算出法について具体例を示したのが図１３である。図１３（ａ），（ｂ）では、歌声波形から合成自己相関関数を算出している。
【００７０】
図１３（ｃ）では、合成自己相関関数の隣り合う２フレームｃｏｒ（ｔ，ｉ），ｃｏｒ（ｔ＋１，ｉ）を切り出し、ずらしマッチングを行っている。ずらしマッチングでは、類似度が最大となるずれ量Δｔ_ｓを２フレーム間のピッチ（音程）変化量として数式５により求める。
【数５】

数式６により、ずれ量Δｔ_ｓをピッチ変化量Δｆ_ｓに変換する。
【数６】

【００７１】
図１３（ｄ）は合成自己相関関数のずらしマッチングにより求めたずれ量Δｔ_ｓである。音程変化の算出に、合成自己相関関数ｃｏｒ（ｔ，ｉ）のずらしマッチングを用いることで突発的なノイズに影響され難い信頼性の高いピッチ変化量Δｆ_ｓの算出が可能となる。
【００７２】
図１４は、数式４により算出した（比較的信頼性の低い）ピッチ変化量Ｉである。図１４と図１３（ｄ）はほぼ同じ変化をしているが、図１４では突発的に変化量の大きい部分（信頼性の低い部分）が出てくることがある。信頼性の高いピッチ変化量ＩＩ（Δｆ_ｓ）と通常のピッチ変化量Ｉ（Δｆ_ｐ＝ｆ（ｔ）−ｆ（ｔ＋１））の差Ｄｆを用いてピッチｆ（ｔ），ｆ（ｔ＋１）の信頼性を逆算することもできる（数式７参照）。
【数７】

例えばＤｆが一定しきい値より大きいとき、ピッチ変化量Ｉ（Δｆ_ｐ）を算出する基となった信頼性の低いピッチｆ（ｔ），ｆ（ｔ＋１）を採点対象から除外するという使い方ができる。
【００７３】
なお、数式５ではずらしマッチングの評価関数としてユークリッド距離を用いているが、これに限らず、評価関数は２つのベクトルの類似度または非類似度（距離）を表す他の関数で置き換えることができる。例えば数式５のユークリッド距離の式を相互相関関数におきかえても良い。
【００７４】
次に、ビブラート検出モジュール１４３の動作について図１５と図１６を参照して説明する。図１５は、第一実施形態におけるビブラート検出手順を示すフローチャート、図１６は第一実施形態におけるビブラート検出手順を示すブロック図である。ビブラート検出モジュール１４３は、ピッチ変化量Δｆを入力として、ビブラート判定結果を出力する。入力に用いるピッチ変化量Δｆは、ピッチ変化量Ｉ（Δｆ_ｐ）としても良いし、ピッチ変化量ＩＩ（Δｆ_ｓ）としても良い。例えば、よりビブラート検出の信頼性を高めたい場合はピッチ変化量ＩＩを用い、演算速度を優先したい場合はピッチ変化量Ｉを用いることもできる。
【００７５】
ビブラート判定を行うためには、複数フレーム分のピッチ変化量Δｆが必要になる。例えば、フレーム周期が１０［ｍｓ］の場合、ピッチ変化量は１０［ｍｓ］毎に１つ算出される。人間の歌声のビブラート周期は１４０［ｍｓ］〜３００［ｍｓ］であることから、ビブラート算出には合計５００［ｍｓ］分程度のピッチ変化量が必要である。周期性算出モジュール１４３Ａは、ＲＡＭ９のピッチ変化量ＩＩ記憶メモリ９Ｇ（またはピッチ変化量Ｉ記憶メモリ９Ｆ）より読み出されたピッチ変化量信号５０フレーム分（５００［ｍｓ］）のピッチ変化量Δｆをリングバッファに蓄えておき、蓄えられた音程変化量Δｆから、正位相の相関係数、逆位相の相関係数、分散を算出しＲＡＭ９のワークメモリ９Ｗに記録する（Ｓ１６１、Ｓ１６２、Ｓ１６３）。なお、上記Ｓ１６１の処理及びＳ１６２の処理が請求項に言う「音程相関関数算出ステップ」及び「音程相関関数記憶ステップ」に相当し、Ｓ１６１及びＳ１６２を実行する採点処理部（ＤＳＰ）１２が「音程相関関数算出手段」に相当する。
【００７６】
正位相・逆位相合成モジュール１４３Ｂは、ワークメモリ９Ｗより正位相の相関係数と逆位相の相関係数を読み出し、これらを合成した相関係数をワークメモリ９Ｗに書き込む（Ｓ１６４）。ビブラート尺度算出モジュール１４３Ｃは、正位相・逆位相合成した相関係数と分散をワークメモリ９Ｗから読み出し、正位相・逆位相合成した相関係数と分散からビブラート判定結果とビブラートの美しさを算出し、ＲＡＭ９のビブラート情報記憶メモリ９Ｋに書き込む（Ｓ１６５）。
【００７７】
次に、ピッチ変化量からビブラートを検出する手段について実データを用いて詳細に説明する。図１７は、サンプリング周波数４８０００［Ｈｚ］で標本化された歌声波形である。図１７に示す歌声波形からピッチ周波数を算出したものが図１８である。この歌声波形にはピッチ周波数が正弦波状に変化しているビブラート区間と、それ以外の区間が存在する。図１８のピッチの差分をとったものが図１９に示す音程変化波形である。以下、図１９に示すビブラートなし区間Ａとビブラートあり区間Ｂを使ってビブラート検出の考え方を説明する。
【００７８】
図２０はビブラートがかかっていない区間Ａの切り出し波形とその自己相関関数について示したものである。自己相関関数は信号の周期性を調べるのに適している関数で、例えば次式で算出される。
【数８】

図２０の例で説明すると、区間Ａの切り出し波形ｘ（ｔ_ｎ）とＡの切り出し波形をτずらしたものｘ（ｔ_ｎ＋τ）の積和をとったものが自己相関関数ｃ（τ）である。区間Ａはビブラート区間ではなく周期性が弱いため、相関関数ｃ（τ）は弱い相関を示す。
【００７９】
一方、図２１は周期性のあるビブラート区間Ｂの切り出し波形について自己相関関数を求めた例である。自己相関関数はビブラート周期に相当するずれ量τ＝１７のとき、強い正の相関を示す。一方、τ＝１７の逆位相に相当するτ＝２５では強い負の相関が現れている。負の相関は、ビブラート周期の半分の周期τ＝８付近にも現れる。τ＝８もτ＝１７の逆位相に相当する。
【００８０】
図２２は図１９に示す音程変化波形の全切り出し区間について求めた正位相の自己相関係数と、その相関係数の逆位相に相当する相関係数を示したものである。正位相の自己相関係数は、１４０［ｍｓ］〜３００［ｍｓ］（１４〜３０［ｐｏｉｎｔ］）の範囲でずらし量を変化させたときの自己相関関数の最大値Ｃ_ｍａｘとして求め、そのときのずれ量をＰとする。音程変化に周期性がある場合、Ｐの半分のずれ量Ｐ／２（逆位相）では負の相関が現れるはずである。そこで、ずれ量Ｐ／２のときの自己相関係数Ｃ_ｎｅｇを求める。ビブラート区間では、正位相の相関係数は大きな値をとり、逆位相の相関係数は小さな値をとることが分かる。自己相関関数に現れる正位相・逆位相の相関係数の特徴を用いて高精度なビブラート検出を実現できる。
【００８１】
図２３は、正位相の相関係数Ｃ_ｍａｘと逆位相の相関係数Ｃ_ｎｅｇを合成したものである。合成により、ビブラート区間とそれ以外の区間の差がますます顕著になる。図２３の相関係数が一定しきい値を超えるフレームをビブラートとして判定することができる。本手法により、精度の高いビブラート検出が可能である。ビブラートがきれいな周期性を持っていれば、相関係数が大きくなるため、相関係数の大きさをビブラートの美しさとして取り出し、後段の採点処理で利用することもできる。
【００８２】
さらに、各フレーム毎の音程変化量の差分信号について分散・標準偏差などの振幅情報を算出し、「振幅が小さいフレームはビブラート区間と見なさない」などの判定条件を加えることで、より信頼度の高いビブラート判定が実現できる。なお、ビブラート検出は、正位相・逆位相の相関係数を合成したものを使って行っても良いし、正位相の相関係数、逆位相の相関係数を単独で用いても良い。
【００８３】
なお、ここでいう自己相関関数は数式８に限らず、「切り出しフレーム同士のずらし量を変化させて２フレームの相関（類似度）または距離（非類似度）を調べる関数」のことである。例えば、自己相関関数として数式８の代わりに数式９のユークリッド距離を採用しても良い。
【数９】

【００８４】
数式８はビブラート周期に相当するずれ量τで最大値をとる関数であるが、数式９はビブラート周期に相当するずれ量τで最小値をとる関数である。同様に、ピッチ変化量の算出には、数式５（ユークリッド距離）を評価関数として合成自己相関関数のずらしマッチングを行う例を示したが、評価関数はユークリッド距離の代わりに自己相関関数を用いることもできる。
【００８５】
なお、本実施の形態においては、ピッチの差分をとった音程変化波形から相関係数を算出しているが、これに限らずピッチ波形から直接自己相関関数を算出することもできる。その場合数式１０に示すような形の自己相関関数を利用することが好ましい。
【数１０】

【００８６】
本実施形態で、ピッチの差分を用いているのは、ピッチ波形から直流分の影響を打ち消すためである。数式１０では、ピッチの差分波形を用いる代わりに、ピッチ波形から平均値を差し引いて相関関数を算出することにより、直流分（≒平均値）の影響を打ち消している。
【００８７】
さらに、本実施の形態では、自己相関関数を用いてビブラート検出法を説明したが、例えば同一フレーム同士から算出する自己相関係数の代わりに、隣り合うフレーム同士の相関を求める相互相関関数を用いることもできる。
【００８８】
本ビブラート検出法では、１つのフレームがビブラート区間に属するかどうか？を５０ポイントの切り出し波形を用いて算出しているため、ビブラート検出精度が非常に高い。
【００８９】
次に、得点算出部１５にの動作について詳細に説明する。第一実施形態では、入力音声信号を表２に示す（ｉ）〜（ｉｖ）の４つの区間に分類する。（ｉ）無声区間と（ｉｉｉ）ピッチの変化が激しい区間（音程変化量が大きい区間）は得点算出には用いず、（ｉｉ）ビブラート区間と（ｉｖ）通常歌唱区間について得点算出を行う。
【表２】

【００９０】
図２４は、第一実施形態における得点算出部１５の得点算出手順を示すフローチャート、図２５は、得点算出部１５のブロック図である。信頼性算出モジュール１５１は、ＲＡＭ９の有声・無声判定結果記憶メモリ９Ｄ、ピッチ変化量Ｉ記憶メモリ９Ｆ及びピッチ変化量ＩＩ記憶メモリ９Ｆよりそれぞれ有声・無声判定結果、ピッチ変化量Ｉ、ピッチ変化量ＩＩを読み出し、これらを基にピッチの信頼性を算出し、算出されたピッチの信頼性をＲＡＭ９のワーク領域９Ｗに書き込む（Ｓ１７１）。瞬時得点算出モジュール１５２は、ＲＡＭ９のピッチ記憶メモリ９Ｅ、ビブラート情報記憶メモリ９Ｈ、ビブラート比率記憶メモリ９Ｋ、ワーク領域９Ｗよりそれぞれピッチ、ビブラート判定結果、ビブラート比率、ピッチの信頼性を読み出し、歌唱者の歌声１分析フレーム分の瞬時得点を算出し、算出した瞬時得点をＲＡＭ９の瞬時得点記憶メモリ９Ｉに書き込む（Ｓ１７２）。
【００９１】
ここで、ＲＡＭ９のビブラート比率記憶メモリ９Ｋに書き込まれるビブラート比率とは得点におけるビブラートの寄与度を決定する係数で、例えばカラオケＢＯＸのオーナが好みにより調整することができるパラメータである。得点累積モジュール１５３は、ＲＡＭ９の瞬時得点記憶メモリ９Ｉより読み出された瞬時得点を累積し、カラオケ採点が始まってから現在に至るまでの累積得点を算出し、ＲＡＭ９の累積得点記憶メモリ９Ｊに記録する（Ｓ１７３）。
【００９２】
カラオケ採点終了後、累積得点記憶メモリ９Ｊに記録された累積得点は、ＲＡＭ９より読み出され、ビデオコントローラ６を経由して、ディスプレイ３に表示される。歌唱者は、ディスプレイ３に表示された採点結果を見て一喜一憂する。なお、得点は累積得点をそのままディスプレイに表示しても良いし、得点変換関数や変換テーブルを通して変換をかけたものを表示しても良い。これらの変換テーブルや変換関数は事前に得点分布の統計調査を行った上で、例えば１００点が算出される確率が全体の５％以下になるように設計した変換テーブルや変換関数を用いる。
【００９３】
以下、得点算出部１５の得点算出原理について詳細に説明する。本発明の第一実施形態に示すピッチ抽出部１３では、非常に音程分解能の高いピッチ（半音の幅を１８〜３８分割して分析）を算出することができる。音程分解能が細かいため、従来のピッチ抽出法では困難であった"音程が微妙に上ずっている"・"微妙に低い"ということを識別できる。
【００９４】
図２６は、上手な歌唱者が歌った歌声について分析した結果である。図２７は同一の曲を下手な歌唱者が歌ったものを分析した結果である。上手い人は音程が正確に１２音階に乗っているが、下手な人では音程は１２音階から離れてくることが観察できる。
【００９５】
本実施形態に示す採点処理では、「歌唱者の歌声が１２音階に乗っているかどうか？」だけを判定する。カラオケで再生されるＭＩＤＩ伴奏は平均率音階（１２音階）に乗った音の集合である。歌声が心地よく聴こえるためには、少なくとも歌声はＭＩＤＩ伴奏と同じ平均率音階（１２音階）に乗っていなければならない。本採点法では、ＭＩＤＩデータを参照せずに"音程が１２音階に乗っているかどうか？"だけを定量化するため、アドリブやフェイクの入った歌でも採点できる。歌の音程が１２音階に乗っていれば、ガイドメロディの通りの音調でなくても「上手い」と考える。この採点法では歌唱者が不協和音で歌った場合でも、音程が１２音階にさえ乗っていれば「上手い」と判定する。不協和音を１２音階にしっかり乗せることは、声楽的には非常に高度な技術である。それが出来る人は並外れた技術を持った歌唱者（実は相当上手い）と仮定している。
【００９６】
しかし、音階に乗っているかどうかだけでは歌唱力を十分に評価できない。人間の感性に近い歌唱力評価をするためにはビブラート部分の評価も重要となってくる。図２８は、図２６・図２７と同じ曲のフレーズをプロの歌手が歌ったときのピッチ変化である。歌が上手い歌唱者はビブラートを多用することもある。ビブラート歌唱区間では、通常歌唱区間と異なる採点方法が必要である。
【００９７】
また、音声認識の分野では、入力音声が無声音の場合はピッチを正確に算出することができないことが知られている。本発明の第一実施形態に示す採点では、入力音声信号に対し有声・無声判定を行い、無声音と判定された区間は得点算出に用いないこととする。
【００９８】
ピッチの変化が激しい区間についても考慮する必要がある。例えば音符と音符の境目、しゃくり上げ部分、しゃくり下げ部分では、ピッチの変化が激しいため、歌の上手い下手に関わらず音程が１２音階に乗りにくくなる。したがって、ビブラート区間以外でピッチの変化量が一定しきい値を超える区間は得点算出に用いないこととする。
【００９９】
図２９に得点算出の基本的な考え方を示す。入力音声信号を通常歌唱区間とビブラート区間に分け、通常歌唱区間の得点Ｄ_ｐ（ｔ_ｎ）と、ビブラート区間の得点Ｄ_ｒ（ｔ_ｎ）をそれぞれ算出する。ピッチの信頼性の低い区間と、ビブラート区間以外でピッチの変化量が激しい区間は得点算出に用いない。
【０１００】
通常歌唱区間（ビブラート以外の区間）の得点算出法について詳細に説明する。"ピッチが平均率音階からどのくらい離れているか？"を示す尺度ｄ_ｐ（ｔ_ｉ）を数式１１で定義する。図３０は数式１１の意味を図示したものである。ｄ_ｐ（ｔ_ｉ）は、分析時刻ｔにおける歌唱者のピッチｆ（ｔ_ｉ）と１２音階のうち最も近い音との距離を示す。歌唱者の歌声ピッチが正確であれば、尺度ｄ_ｐ（ｔ_ｉ）は小さい値となる（尺度ｄ_ｐ（ｔ_ｉ）が小さい→得点が高い）。なお、数式１１では歌唱者の歌声から抽出したピッチｆ（ｔ_ｉ）と１オクターブに整理された平均率音階（１２音階）ＭＦの比較を行っている。これは本実施形態の前段におけるピッチ抽出手段より出力されるピッチが１オクターブ範囲内に整理されているからである（図７参照）。本実施形態では１オクターブ範囲内のピッチを比較することで、人間の全歌唱音域の音程と平均率音階を比較していることになる。しかし、これに限らず、例えばピッチ抽出手段は４オクターブ帯域のピッチを出力する構成として、数式１１はそれに対応する４オクターブ帯域の全音域の平均率音階上の音との比較をしても良い。また、ピッチ抽出手段は５オクターブ帯域のピッチを出力する構成として、数式１１はそれに対応する５オクターブ帯域の全音域の平均率音階上の音との比較するものとすることも容易にできる。
【数１１】

【０１０１】
現在、歌唱者が歌っている状態を想定して考える。歌唱者が歌い始めて、カラオケ採点が開始されてから現在に至るまでにビブラート区間と判定された区間長の合計をｎｒで表す。次に、ビブラート区間以外で、ピッチの変化量が激しくなく、ピッチの信頼性があると判定された区間を通常歌唱区間と呼ぶことにする。カラオケ採点が開始されてから現在に至るまでに通常歌唱区間と判定された区間長の合計をｎｐで表す。ビブラート累積区間長ｎｒと通常歌唱累積区間長ｎｐの合計を累積区間長ｎとすると、ｎ，ｎｐ，ｎｒは数式１２の関係を満たす。
【数１２】

【０１０２】
カラオケ採点が開始されてから現在に至るまでの歌唱時間の合計ｔ_ｎは、分析フレーム周期Δｔと累積区間長ｎを用いて数式１３で表現できる。なお、本実施形態ではΔｔ＝１０［ｍｓ］である。
【数１３】

ｄ_ｐ（ｔ_ｉ）は、"時刻ｔ_ｉにおけるピッチｆ（ｔ_ｉ）が平均率音階からどのくらい離れているか？"を示す尺度で"瞬時得点"である。瞬時得点は、長時間に渡って累積平均をとることにより信頼性のある得点となる。時刻ｔ_ｎにおける累積平均距離（累積平均得点）Ｄ_ｐ（ｔ_ｎ）を数式１４により算出する。Ｄ_ｐ（ｔ_ｎ）が通常歌唱区間における音程の正確さを示す式である。
【数１４】

【０１０３】
次に、ビブラート区間の平均得点を算出する。時刻ｔ_ｉにおけるビブラート区間の距離ｄ_ｒ（ｔ_ｉ）は、採点開始時点から時刻ｔ_ｉに至るまでの音階−ピッチ間の平累積距離Ｄ_ｐ（ｔ_ｉ）に係数αを乗じたものとして、数式１５で計算する。ビブラート区間の平均累積距離Ｄ_ｒ（ｔ_ｎ）は数式１６で計算する。αは０〜１．０の範囲の実数である。数式１５の意味は以下の通りである。
【０１０４】
「時刻ｔ_ｉにおいて歌唱者がビブラートをかけている場合、時刻ｔ_ｉにおける歌唱者の瞬時得点ｄ_ｒ（ｔ_ｉ）は、通常歌唱区間の累積平均点Ｄ_ｐ（ｔ_ｉ）より若干高い得点αＤ_ｐ（ｔ_ｉ）で置き換える。」
【数１５】

【数１６】

【０１０５】
ビブラート得点に通常歌唱区間の平均点ｄ_ｐ（ｔ）・Ｄ_ｐ（ｔ）を反映させることで、下手な人がビブラートを多用しても高得点にはならないように調整している。この方法により、音程の不正確な人がビブラートを使った場合は、音程の正確な人がビブラートを使った場合より低い得点となる。係数αは採点におけるビブラートの寄与度を調整する係数で、カラオケＢＯＸオーナーの好みで調整することもできる。例えば演歌が好きなオーナーはαを小さめに設定して、ビブラートの寄与度を高くすることができる。
【０１０６】
総合的な累積距離Ｄ（ｔ）は、通常歌唱区間の平均距離Ｄ_ｐ（ｔ）とビブラート区間の平均距離Ｄ_ｒ（ｔ）の平均値として数式１７で算出する。累積距離Ｄ（ｔ）は人間が主観的に付けた得点と強い相関を持つ。この採点法は、周波数分解能が高い高精度なピッチ抽出と外乱に強い高精度なビブラート検出法があってはじめて効果を発揮する。
【数１７】

【０１０７】
次に、本実施形態で算出した尺度Ｄ（ｔ）と人間が主観でつけた得点との相関を調べ、採点アルゴリズムの評価を行った結果を示す。まず、２０名の歌唱者が同一の曲を歌った場合について、本採点法の評価を行った。歌唱者（男性１０名・女性１０名）が歌った有名な歌謡曲を歌唱者以外の３４名の被験者に聞き比べてもらい、プリファレンススコアを作成した。プリファレンススコアとは、対比較においてその歌声がどの程度の支持率であったかを示す数値である。歌唱データから後半の１フレーズを切り出したものを対比較評価用データとする。なお、女性歌唱者データにはプロの歌手１名に依頼して採取した歌声を追加・混入した。これと同時に本実施形態により計算した得点Ｄ（ｔ）を算出し、プリファレンススコアと得点Ｄ（ｔ）の相関図を作成した。
【０１０８】
図３１は、女性のデータについて求めたプリファレンススコアと尺度Ｄの相関図である。プリファレンススコアと尺度Ｄの間には強い相関が見られる。尺度Ｄが最も小さく音程が最も正確なのは、プロの歌手の歌声である。しかし声が低く、原曲と歌い方が異なるため、人間の主観評価（プリファレンススコア）では２位になっていると考えられる。主観評価で１位となった歌唱者は通常より高めのキーで歌ったため、被験者に与えるインパクトが強かったと推測される。
【０１０９】
図３２は男性の歌声から算出した相関図である。男性データでも、距離Ｄ（ｔ）とプリファレンススコアの相関がみられる。プリファレンススコア約４０点の被験者が最も１２音階からの距離が小さくなっている。この被験者の歌声を聴くと、音程は正確でビブラートも上手にかかっており、技術的には上手な歌唱者である。しかし、歌詞の譜割りなどが演歌調で原曲と異なり、歌い方に癖があるため主観評価の点数が低下したと推測される。これらの図から、例えば「Ｄ（ｔ）が２０［ｃｅｎｔ］を切る人はそこそこ上手い」と判断できる。図３１・図３２より、Ｄ（ｔ）は人間の主観得点と相関の強い尺度となっていることが分かる。
【０１１０】
次に、歌唱者が異なる曲を歌った場合について本採点法の評価を行った結果を示す。データの採取方法を図３３に示す。５〜６名の歌唱者のグループを募集した。１グループ：５〜６名の歌唱者に交代で歌って頂き歌唱データを採取した。歌っている歌唱者以外について、次に歌う歌唱者は歌う曲の選曲、それ以外の歌唱者は現在歌っている歌唱者の得点を記録した。なお歌唱者には、歌の途中ではキー変更や、演奏停止をしないで、歌唱曲の歌える範囲でできる限り多くのジャンルの曲を歌って頂けるようお願いした。得点は満点を１００点とし、採点者の主観で記入して頂いた。採点者全員がつけた平均得点を主観評価の得点とする。
【０１１１】
２日間評価を行った結果について説明する。図３４は１日目の採取データから求めた相関図である。この日の参加者は６人、歌唱者１人の歌声に対し残りの５人で採点を行ったときの平均点数を主観評価の点数としてグラフにプロットした。距離Ｄ（ｔ）と主観評価の点数には強い相関があることが分かる。
【０１１２】
図３５は、２日目の採取データから求めた相関図である。参加者は４０〜６０代の女性５人である。歌唱者１人の歌声に対し３人で採点を行い残り１人は次に歌う曲を選ぶという分担で採点を行った。この日歌われた曲のほとんどは演歌である。距離Ｄ（ｔ）と主観評価の点数には相関が見られる。図３４と比べて少し相関が弱い原因としては、採点者が５人から３人に減少したためと考えられる。
【０１１３】
図３１、図３２、図３４、図３５より、Ｄ（ｔ）は人間の主観得点と相関の強い尺度となっていることが分かる。従って、例えば尺度Ｄ（ｔ）を線形変換すれば、人間の主観評価と相関の強い得点を算出することができる。実際のカラオケ装置における採点では、１００点の出現確率を減少させるなどの工夫が必要となるため、Ｄ（ｔ）［ｃｅｎｔ］に非線形変換を行い得点に変換することも考えられる。
【０１１４】
なお、本実施形態ではガイドメロディ情報を一切使わずにカラオケ採点を行う例を示した。しかし、これに限らずガイドメロディと歌唱者の歌声を比較する従来の採点法も併用した採点システムを構築することも可能である。例えば、ガイドメロディと歌唱者のピッチを比較して歌の忠実度を算出し、本実施形態で示した採点法で尺度Ｄ（ｔ）を算出した後、２つの得点を合成して歌唱者の歌の得点とすることもできる。また、２つの得点の高い方を選んで最終的な得点とすることも容易に考えられる。
【０１１５】
また大抵の場合、カラオケ装置で演奏されるＭＩＤＩ楽曲は平均率音階の集合であるため、本実施形態では、歌唱者の歌声から抽出したピッチと平均率音階を比較して歌の得点を算出する例を示した。しかし、これに限らず、ピッチと純正率音階を比較するのが好ましい場合もある。カラオケ装置の伴奏には、生バンドの曲を録音したスタジオ録音曲やプロのアカペラグループが演奏したものを録音したアカペラ伴奏曲も存在する。特にアカペラ伴奏曲などでは、歌唱者の歌声から抽出した純正率音階を比較した方がより精度の高い歌唱力評価ができることもある。また、生のピアノ演奏を録音したスタジオ録音曲では、平均率音階をピアノ調律曲線を用いて補正した音階と歌唱者の歌声から抽出したピッチを比較する方法が好ましい場合もある。これらの音階は、カラオケ楽曲の属性により、適宜選択するようにカラオケ採点装置を構成することも考えられる。本明細書に記載の平均率音階とは、ピアノの調律曲線などにより補正された後の平均率音階を含むこととする。
【０１１６】
また、本発明の第一実施形態におけるビブラート検出法では、合成自己相関関数のずらしマッチングを用いて音程の変化量を算出していた。これと同様に、入力歌声信号から合成自己相関関数の代わりにＬＰＣスペクトル、ＦＦＴスペクトル、群遅延スペクトル、ＬＰＣケプストラム、自己相関関数などのスペクトル特徴を抽出し、スペクトルのずらしマッチングを用いて外乱に強いピッチ変化量算出・ビブラート検出ができる。一例として、図３６にＬＰＣ（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅＣｏｄｉｎｇ）スペクトルを用いた音程変化量算出法を示す。図３６（ａ）の音声信号に対して線形予測分析を行いＬＰＣスペクトルを求めたものが図３６（ｂ）である。ＬＰＣスペクトルを観察しても、ビブラートはきれいに現れていることがわかる。例えば、ＬＰＣスペクトルの周波数帯域５００［Ｈｚ］〜１０００［Ｈｚ］を切り出し（図３６（ｃ））、切り出した帯域のＬＰＣスペクトルのずらしマッチングを用いて音程変化量を算出することができる。
【０１１７】
この場合、音声信号記憶メモリ９Ａから読み出された音声信号に線形予測分析を行い、ＬＰＣスペクトルを求め、メモリ９の所定の位置に記憶する。ずらしマッチングの式は、数式１８で示される。メモリ９より読み出した隣り合う２フレームのＬＰＣスペクトルｌｐｃ（ｔ，ｉ），ｌｐｃ（ｔ＋１，ｉ）のずれ量を算出する。ずれ量の単位は［Ｈｚ］で算出される。さらにＬＰＣスペクトルの周波数軸を対数スケールに変換した後、ずらしマッチングを行うようにすれば、全分析周波数帯域の音程分解能が均等になり、より高精度な分析ができる。ここで算出されたピッチ変化量Δｆ_ｓを入力としてビブラート検出を行うことは容易である。
【数１８】

【０１１８】
さらに、数式１８により算出されたピッチ変化量は、数式５と数式６により算出されたピッチ変化量と同様、信頼性の高いものとなる。数式１８により算出された信頼性の高いピッチ変化量ＩＩ（Δｆ_ｓ）とピッチの差分により算出されたピッチ変化量Ｉ（Δｆ_ｐ）の差Ｄｆを用いてピッチｆ（ｔ），ｆ（ｔ＋１）の信頼性を逆算することもできる（数式１９参照）。数式１９は、数式７と同じ形となっている。
【数１９】

【０１１９】
次に、本発明における第二の実施形態について図３７〜図３９を参照して説明する。第二実施形態は、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）上で動作する歌唱訓練／採点ソフトウェアである。
【０１２０】
図３７に示すように、第二実施形態の歌唱訓練／採点装置を構成するＰＣ５０は、周知のパーソナルコンピュータの一般的な構成からなり、文字や各種の操作指令などを入力するためのキーボード６１やマウス５９、入力された結果等を表示するモニタ６５を備えている。また、ＰＣ５０には、ＣＤ−ＲＯＭ６３の内容を読み取るＣＤ−ＲＯＭドライブ６２が搭載されている。
【０１２１】
また、ＰＣ５０は、中央演算処理装置としてのＣＰＵ５１を中心にバスにより相互に接続されたＲＯＭ５２、ＲＡＭ５３、表示画像メモリ５４、マウスインターフェース５８、キーボードインターフェース６０、ビデオコントローラ６４、及びＡ／Ｄ変換器６６を備えている。そして、マウスインターフェース５８にはマウス５９が接続され、キーボードインターフェース６０にはキーボード６１が接続され、ビデオコントローラ６４にはモニタ６５が接続されている。さらに、Ａ／Ｄ変換器６６には、マイク６７が接続されている。
【０１２２】
ＲＯＭ５２は、ＢＩＯＳ等の内蔵されている各種プログラム等を記憶する読み出し専用のメモリである。ＲＡＭ５３は、実行中のプログラムを一時的に記憶したり、各種データ等を記憶する読み出し・書き込み可能なメモリである。表示画像メモリ５４は、モニタ６５に表示する画像の画像データを記憶するメモリである。マウスインターフェース５８は、マウス５９とのデータ等のやりとりを司るインターフェースである。キーボードインターフェース６０は、キーボード６１からのキー入力を司るインターフェースである。ビデオコントローラ６４は、表示画像メモリ５４に記憶される表示画像データに基づいてモニタ６５における画像の表示を制御するコントローラである。Ａ／Ｄ変換器６６は、マイク６７より入力された音声信号をサンプリングしてＰＣ５０内に採り込む装置である。なお、このＡ／Ｄ変換器６６が請求項に言う音声信号入力手段に相当する。
【０１２３】
ＰＣ５０のオペレーティングシステム（ＯＳ）５６は、ハードディスクドライブ（ＨＤＤ）５５に記憶されており、ＰＣ５０に電源を投入すると、ＨＤＤ５５のブートブロックに書き込まれたローダに従ってＲＡＭ５３の所定の領域にロードされる。また、ＨＤＤ５５には、歌唱訓練／採点ソフトウェア５７が記憶されており、歌唱訓練／採点ソフトウェア５７が起動され、ＲＡＭ５３に読み込まれ、これをＣＰＵ５１が実行することにより、歌唱訓練処理や歌唱採点処理が行われる。尚、本実施形態においては歌唱訓練／採点ソフトウェア５７はＨＤＤ５５に記憶されているが、ＲＯＭ５２に記憶されていてもよいし、ＣＤ−ＲＯＭ６３に記憶され、ＣＤ−ＲＯＭドライブ６２から読み込まれて実行されるように構成してもよい。さらに、ＰＣ５０をネットワークに接続し、ネットワーク上のサーバから歌唱訓練／採点ソフトウェア５７をダウンロードして実行するようにしてもよい。
【０１２４】
マイク６７をコンピュータ５０に接続し、歌唱訓練／採点ソフトウェアを起動すると、歌唱訓練処理／歌唱採点処理が開始される。第二実施形態に示すソフトウェアは音程訓練モードと歌唱採点モードの２つのモードを持っており、歌唱者は２つのモードのうち１つを選択することができる。歌唱者は、マウス５９やキーボード６１などの入力装置を用いて音程訓練モードと歌唱採点モードどちらかを選択する。
【０１２５】
音程訓練モードでは、マイク６７より入力された歌唱者の音声はＡ／Ｄ変換器６６によりサンプリング周波数４８［ｋＨｚ］でサンプリングされ、ＲＡＭ５３に書き込まれる。ＲＡＭ５３の記憶領域は、第一実施形態におけるＲＡＭ９の記憶領域に加え、歌唱訓練／採点ソフトウェアが格納される記憶領域が存在する。ＲＡＭ５３に書き込まれた音声信号より合成相関関数が算出され、ＲＡＭ５３の合成自己相関関数記憶メモリに書き込まれる。次に、ＲＡＭ５３の合成自己相関関数記憶メモリと自己相関関数記憶メモリより合成自己相関関数と自己相関関数が読み出されピッチが計算され、算出されたピッチはＲＡＭ５３のピッチ記憶メモリに記憶される。これら合成自己相関関数及びピッチの算出手順は第一実施形態における図４〜図１１に示したものと全く同じであるので、図４〜図１１の説明を援用する。
【０１２６】
このようにして歌唱者の歌声から算出したピッチは、ＲＡＭ５３から読み出され、ＰＣ５０のモニタ６５に平均率音階と共に表示される。図３８は、歌唱者が音程訓練モードを利用して音程訓練を行っているときのモニタ６５の様子を示したものである。図３８において、トンボが歌唱者の音程（ピッチ）の高さ、水平方向に引かれた直線が平均率音階を示している。音程訓練モードでは、歌唱者の歌声から抽出されたピッチと平均率音階をリアルタイムで表示することで、音程の正確さを歌唱者にフィードバックすることができる。歌唱者は、Ａ４（４４０Ｈｚ）で歌った後、Ｅ５（６６０Ｈｚ）の音程で歌っている。歌唱者は音階に乗ったピッチで歌っているつもりでも、パソコンのディスプレイに表示してみるとＥ５の音程が微妙に低いことが分かる。
【０１２７】
このソフトウェアは第一実施形態の図１０に示した最低分析周波数５０［Ｈｚ］の合成自己相関関数を採用することで、５０［Ｈｚ］〜１７００［Ｈｚ］の約５オクターブ帯域のピッチを検出、表示することができる。合成自己相関関数を用いたピッチ抽出法は、音程分解能が高く、非常に細かな音程のずれを分析できる。聴覚が鍛えられたミュージシャンや音楽の先生にしか分からなかった"微妙に高い"，"微妙に低い"という違いを視覚的に表現することができる。これは合唱の音程訓練、バンドのヴォーカルの個人練習にも利用でき、歌唱者の歌の上達を補助することができる。単に歌唱者のピッチを表示するだけのシンプルなものでも、音程訓練用途としては十分役に立つ。
【０１２８】
本ソフトウェアを合唱・声楽のトレーニング用途として利用する場合は、基準となる音階はＡ４＝４４０［Ｈｚ］に合わせるのが好ましいときもあり、Ａ４＝４４２［Ｈｚ］に合わせるのが好ましいときもある。通常オーケストラなどで用いる基準音は伴奏に用いる楽器の構成によって変わってくる。また、ピアノ伴奏に合わせて歌うときのトレーニングでは、理論的な平均率音階とピアノの調律音階の差を埋めるために、ピアノの調律曲線を用いて歌唱者の歌声ピッチや基準となる音階を補正し、表示するのが良い場合もある。また、人の歌声だけで演奏するアカペラ曲の場合、平均率音階ではなく、純正率音階を基準線として用いるのが好ましい場合もある。本実施形態に示す音程訓練ソフトウェアの音程訓練モードは、これらの基準となる音階を適宜選択できるメニュー画面を持つ。メニュー画面はモニタ６５に表示され、音程訓練を行う歌唱者は、マウス５９やキーボード６１などの入力装置を用いて基準となる音階を選択できる。
【０１２９】
次に、歌唱採点モードでは、マイク６７より入力された歌唱者の音声はＡ／Ｄ変換器６６によりサンプリング周波数４８［ｋＨｚ］でサンプリングされ、ＲＡＭ５３に書き込まれる。ＲＡＭ５３の記憶領域は、第一実施形態におけるＲＡＭ９の記憶領域に加え、歌唱訓練／採点ソフトウェアが格納される記憶領域が存在する。ＲＡＭ５３に書き込まれた音声信号より合成相関関数が算出され、ＲＡＭ５３の合成自己相関関数記憶メモリに書き込まれる。本発明の第一実施形態に示したものと全く同じ手順で自己相関関数、合成自己相関関数、有声・無声判定結果、ピッチ、ピッチ変化量Ｉ、ピッチ変化量ＩＩ、ビブラート情報、瞬時得点、累積得点などが算出され、ＲＡＭ５３に書き込まれる。本ソフトウェアでは、第一実施形態で採点処理部（採点ＤＳＰ）１２が行っていた処理をＣＰＵ５１が担当する。採点処理手順は第一実施形態における図４〜図３５に示したものと全く同じであるので、図４〜図３５の説明を援用する。なお第二実施形態では、ＲＡＭ５３が請求項に言う、「ピッチ記憶手段」、「ビブラート記憶手段」、「音程変化量記憶手段」及び「音程相関関数記憶手段」に相当する。また、図４におけるＳ１３の処理が請求項に言う「ピッチ抽出ステップ」、「ピッチ記憶ステップ」に相当し、Ｓ１３の処理を実行するＣＰＵ５１が「ピッチ抽出手段」に相当する。また、図４におけるＳ１４及びＳ１５の処理が請求項に言う「音程変化量抽出ステップ」及び「音程変化量記憶ステップ」に相当し、Ｓ１４及びＳ１５の処理を実行するＣＰＵ５１が「音程変化量抽出手段」に相当する。また、図４におけるＳ１６の処理が請求項に言う「ビブラート検出ステップ」及び「ビブラート記憶ステップ」に相当し、Ｓ１６の処理を実行するＣＰＵ５１が「ビブラート検出手段」に相当する。また、図１５におけるＳ１６１の処理及びＳ１６２の処理が請求項に言う「音程相関関数算出ステップ」及び「音程相関関数記憶ステップ」に相当し、Ｓ１６１及びＳ１６２を実行するＣＰＵ５１が「音程相関関数算出手段」に相当する。
【０１３０】
図３９は、本歌唱訓練／採点ソフトウェアの歌唱採点モードの実行画面である。このアプリケーションは、得点を算出するのと同時に歌声から抽出したピッチ波形（ＰＩＴＣＨ）とビブラート波形（ＴＲＥＭＯＬＯ）をリアルタイムで表示でき、さらにビブラートの美しさ、ビブラート回数などをリアルタイムで算出して表示する。なお、これら「ビブラート波形」、「ビブラートの美しさ」、「ビブラート回数」などをコンピュータに表示させる処理が請求項にいうビブラート表示ステップに相当する。ここで表示しているビブラート波形は、第一実施形態で説明した音程変化量Ｉまたは音程変化量ＩＩのことである。また、ビブラートの美しさとは第一実施形態の図２２・図２３で説明した相関係数の大きさである。
【０１３１】
本ソフトウェアを使用することで、歌唱者は歌の得点を知ると同時に、現在歌っているフレーズのビブラート形状とビブラートの美しさを目視で確認することができる。この機能を利用して歌唱者はビブラートの練習が可能である。以上の説明より、カラオケ装置上で動作するビブラート訓練装置やパソコン上で動作するビブラート訓練装置は容易に実現できることがわかる。なお、本実施例ではビデオコントローラ６が請求項に言う「表示制御手段」及び「ビブラート表示制御手段」に相当し、ディスプレイ３が請求項に言う「表示手段」に相当する。
【０１３２】
なお、これらの音程訓練機能・ビブラート訓練機能は本発明の第一実施形態におけるカラオケ装置の"練習モード"などにも応用できることは言うまでもない。カラオケ装置では、例えば、プロの歌手の歌声から抽出したピッチと歌唱者が歌ったときのピッチを同時に表示して、カラオケを練習する歌唱者の手助けをする練習ソフトを作ることもできる。また、前述のビブラート検出法によりプロの歌声から検出されたビブラート波形と、カラオケを歌っている歌唱者の歌声から検出されたビブラートを同時にモニタに表示するビブラート練習機能付きカラオケ装置なども容易に実現できる。
【産業上の利用可能性】
【０１３３】
本発明は、カラオケ装置に搭載されるカラオケ採点装置、合唱・声楽などのトレーニング用途としての歌唱訓練装置、及び歌唱力評価装置に利用することができる。
【図面の簡単な説明】
【０１３４】
【図１】本発明の第一実施形態におけるカラオケ装置の外観である。
【図２】本発明の第一実施形態におけるカラオケ装置のブロック図である。
【図３】ＲＡＭ９に確保される記憶領域を示す図である。
【図４】同カラオケ装置の採点処理部の動作を示すフローチャートである。
【図５】採点処理部１２のブロック図である。
【図６】自己相関関数の算出法を説明する図である。
【図７】自己相関関数を帯域毎に分割・合成することで音程分解能（周波数分解能）を向上させる方法を示す図である。
【図８】本ピッチ抽出法におけるピッチの２段探索法を示す図である。
【図９】合成自己相関関数法によるピッチ抽出における音程分解能と従来のピッチ抽出法における音程分解能を比較したものを示す図である。
【図１０】合成自己相関関数の最低分析周波数を７０［Ｈｚ］から５０［Ｈｚ］まで下げることにより音程分解能が向上することを示す図である。
【図１１】合成自己相関関数を用いたピッチ抽出手順の全貌を示す図である。
【図１２】本発明の実施形態における音程変化量（２通り）の算出手順を示すブロック図である。
【図１３】合成自己相関関数のずらしマッチングを用いた信頼性の高いピッチ変化量（音程変化量）算出法を示す図である。
【図１４】ピッチ差分から求めた（比較的信頼性の低い）ピッチ変化量を示す図である。
【図１５】本発明の実施形態におけるビブラート検出手順を示すフローチャートである。
【図１６】本発明の実施形態におけるビブラート判定手順を示すブロック図である。
【図１７】ビブラート歌唱区間とそれ以外の歌唱区間を含む歌声波形の図である。
【図１８】図１７の歌声波形から抽出したピッチ（音程）を示す図である。
【図１９】図１８のピッチの差分をとり算出した音程変化量波形の図である
【図２０】図１９のビブラートがかかっていない区間（区間Ａ）の切り出し波形から算出した自己相関関数を示す図である。
【図２１】図１９のビブラートがかかっている区間（区間Ｂ）の切り出し波形から算出した自己相関関数を示す図である
【図２２】図１９のピッチ変化量から算出した「正位相の相関係数」と「逆位相の相関係数」を示した図である。
【図２３】図２２の「正位相の相関係数」と「逆位相の相関係数」を合成したものを示す図を示す図である。
【図２４】本発明の実施形態における得点算出手順を示すフローチャートである。
【図２５】本発明の実施形態における得点算出手順を示すブロック図である。
【図２６】上手な人の歌声（プリファレンススコア：９６点）から抽出した音程を示す図である。
【図２７】下手な人の歌声（プリファレンススコア：２３点）から抽出した音程を示す図である。
【図２８】プロの歌手の歌声（プリファレンススコア：１２２点）から抽出した音程を示す図である。
【図２９】ビブラート歌唱区間とそれ以外の歌唱区間を分離して採点する本採点法の概念を示す図である。
【図３０】歌唱ピッチと平均率音階（１２音階）からの最小距離を示す図である。
【図３１】女性の歌声データから求めたプリファレンススコア（主観評価得点）と、本発明の実施形態で提供する距離尺度Ｄ（ｔ）の相関図である。
【図３２】男性の歌声データから求めたプリファレンススコア（主観評価得点）と、本発明の実施形態で提供する距離尺度Ｄ（ｔ）の相関図である。
【図３３】カラオケ音声データと人の主観による得点の採取手順を示す図である。
【図３４】距離尺度Ｄ（ｔ）と人の主観評価の平均点（データ採取：１日目）を示す図である。
【図３５】距離尺度Ｄ（ｔ）と人の主観評価の平均点（データ採取：２日目）を示す図である。
【図３６】ＬＰＣスペクトルのずらしマッチングを用いた音程変化量（ピッチ変化量）の算出方法を示す図である。
【図３７】本発明の第二実施形態における歌唱訓練／採点装置の概略構成を示すブロック図である。
【図３８】パソコン上で動作するピッチトレーニングソフトの表示画面の図である。
【図３９】ピッチ表示機能、ビブラート表示機能、ビブラートの美しさ算出機能を有するカラオケ採点ソフトウェアの表示画面の図である。
【符号の説明】
【０１３５】
１カラオケ装置
２マイク
３ディスプレイ
４ＡＭＰ
５スピーカ
６ビデオコントローラ
７ミキサ（エフェクタ）
８演奏装置
９ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）
１２採点処理部（採点ＤＳＰ）
１３ピッチ抽出部
１４ビブラート検出部
１５得点算出部
１６操作部
１７Ａ／Ｄ変換部
１８ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）
１９ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）
５０ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）
５１ＣＰＵ
５２ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）
５３ＲＡＭ
５４表示画像メモリ
５５ＨＤＤ
５６ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）
５７歌唱訓練／採点ソフトウェア
５８マウスインターフェース
５９マウス
６０キーボードインターフェース
６１キーボード
６２ＣＤ−ＲＯＭドライブ
６３ＣＤ
６４ビデオコントローラ
６５モニタ
６６Ａ／Ｄ変換器
６７マイク
１３１自己相関関数算出モジュール
１３２合成自己相関関数算出モジュール
１３３有声・無声判定モジュール
１３４ピッチ抽出モジュール
１４１ピッチ変化量Ｉ算出モジュール
１４２ピッチ変化量ＩＩ算出モジュール
１４３ビブラート検出モジュール
１４３Ａ周期性算出モジュール
１４３Ｂ正位相・逆位相合成モジュール
１４３Ｃビブラート尺度算出モジュール
１５１信頼性算出モジュール
１５２瞬時得点算出モジュール
１５３得点累積モジュール

【特許請求の範囲】
【請求項１】
コンピュータに、
音声信号入力手段より入力された音声信号からピッチを抽出させるピッチ抽出ステップと、
当該ピッチ抽出ステップを実行させて得られたピッチをピッチ記憶手段に順次記憶させるピッチ記憶ステップと、
前記ピッチ記憶手段に記憶された複数のピッチを読み出し、読み出された複数のピッチにより構成される一定区間長のフレームに対して自己相関分析または相互相関分析を行うことで相関関数を算出させる音程相関関数算出ステップと、
当該音程相関関数算出ステップを実行して得られた相関関数を音程相関関数記憶手段に記憶させる音程相関関数記憶ステップとを実行させ、
前記音程相関関数記憶手段から読み出された相関関数の特性を用いて入力音声中のビブラート区間を検出させることを特徴とするビブラート検出方法。
【請求項２】
コンピュータに、
音声信号入力手段より入力された音声信号から音程変化量を抽出させる音程変化量抽出ステップと、
当該音程変化量抽出ステップを実行させて得られた音程変化量を音程変化量記憶手段に順次記憶させる音程変化量記憶ステップと、
前記音程変化量記憶手段より複数の音程変化量を読み出し、読み出された複数の音程変化量により構成される一定区間長のフレームに対して自己相関分析または相互相関分析を行うことで相関関数を算出させる音程相関関数算出ステップと、
当該音程相関関数算出ステップを実行して得られた相関関数を音程相関関数記憶手段に記憶させる音程相関関数記憶ステップとを実行させ、
前記音程相関関数記憶手段から読み出された相関関数の特性を用いて入力音声中のビブラート区間を検出させることを特徴とするビブラート検出方法。
【請求項３】
前記音程変化量抽出ステップとして、
前記音声信号入力手段より入力された音声信号からピッチを抽出させるピッチ抽出ステップと、
当該ピッチ抽出ステップを実行して得られたピッチをピッチ記憶手段に記憶させるピッチ記憶ステップを実行させ、
前記ピッチ記憶手段から読み出された２つ以上のピッチの差分をとることにより音程変化量を算出させることを特徴とする請求項２に記載のビブラート検出方法。
【請求項４】
請求項１乃至請求項３の何れかに記載のビブラート検出方法において、
前記音程相関関数記憶手段より読み出された相関関数の特性として相関関数を構成する相関係数の一部（正位相の相関係数）と、当該相関係数に対する逆位相の相関係数を利用し、
前記正位相の相関係数と前記逆位相の相関係数を用いてビブラート検出を行うことを特徴とするビブラート検出方法。
【請求項５】
請求項４に記載のビブラート検出方法において、前記正位相の相関係数と前記逆位相の相関係数を合成した相関係数を用いてビブラート検出を行うことを特徴とするビブラート検出方法。
【請求項６】
請求項１乃至請求項５の何れかに記載のビブラート検出方法において、前記音程相関関数記憶手段より読み出された相関関数を構成する相関係数の一部が一定しきい値を超えたときに、ビブラートと判定することを特徴とするビブラート検出方法。
【請求項７】
請求項１乃至請求項６の何れかに記載のビブラート検出方法において、前記相関関数により算出される相関の強さをビブラートの美しさとして算出することを特徴とするビブラート検出方法。
【請求項８】
歌唱者が歌唱訓練を行うことを補助する歌唱訓練補助をコンピュータに実行させる歌唱訓練プログラムにおいて、
音声信号入力手段より入力された音声信号からピッチを抽出するピッチ抽出ステップと、
当該ピッチ抽出ステップを実行して得られたピッチをピッチ記憶手段に順次記憶するピッチ記憶ステップと、
前記ピッチ記憶手段に記憶された複数のピッチを読み出し、読み出された複数のピッチにより構成される一定区間長のフレームに対して自己相関分析または相互相関分析を行うことで相関関数を算出する音程相関関数算出ステップと、
当該音程相関関数算出ステップを実行して得られた相関関数を音程相関関数記憶手段に記憶する音程相関関数記憶ステップと、
前記音程相関関数記憶手段より読み出された相関関数の特性を用いて入力音声中のビブラート情報を抽出するビブラート検出ステップと、
当該ビブラート検出ステップを実行して得られたビブラート情報を表示手段に表示するビブラート表示ステップを備え、
歌唱者の歌声から抽出したビブラート情報を確認できるようにしたことを特徴とする歌唱訓練プログラム。
【請求項９】
歌唱者が歌唱訓練を行うことを補助する歌唱訓練補助をコンピュータに実行させる歌唱訓練プログラムにおいて、
音声信号入力手段より入力された音声信号から音程変化量を抽出する音程変化量抽出ステップと、
当該音程変化量抽出ステップを実行して得られた音程変化量を音程変化量記憶手段に順次記憶する音程変化量記憶ステップと、
前記音程変化量記憶手段より複数の音程変化量を読み出し、読み出された複数の音程変化量により構成される一定区間長のフレームに対して自己相関分析または相互相関分析を行うことで相関関数を算出する音程相関関数算出ステップと、
当該音程相関関数算出ステップを実行して得られた相関関数を音程相関関数記憶手段に記憶する音程相関関数記憶ステップと、
前記音程相関関数記憶手段より読み出された相関関数の特性を用いて入力音声中のビブラート情報を抽出するビブラート検出ステップと、
当該ビブラート検出ステップを実行して得られたビブラート情報を表示手段に表示するビブラート表示ステップを備え、
歌唱者の歌声から抽出したビブラート情報を確認できるようにしたことを特徴とする歌唱訓練プログラム。
【請求項１０】
音声信号入力手段より入力された音声信号からピッチを抽出するピッチ抽出手段と、
当該ピッチ抽出手段により得られたピッチを順次記憶するピッチ記憶手段と、
前記ピッチ記憶手段に記憶された複数のピッチを読み出し、読み出された複数のピッチにより構成される一定区間長のフレームに対して自己相関分析または相互相関分析を行うことで相関関数を算出する音程相関関数算出手段と、
当該音程相関関数算出手段により得られた相関関数を記憶する音程相関関数記憶手段と、
前記音程相関関数記憶手段より読み出された相関関数の特性を用いて入力音声中のビブラート区間を検出するビブラート検出手段とを備えることを特徴とする歌唱力評価機能を有するカラオケ装置。
【請求項１１】
音声信号入力手段より入力された音声信号から音程変化量を抽出する音程変化量抽出手段と、
当該音程変化量抽出手段により得られた音程変化量を音程変化量記憶手段に順次記憶する音程変化量記憶手段と、
前記音程変化量記憶手段より複数の音程変化量を読み出し、読み出された複数の音程変化量により構成される一定区間長のフレームに対して自己相関分析または相互相関分析を行うことで相関関数を算出する音程相関関数算出手段と、
当該音程相関関数算出手段により得られた相関関数を記憶する音程相関関数記憶手段と、
前記音程相関関数記憶手段より読み出された相関関数の特性を用いて入力音声中のビブラート区間を検出するビブラート検出手段とを備えることを特徴とする歌唱力評価機能を有するカラオケ装置。
【請求項１２】
請求項１０乃至請求項１１の何れかに記載のカラオケ装置において、
前記音程相関関数記憶手段より読み出された相関関数の特性として相関関数を構成する相関係数の一部（正位相の相関係数）と、当該相関係数に対する逆位相の相関係数を利用し、
前記正位相の相関係数と前記逆位相の相関係数を用いて入力音声中のビブラート区間を検出するビブラート検出手段とを備えることを特徴とする歌唱力評価機能を有するカラオケ装置。
【請求項１３】
歌唱者の歌唱訓練を補助する歌唱訓練補助機能を搭載したカラオケ装置において、
音声信号入力手段より入力された音声信号からピッチを抽出するピッチ抽出手段と、
当該ピッチ抽出手段により得られたピッチを順次記憶するピッチ記憶手段と、
前記ピッチ記憶手段に記憶された複数のピッチを読み出し、読み出された複数のピッチにより構成される一定区間長のフレームに対して自己相関分析または相互相関分析を行うことで相関関数を算出する音程相関関数算出手段と、
当該音程相関関数算出手段により得られた相関関数を記憶する音程相関関数記憶手段と、
前記音程相関関数記憶手段より読み出された相関関数の特性を用いて入力音声中のビブラート区間を検出するビブラート検出手段と、
当該ビブラート検出手段により得られたビブラート情報を表示手段に表示するビブラート表示制御手段を備え、
歌唱者の歌声から抽出したビブラート情報を確認できるようにしたことを特徴とする歌唱訓練補助機能を搭載したカラオケ装置。
【請求項１４】
歌唱者の歌唱訓練を補助する歌唱訓練補助機能を搭載したカラオケ装置において、
音声信号入力手段より入力された音声信号から音程変化量を抽出する音程変化量抽出手段と、
当該音程変化量抽出手段により得られた音程変化量を音程変化量記憶手段に順次記憶する音程変化量記憶手段と、
前記音程変化量記憶手段より複数の音程変化量を読み出し、読み出された複数の音程変化量により構成される一定区間長のフレームに対して自己相関分析または相互相関分析を行うことで相関関数を算出する音程相関関数算出手段と、
当該音程相関関数算出手段により得られた相関関数を記憶する音程相関関数記憶手段と、
前記音程相関関数記憶手段より読み出された相関関数の特性を用いて入力音声中のビブラート区間を検出するビブラート検出手段と、
当該ビブラート検出手段により得られたビブラート情報を表示手段に表示するビブラート表示制御手段を備え、
歌唱者の歌声から抽出したビブラート情報を確認できるようにしたことを特徴とする歌唱訓練補助機能を搭載したカラオケ装置。

【図１】