楽曲練習装置および楽曲練習システム

【課題】カラオケ装置において、間違いやすい箇所を事前に歌唱者（または演奏者）に報知することのできる技術を提供する。
【解決手段】歌唱者（または演奏者）によって曲が選択されると、カラオケ装置２のＣＰＵ１１は、指定された曲の伴奏データを記憶部１４から読み出し、音声処理部１８に供給する。音声処理部１８は、供給された伴奏データをアナログ信号に変換してスピーカ１９に供給して放音させる。このとき、ＣＰＵ１１は、音声処理部１８によって生成される伴奏音信号が楽曲のどの位置にあるかを認識し、認識した位置とサーバ装置３から取得した区間指定情報の開始位置とを比較し、両者の差が所定の差になったときに、当該区間指定情報の示す区間を報知する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、楽曲練習装置および楽曲練習システムに関する。
【背景技術】
【０００２】
カラオケ装置においては、歌唱者の歌唱の巧拙を採点するための方法が種々提案されている。例えば、特許文献１においては、歌唱された音声のピッチと基準ピッチとを比較して、どの部分がうまく歌えなかったかを判定する方法が提案されている。また、特許文献２おいては、歌唱者の過去の採点結果を記憶し、点数が悪いフレーズではガイドメロディの音量を大きくする方法が提案されている。また、採点結果をサーバに送信して、ランキングを行う方法も提案されている（例えば、特許文献３参照）。
【特許文献１】特開２００４−０９３６０１号公報
【特許文献２】特開２００５−０４９４１０号公報
【特許文献３】特開２００５−０９９２８８号公報
【発明の開示】
【発明が解決しようとする課題】
【０００３】
ところで、特許文献１や特許文献２に記載の方法では、歌唱者が一度歌ってみなければどの部分を間違ったかを把握することができない。そのため、歌唱者がその楽曲を初めて歌唱する場合には、歌唱者は楽曲のどの部分に留意して歌唱すべきなのかを把握することはできなかった。これは楽器演奏についても同様である。
本発明は上述した背景の下になされたものであり、カラオケ装置において、間違いやすい箇所を事前に歌唱者に報知することのできる技術を提供することを目的とする。
【課題を解決するための手段】
【０００４】
上記課題を解決するため、本発明は、楽曲の伴奏楽音を構成する伴奏データを記憶する伴奏データ記憶手段と、前記楽曲の特定の区間を示す区間指定情報を取得する取得手段と、伴奏の開始を指示する指示手段と、前記指示手段によって伴奏の開始が指示された場合に、楽曲の進行に応じて前記伴奏データ記憶手段から伴奏データを読み出し、読み出した伴奏データに基づいて伴奏音信号を生成する伴奏音信号生成手段と、前記伴奏音信号生成手段が生成した伴奏音信号が前記楽曲のどの位置にあたるかを認識する伴奏位置認識手段と、前記伴奏位置認識手段が認識した位置と前記取得手段が取得した区間指定情報の開始位置とを比較し、両者の差が所定の差になったときに、前記区間指定情報が示す区間を報知する報知手段とを備えることを特徴とする楽曲練習装置を提供する。
本発明の好ましい態様においては、前記区間指定情報は、特定する区間の特徴を示す特徴データを含み、前記報知手段は前記区間の報知とともに、前記特徴データに応じて予め設定された態様の報知を行うことを特徴とする。
【０００５】
また、本発明は、楽曲の伴奏楽音を構成する伴奏データを記憶する伴奏データ記憶手段と、前記楽曲に含まれる旋律の音を表す模範音声データが記憶された模範音声データ記憶手段と、前記楽曲の特定の区間を示す区間指定情報を取得する取得手段と、伴奏の開始を指示する指示手段と、前記指示手段によって伴奏の開始が指示された場合に、楽曲の進行に応じて前記伴奏データ記憶手段から伴奏データを読み出し、読み出した伴奏データに基づいて伴奏音信号を生成する伴奏音信号生成手段と、前記伴奏音信号生成手段が生成した伴奏音信号が前記楽曲のどの位置にあたるかを認識する伴奏位置認識手段と、前記伴奏位置認識手段が認識した位置と前記取得手段が取得した区間指定情報の開始位置とが一致するタイミングで、前記取得手段により取得された区間指定情報の示す区間と対応する部分の模範音声データを前記模範音声データ記憶手段から読み出し、読み出した模範音声データに基づいて音声信号を生成する音声信号生成手段とを備えることを特徴とする楽曲練習装置を提供する。
また、本発明は、楽曲の伴奏楽音を構成する伴奏データを記憶する伴奏データ記憶手段と、前記楽曲の特定の区間を示す区間指定情報を取得する取得手段と、前記取得手段により取得された区間指定情報の示す区間から伴奏の開始を指示する特定区間指示手段と、前記特定区間指示手段によって伴奏の開始が指示された場合に、前記取得手段により取得された区間指定情報の示す区間と対応する部分の伴奏データを前記伴奏データ記憶手段から読み出し、読み出した伴奏データに基づいて伴奏音信号を生成する伴奏音信号生成手段とを備えることを特徴とする楽曲練習装置を提供する。
【０００６】
本発明の好ましい態様においては、前記伴奏データは、楽曲の位置を示す位置情報を含んでおり、前記伴奏位置認識手段は、前記伴奏データに含まれる位置情報から、前記伴奏音信号生成手段が生成した伴奏音信号が前記楽曲のどの位置にあたるかを認識することを特徴とする。
本発明の別の好ましい態様においては、前記伴奏位置認識手段は、前記伴奏音信号生成手段による伴奏データの読み出し処理に応じて、前記伴奏音信号生成手段が生成した伴奏音信号が前記楽曲のどの位置にあたるかを認識することを特徴とする。
【０００７】
また、本発明の更に好ましい態様においては、練習者の音声を表す練習者データの入力を受け付ける入力手段と、入力された練習者データと模範データ記憶手段に記憶された模範データとを、予め定められた時間単位の比較区間毎に比較して、両者の相違の程度を示す相違情報を前記比較区間毎に生成して出力する比較手段とを具備することを特徴とする。
また、本発明の更に好ましい態様においては、前記模範データは、楽曲の旋律のピッチを表すデータであり、前記楽曲練習装置は、前記練習者データから音声のピッチを算出するピッチ算出手段を備え、前記比較手段は、前記ピッチ算出手段により算出されたピッチと前記模範データ記憶手段に記憶された模範データの示すピッチとを、前記比較区間毎に比較して、両者の相違の程度を示す相違情報を前記比較区間毎に生成することを特徴とする。
また、本発明の好ましい態様においては、前記模範データは、楽曲の歌詞を表すデータであり、前記楽曲練習装置は、前記練習者データにより表される音声を認識し、認識した音声に対応する認識文字列を生成する音声認識手段を備え、前記比較手段は、前記音声認識手段により生成された認識文字列と前記模範データ記憶手段に記憶された模範データとを、前記比較区間毎に比較して、両者の相違の程度を示す相違情報を前記比較区間毎に生成することを特徴とする。
また、本発明の好ましい態様においては、前記模範データは、模範となる歌唱に用いられている技法の種類とタイミングとを示す技法データであることを特徴とする。
また、本発明の好ましい態様においては、前記練習者データは、入力される楽器の演奏音を表すデータであり、前記模範データは、模範として用いられる楽器の演奏音を表すデータであることを特徴とする。
また、本発明は、上述の練習装置を複数有し、前記各楽曲練習装置の前記比較手段が生成した相違情報をネットワークを介して受信し、受信した相違情報の統計を前記比較区間毎にとって、統計結果が予め定められた条件を満たす比較区間を抽出し、抽出された比較区間を前記楽曲の特定の区間として示す区間指定情報を生成する区間指定情報生成手段を有するサーバ装置を具備し、前記各楽曲練習装置の前記取得手段は、前記サーバ装置から区間指定情報を取得することを特徴とする楽曲練習システムを提供する。
【発明の効果】
【０００８】
本発明によれば、間違いやすい箇所を事前に歌唱者に報知することができる。
【発明を実施するための最良の形態】
【０００９】
＜Ａ：第１実施形態＞
＜Ａ−１：構成＞
図１は、この発明の一実施形態に係る楽曲練習システム１の全体構成の一例を示すブロック図である。このシステムは、カラオケ装置２ａ，２ｂ，２ｃとサーバ装置３とが通信ネットワーク４を介して接続されて構成される。なお、図１には３つのカラオケ装置が例示されているが、本楽曲練習システムに含まれるカラオケ装置の数は３に限定されるものではなく、これより多くても少なくてもよい。また、以下では、カラオケ装置２ａ，２ｂ，２ｃを各々区別する必要がない場合には、単に「カラオケ装置２」とする。
【００１０】
図２は、カラオケ装置２のハードウェア構成を例示したブロック図である。ＣＰＵ（Central Processing Unit）１１は、ＲＯＭ（Read Only Memory）１２または記憶部１４に記憶されているコンピュータプログラムを読み出してＲＡＭ（Random Access Memory）１３にロードし、これを実行することにより、カラオケ装置２の各部を制御する。記憶部１４は、例えばハードディスクなどの大容量の記憶手段であり、伴奏データ記憶領域１４ａと、歌詞データ記憶領域１４ｂと、練習者音声データ記憶領域１４ｃと、採点結果データ記憶領域１４ｄと、模範音声データ記憶領域１４ｅとを有している。表示部１５は、例えば液晶ディスプレイなどであり、ＣＰＵ１１の制御の下で、カラオケ装置２を操作するためのメニュー画面や、背景画像に歌詞テロップを重ねたカラオケ画面などの各種画面を表示する。操作部１６は、各種のキーを備えており、押下されたキーに対応した信号をＣＰＵ１１へ出力する。マイクロフォン１７は、歌唱者が発音した音声を収音する収音手段である。音声処理部１８は、マイクロフォン１７によって収音された音声（アナログデータ）をデジタルデータに変換してＣＰＵ１１に供給する。スピーカ１９は、音声処理部１８に接続されており、音声処理部１８から出力される信号に応じた強度で放音する。通信部２０は、各種通信装置等を備えており、ＣＰＵ１１の制御の下、通信ネットワーク４を介してサーバ装置３とデータの授受を行う。
【００１１】
記憶部１４の伴奏データ記憶領域１４ａには、例えばＭＩＤＩ（Musical Instruments Digital Interface：登録商標）形式の伴奏データであって、各曲の伴奏を行う各種楽器の旋律の音程（ピッチ）や強さ（ベロシティ）や効果の付与等を示す情報が楽曲の進行に従って記された伴奏データが記憶されている。この伴奏データの中には、楽曲のメロディの音階を示すメロディデータが含まれている。本実施形態においては、このメロディデータを模範データとして用いる。また、この伴奏データは曲中の小節の番号を示す小節番号情報（位置情報）を含んでいる。歌詞データ記憶領域１４ｂには、伴奏データと対応する歌詞を示す歌詞データが記憶されている。
【００１２】
練習者音声データ記憶領域１４ｃには、マイクロフォン１７から音声処理部１８を経てＡ／Ｄ変換された音声データが、例えばＷＡＶＥ形式やＭＰ３（MPEG Audio Layer-3）形式で時系列に記憶される。この音声データは、練習者の音声（以下、練習者音声）を表す音声データであるから、以下では、練習者音声データという。
【００１３】
採点結果データ記憶領域１４ｄには、練習者音声データとメロディデータとの相違の程度を示す相違情報が記憶される。カラオケ装置２のＣＰＵ１１は、練習者音声データとメロディデータとを、予め定められた区間（比較区間）毎に比較して、両者の相違の程度を示す相違情報を区間毎に生成し、生成した相違情報をこの採点結果データ記憶領域１４ｄに記憶する。
【００１４】
図３は、採点結果データの内容の一例を示す図である。図示のように、採点結果データは、「区間番号」と「ピッチ点数」と「歌詞点数」との各項目が互いに対応付けて記憶されている。これらの項目のうち、「区間番号」は、楽曲を構成する区間を識別する情報が記憶される。この実施形態においては、「区間番号」は、１小節を単位として小節毎に割り当てられた小節番号情報を用いる。「ピッチ点数」の項目には、「区間番号」と対応する区間における練習者音声データのピッチとメロディデータのピッチとの相違の程度を示す相違情報が記憶される。図３に示す例においては、１００点満点の点数に換算された数値がピッチ点数として記憶されている態様を示している。図３の例においては、ピッチ点数の数値が大きいほど両者のピッチがより近似しており、逆に数値が小さいほど両者のピッチが相違していることを示している。
「歌詞点数」の項目には、「区間番号」と対応する区間における練習者音声データの歌詞と歌詞データとの相違の程度を示す相違情報が記憶される。図３に示す例においては、この「歌詞点数」も、上述した「ピッチ点数」と同様に、１００点満点の点数に換算された数値が歌詞点数として記憶されている態様を示している。
【００１５】
次に、記憶部１４の模範音声データ記憶領域１４ｅには、例えばＷＡＶＥ形式やＭＰ３形式などの音声データであって、楽曲の歌唱の模範として用いられる、楽曲に含まれる旋律の音を表す音声データ（以下、「模範音声データ」）が記憶されている。
【００１６】
図４は、サーバ装置３のハードウェア構成を例示したブロック図である。ＣＰＵ３１は、ＲＯＭ３２または記憶部３４に記憶されているコンピュータプログラムを読み出してＲＡＭ３３にロードし、これを実行することにより、サーバ装置３の各部を制御する。記憶部３４は、例えばハードディスクなどの大容量の記憶手段であり、採点結果データベース記憶領域３４ａと、区間指定情報記憶領域３４ｂとを有している。通信部３５は、各種通信装置等を備えており、ＣＰＵ３１の制御の下、通信ネットワーク４を介してカラオケ装置２とデータの授受を行う。
【００１７】
記憶部３４の採点結果データベース記憶領域３４ａには、採点結果データの集合である採点結果データベースが記憶されている。この採点結果データベースは、ピッチ採点結果テーブルと、歌詞採点結果テーブルとを楽曲毎に有している。
図５は、ピッチ採点結果テーブルの内容の一例を示す図である。図示のように、このテーブルは、「区間番号」と「ピッチ点数」と「間違い数」と「間違い率」との各項目が互いに関連付けて記憶されている。これらの項目のうち、「区間番号」と「ピッチ点数」とは上述した採点結果データにおいて示したものと同様のデータが記憶される。ただし、このテーブルには、図示のように、「区間番号」に対応付けて、複数の歌唱におけるピッチ点数（「ピッチ点数（歌唱Ａ，歌唱Ｂ・・・）」）が記憶されている。次に、「間違い数」の項目には、相違度が大きいことを示す採点結果の数を示す数値が記憶される。例えば、閾値を６０（％）とすると、「区間１」と対応する「間違い数」には、「区間１」と対応する「ピッチ点数」であってその値が６０以下である「ピッチ点数」総数が記憶される。図５に示す例においては、「区間１」においては、相違度が大きいピッチ点数の数が１である場合を例示している。
次に、「間違い率」の項目には、「間違い数」をピッチ点数における歌唱の総数で除算した値が記憶される。
なお、歌詞採点結果テーブルの内容も図５に示すピッチ採点結果テーブルの内容と同様であり、ここではその説明を省略する。
【００１８】
次に、記憶部３４の区間指定情報記憶領域３４ｂには、例えば歌詞を間違いやすい区間や、音程（ピッチ）を間違いやすい区間などといった楽曲の特定の区間を示す区間指定情報が記憶される。
図６は、区間指定情報の内容の一例を示す図である。図示のように、区間指定情報は、「曲コード」と「区間番号」と「特徴データ」との各項目が互いに関連付けて記憶される。これらの項目のうち、「曲コード」の項目には、楽曲を識別する情報が記憶される。「区間番号」の項目には、小節番号情報が記憶される。「特徴データ」の項目には、例えば「ピッチ間違い」や「歌詞間違い」など、特定する区間の特徴を示す情報が記憶される。
【００１９】
＜Ａ−２：動作＞
次に、楽曲練習システム１の動作を説明する。
＜Ａ−２−１：採点結果統計動作＞
まず、図７に示すフローチャートを参照しつつ、楽曲練習システム１の採点結果統計動作を説明する。
練習者は、カラオケ装置２の操作部１６を操作して歌唱したい曲を選定する。このとき、曲の伴奏を再生するに先立って、カラオケ装置２のＣＰＵ１１は、その曲の間違いやすい箇所について報知動作を行うが、この報知動作については後述するため、ここではその説明を省略する。
練習者は、カラオケ装置２の操作部１６を操作して、歌唱したい曲の伴奏データの再生を指示する。ＣＰＵ１１は、この指示に応じて図７に示す処理を開始する。ＣＰＵ１１は、まず、指定された曲の伴奏データを伴奏データ記憶領域１４ａから読み出し、音声処理部１８に供給する（ステップＳ１）。音声処理部１８は、供給された伴奏データをアナログ信号に変換してスピーカ１９に供給して放音させる。このとき、ＣＰＵ１１は表示部１５を制御して、「伴奏に合わせて歌唱してください」というような歌唱を促すメッセージを表示するようにしてもよい。練習者は、スピーカ１９から放音される伴奏に合わせて歌唱を行う。このとき、練習者の音声はマイクロフォン１７によって収音されて音声信号に変換され、音声処理部１８へと供給される。そして、音声処理部１８によってＡ／Ｄ変換された練習者音声データは、記憶部１４の練習者音声データ記憶領域１４ｃに時系列に記憶される（ステップＳ２）。
【００２０】
伴奏データの再生が終了すると、ＣＰＵ１１は、練習者音声データ記憶領域１４ｃに記憶された練習者音声データを読み出し、読み出した練習者音声データに対して音声分析処理を行い、時刻に対応したピッチを練習者音声データから算出する（ステップＳ３）。
続けて、ＣＰＵ１１は、算出したピッチと記憶部１４の伴奏データ記憶領域１４ａに記憶された伴奏データに含まれるメロディデータのピッチとを、予め定められた区間（比較区間）毎に比較して、両者の相違の程度を示すピッチ点数（相違情報）を区間毎に生成する（ステップＳ４）。
【００２１】
また、ＣＰＵ１１は、練習者音声データ記憶領域１４ｃに記憶された練習者音声データを読み出し、読み出した練習者音声データに対して音声認識処理を行って、練習者音声データにより表される音声を認識し、認識した音声に対応する認識文字列を生成する（ステップＳ５）。そして、ＣＰＵ１１は、生成した認識文字列と歌詞データ記憶領域１４ｂに記憶された歌詞データとを、区間毎に比較して、両者の相違の程度を示す歌詞点数（相違情報）を区間毎に生成する（ステップＳ６）。ステップＳ４とステップＳ６との処理によって、図３に例示したような、区間毎の採点結果を示す相違情報が生成される。
ＣＰＵ１１は、ステップＳ４で生成した区間毎のピッチ点数と歌詞点数とを採点結果データとして、通信ネットワーク４を介してサーバ装置３に送信する（ステップＳ７）。このとき、ＣＰＵ１１は、楽曲を識別する曲コードも、採点結果データとあわせて送信する。
【００２２】
図８は、サーバ装置３が行う処理の流れを示すフローチャートである。サーバ装置３のＣＰＵ３１は、通信ネットワーク４を介して採点結果データと曲コードとを受信したことを検知すると、受信された採点結果データ（相違情報）を記憶部３４の採点結果データベース記憶領域３４ａに記憶する（ステップＳＢ１）。
そして、ＣＰＵ３１は、採点結果データのピッチ点数と歌詞点数とのそれぞれの統計を区間毎にとって、区間毎の「間違い数」と「間違い率」とを算出する（ステップＳＢ２）。具体的には、例えば、ピッチ点数の統計処理としては、採点結果データベースのピッチ採点結果テーブルに記憶されたピッチ点数を、区間毎に、その区間のピッチ点数が６０％以下であるものをカウントし、カウント結果をピッチ採点結果テーブルの「間違い数」の項目に記憶する。また、それぞれの区間について、間違い数をピッチ点数における歌唱の総数で除算した値を「間違い率」の項目に記憶する。
歌詞点数についても、歌詞点数と同様の統計処理を実行して、区間毎の歌詞の「間違い数」と「間違い率」とを歌詞採点結果テーブルの「間違い数」と「間違い率」との項目にそれぞれ記憶する。
このように、ピッチ点数と歌詞点数とのそれぞれについて上述した統計処理を行うことにより、図５に示すような、区間毎の統計結果（間違い数、間違い率）が得られる。
このように区間毎に統計処理を行うことで、各観点（ピッチ、歌詞など）に対して多くの人が間違えている区間、すなわち間違えやすい区間を特定することができる。
【００２３】
次に、サーバ装置３のＣＰＵ３１は、相違情報（ピッチ点数、歌詞点数）の統計を区間毎にとった統計結果（間違い数、間違い率）が、予め定められた条件を満たす区間を抽出する（ステップＳＢ３）。具体的には、例えば、間違い数の多い区間から順に、予め定められた数の区間を、間違いやすい区間として抽出する。または、間違い率が所定の閾値よりも大きい区間を抽出するようにしてもよい。また、他の例としては、間違い率の上位から何位までと決め打ちして抽出するようにしてもよい。または、区間毎に点数の平均値を算出して、それが低い方から所定の数分の区間を抽出するようにしてもよい。または、区間毎に点数の平均点を算出して、平均点が所定の閾値よりも小さい区間を抽出するようにしてもよい。要するに、統計結果が予め定められた条件を満たす区間を抽出するようにすればよい。
【００２４】
サーバ装置３のＣＰＵ３１は、抽出した区間を示す区間指定情報を区間指定情報記憶領域３４ｂに記憶する。なお、このとき、ＣＰＵ３１が、通信ネットワーク４を介して区間指定情報をカラオケ装置２に送信することによって区間指定情報を出力するようにしてもよい（ステップＳＢ４）。
【００２５】
＜Ａ−２−２：報知動作＞
次に、区間指定情報の報知動作について説明する。
練習者は、カラオケ装置２の操作部１６を操作して歌唱したい曲を選定する。
カラオケ装置２は、操作部１６を介して曲が選定されたことを検知すると、練習者が歌唱するに先立って、その曲において間違いやすい区間を示す情報を取得する旨のリクエスト情報を、通信ネットワーク４を介してサーバ装置３に送信する。
サーバ装置３のＣＰＵ３１は、通信ネットワーク４を介してリクエスト情報を受信したことを検知すると、受信したリクエスト情報と対応する曲の曲コードを区間指定情報記憶領域３４ｂから検索し、検索された曲コードと対応付けて記憶された区間指定情報を、通信ネットワーク４を介してカラオケ装置２に送信する。
【００２６】
カラオケ装置２のＣＰＵ１１は、通信ネットワーク４を介して区間指定情報を受信したことを検知すると、練習者に報知モードを選択させる旨の画面を表示部１５に表示させる。
図９は、表示部１５に表示される画面の一例を示す図である。図示のように、「間違いやすい箇所を歌唱中に報知」、「間違いやすい箇所を練習」および「間違いやすい箇所を代替歌唱」のいずれかの選択を促す画面が表示部１５に表示される。練習者は、表示部１５に表示される画面を確認しつつ、操作部１６を操作してこれらのうちのいずれかを選択する。
【００２７】
図９に示す画面において、「間違いやすい箇所を歌唱中に報知」が選択された場合は、カラオケ装置２のＣＰＵ１１は、指定された曲の伴奏データを伴奏データ記憶領域１４ａから読み出し、音声処理部１８に供給する。音声処理部１８は、供給された伴奏データをアナログ信号（伴奏音信号）に変換してスピーカ１９に供給して放音させる。このとき、ＣＰＵ１１は、音声処理部１８によって生成される伴奏音信号が楽曲のどの位置にあたるかを認識する。この認識処理は、具体的には、例えば、ＣＰＵ１１が、音声処理部１８に供給する伴奏データに含まれる小節番号情報から認識する。
【００２８】
ＣＰＵ１１は、認識した位置（小節）とサーバ装置３から取得した区間指定情報の開始位置（小節）とを比較し、両者の差が所定の差（この実施形態では１フレーズ）になったときに、当該区間指定情報が示す区間を報知するとともに、区間指定情報に含まれる特徴データに応じて予め設定された態様の報知を行う。予め設定された態様とは、例えば、特徴データが「ピッチ間違い」である区間については、ガイドメロディの音量を大きくする態様であってもよい。また、例えば、特徴データが「歌詞間違い」である区間については、歌詞表示の文字を大きくしたり、文字に色をつけたり、文字の上部に付点を表示させる等の態様であってもよい。または、例えば、画面上に、「次のフレーズは歌詞に注意」などのメッセージを表示部１５に表示させる態様であってもよい。要するに、特徴データに応じて予め設定された態様の報知であればどのようなものであってもよい。なお、予め定められた態様とは、一つの態様に限らず、歌詞を逐一太字にする態様と、単なる注意で止める態様とを選択できるようにしてもよい。
【００２９】
図１０は、区間指定情報の報知の態様の一例を示す図である。この例においては、区間指定情報が、歌詞の「母の背中」という部分の区間を示す情報であり、また特徴データが「歌詞間違い」である場合の報知の態様の一例について示している。この場合、ＣＰＵ１１は、楽曲の進行に応じて伴奏データ記憶領域１４ａから伴奏データを読み出して音声処理部１８に供給するとともに、供給する伴奏データと対応する歌詞データを歌詞データ記憶領域１４ｂから読み出して表示部１５に供給する。音声処理部１８は、供給される伴奏データに基づいて伴奏音信号をスピーカ１９から放音させ、表示部１５は、ＣＰＵ１１の制御の下、図１０に示すように歌詞データに応じた歌詞テロップＡ１を表示する。
このとき、ＣＰＵ１１は、サーバ装置３から取得した区間指定情報に含まれる区間番号に基づいて当該区間指定情報の開始位置を特定する。そして、ＣＰＵ１１は、伴奏音信号の位置と区間指定情報の開始位置とを比較し、両者の差が所定の差（この実施形態では１フレーズ）になったときに、区間指定情報に含まれる特徴データに応じて、当該区間指定情報が示す区間と対応する歌詞の文字Ａ１１を大きくして表示部１５に表示させ、また、「次のフレーズには歌詞に注意しましょう」といった練習者の注意を促すメッセージＡ１２を表示部１５に表示させる。
【００３０】
このように歌詞や音程（ピッチ）の間違えやすい箇所が報知されるから、練習者は、初めて歌唱する場合であっても、これから歌唱する区間ではどういう間違いをしやすいかを事前に知ることができ、そこに注意して歌唱することができる。
【００３１】
また、本実施形態においては、過去の歌唱者の統計結果に基づいて間違いやすい箇所を特定している。間違いやすい箇所はある程度個人差はあるものの、それらは似通っていることが多いから、過去の歌唱者の統計をとることで、間違いやすい箇所をより正確に特定することができる。
【００３２】
次に、図９に示す画面において、「間違いやすい箇所を練習」するモードが選択された場合には、ＣＰＵ１１は、まず、サーバ装置３から取得した区間指定情報の示す区間のリストを表示部１５に表示させる。
図１１は、区間指定情報の示す区間のリストが表示された画面の一例を示す図である。図示のように、ＣＰＵ１１は、区間指定情報の示す複数の区間の情報（何小節目、区間の特徴（歌詞間違いが多い、音程間違いが多い、等）、その区間と対応する歌詞、等）を、表示部１５に表示させる。練習者は、表示部１５に表示される画面を確認しつつ、自分が練習したい区間を選択する。ＣＰＵ１１は、区間が選択されたことを検知すると、選択された区間と対応する部分の伴奏データを、伴奏データ記憶領域１４ａから読み出して、音声処理部１８に供給する。音声処理部１８は、供給された伴奏データをアナログ信号に変換してスピーカ１９に供給して放音させる。
【００３３】
このように、間違いやすい区間と対応する部分の伴奏が放音されるから、練習者は、初めて歌唱する場合であっても、間違いやすい箇所を事前に練習することができる。
【００３４】
次に、図９に示す画面において、「間違いやすい箇所を代替歌唱」のモードが選択された場合には、ＣＰＵ１１は、指定された曲の伴奏データを伴奏データ記憶領域１４ａから読み出し、音声処理部１８に供給する。音声処理部１８は、供給された伴奏データをアナログ信号に変換してスピーカ１９に供給して放音させる。また、このとき、ＣＰＵ１１は、伴奏データに含まれる小節番号情報に基づいて、音声処理部１８によって生成される伴奏音信号が楽曲のどの位置にあたるかを認識する。
ＣＰＵ１１は、認識した位置（小節）とサーバ装置３から取得した区間指定情報の開始位置（小節）とが一致するタイミングで、当該区間指定情報の示す区間と対応する部分の模範音声データを模範音声データ記憶領域１４ｅから読み出し、読み出した模範音声データを音声処理部１８に供給する。音声処理部１８は、供給された模範音声データをアナログ信号に変換してスピーカ１９に供給して放音させる。すなわち、サーバ装置３から取得した区間指定情報の示す区間においては、伴奏音と模範音声との両方が放音され、一方、サーバ装置３から取得した区間指定情報の示す区間以外においては、伴奏音のみが再生される。
【００３５】
このように、間違いやすい区間においては、模範音声が放音されるから、カラオケ装置２は、間違いやすい（難しい）箇所については練習者に代わって歌唱音声を放音することができる。すなわち、練習者は、曲のほとんどを自分で歌唱するものの、難しい（間違いやすい）箇所については自分で歌唱しなくてもカラオケ装置２が模範音声で代替歌唱してくれることになる。これにより、練習者は、曲中の難しい箇所を自分で歌唱する必要がなく、難しい箇所が含まれていて歌唱が困難であるとみなしていた曲であっても、その曲の歌唱に挑戦することができる。
【００３６】
＜Ｂ：第２実施形態＞
次に、この発明の第２の実施形態について説明する。
この実施形態が、上述した第１の実施形態と異なる点は、カラオケ装置の記憶部に記憶されているデータが異なる点と、カラオケ装置が行う採点処理とが異なる点であり、他の構成は、上述した第１実施形態と同様である。そのため、以下の説明においては、上述した第１実施形態と同様の構成要素については、同じ符号を用いてその説明を省略する。
【００３７】
図１２は、この実施形態のカラオケ装置２Ａのハードウェア構成の一例を示す図である。図において、記憶部１４の模範技法データ記憶領域１４ｆには、模範音声データ記憶領域１４ｅに記憶された模範音声データの表す模範となる歌唱に用いられている歌唱技法の種類とタイミングとを示すデータ（以下、「模範技法データ」）が記憶される。本実施形態においては、この模範技法データが模範データとして用いられる。
図１３は、模範技法データの内容の一例を示す図である。図示のように、模範技法データは、「区間情報」と「種別情報」との各項目が互いに関連付けられている。これらの項目のうち、「区間情報」の項目には、模範音声データにおいて歌唱技法が用いられた区間を示す情報が記憶される。なお、この区間情報が示す区間は、開始時刻情報と終了時刻情報とによって表される時間幅を有した区間であってもよく、またはある１点の時刻を示すものであってもよい。
「種別情報」の項目には、予め複数種類設定された歌唱技法を識別する情報が記憶される。この「種別情報」は、例えば「ビブラート」、「しゃくり」、「こぶし」、「ファルセット」、「つっこみ」、「ため」、「息継ぎ」などの歌唱技法を識別する情報である。「ビブラート」は、音の高さをほんのわずかに連続的に上下させ、震えるような音色を出す技法を示す。「しゃくり」は、目的の音より低い音から発音し、音程を滑らかに目的の音に近づけていく技法を示す。「こぶし」は、装飾的に加えるうねるような節回しを行う技法を示す。「ファルセット」は、いわゆる「裏声」で歌う技法を示す。「つっこみ」は、歌い出しを本来のタイミングよりも早いタイミングにする技法を示す。「ため」は、歌い出しを本来のタイミングよりも遅いタイミングにする技法を示す。「息継ぎ」は、歌唱者が息継ぎをするタイミングを示すものである。
また、練習者技法データ記憶領域１４ｇには、練習者音声データで用いられている歌唱技法を示すデータ（以下、「練習者技法データ」）が記憶される。この練習者技法データの構成は、上述した模範技法データの構成と同様であり、「区間情報」と「種別情報」との各項目が互いに関連付けられて構成されている。
【００３８】
図１４は、採点結果データの内容の一例を示す図である。
図示のように、この採点結果データは、上述した第１実施形態で示した「ピッチ点数」や「歌詞点数」に加えて、「ビブラート点数」や「しゃくり点数」等、歌唱技法の採点結果が区間（比較区間）毎に記憶されている。
【００３９】
次に、この実施形態の採点結果統計動作について、図１５に示すフローチャートを参照しつつ以下に説明する。
練習者がカラオケ装置２Ａの操作部１６を操作して曲を選択すると、選択内容を示す信号が操作部１６からＣＰＵ１１に出力される。ＣＰＵ１１は、操作内容を示す信号が入力されたことを検知すると、選択された曲と対応する模範音声データを記憶部１４の模範音声データ記憶領域１４ｅから読み出し、読み出した模範音声データに対して音声分析処理を行い、時刻に対応したピッチ、パワー、スペクトルを模範音声データから算出する（ステップＳＣ１）。続けて、ＣＰＵ１１は、伴奏データ記憶領域１４ａに記憶された伴奏データに含まれるメロディデータと模範音声データ記憶領域１４ｅに記憶された模範音声データとを所定のフレーム単位で解析し、模範音声データとメロディデータとの時間的な対応関係を検出する（ステップＳＣ２）。
次に、ＣＰＵ１１は、模範音声データから算出されたピッチ、パワーおよびスペクトルの時間的な変化のパターンを解析して、この解析結果が予め定められたパターンに対応するか否かを判定し、対応する場合には当該パターンに対応する区間を特定の歌唱技法が用いられている区間として特定する。そして、ＣＰＵ１１は、特定した区間の区間情報を、その歌唱技法を示す種別情報と関連付けて記憶部１４の模範技法データ記憶領域１４ｆに記憶する（ステップＳＣ３）。
【００４０】
ここで、ステップＳＣ３に示す、各歌唱技法が用いられている区間の特定処理について以下に説明する。本実施形態においては、ＣＰＵ１１は、「ビブラート」、「しゃくり」、「こぶし」、「ファルセット」、「つっこみ」、「ため」および「息継ぎ」の各歌唱技法が用いられている区間を特定（検出）する。これらのうち、「ビブラート」および「しゃくり」は模範音声データから算出されたピッチに基づいて検出する。また、「こぶし」および「ファルセット」は模範音声データから算出されたスペクトルに基づいて検出する。また、「ため」および「つっこみ」は、模範音声データから算出されたピッチとメロディデータとに基づいて検出する。また、「息継ぎ」は、模範音声データから算出されたパワーとメロディデータとに基づいて検出する。
【００４１】
ＣＰＵ１１は、模範音声データとメロディデータとの対応関係と、模範音声データから算出されたピッチとに基づいて、模範音声データに含まれる音の開始時刻と当該音に対応するメロディデータの音の開始時刻とが異なる区間を特定する。ここで、ＣＰＵ１１は、模範音声データのピッチの変化タイミングがメロディデータのピッチの変化タイミングよりも早く現れている区間、すなわち模範音声データに含まれる音の開始時刻が当該音に対応するメロディデータの音の開始時刻よりも早い区間については、この区間を「つっこみ」の歌唱技法が用いられている区間であると特定する。ＣＰＵ１１は、特定した区間の区間情報を、「つっこみ」を示す識別情報と関連付けて記憶部１４の模範技法データ記憶領域１４ｆに記憶する。
逆に、ＣＰＵ１１は、模範音声データとメロディデータとの対応関係と、模範音声データから算出されたピッチとに基づいて、模範音声データのピッチの変化タイミングがメロディデータのピッチの変化タイミングよりも遅れて現れている区間、すなわち模範音声データに含まれる音の開始時刻が当該音に対応するメロディデータの音の開始時刻よりも遅い区間を検出し、検出した区間を「ため」の歌唱技法が用いられている区間であると特定する。
【００４２】
また、ＣＰＵ１１は、模範音声データから算出したピッチの時間的な変化のパターンを解析して、中心となる周波数の上下に所定の範囲内でピッチが連続的に変動している区間を検出し、検出した区間を「ビブラート」の歌唱技法が用いられている区間であると特定する。
【００４３】
また、ＣＰＵ１１は、模範音声データから算出したピッチの時間的な変化のパターンを解析して、低いピッチから高いピッチに連続的にピッチが変化する区間を検出し、検出した区間を「しゃくり」の歌唱技法が用いられている区間であると特定する。なお、この処理は、メロディデータとの対応関係に基づいて行うようにしてもよい。すなわち、ＣＰＵ１１は、模範音声データとメロディデータとの対応関係に基づいて、模範音声データのピッチが、低いピッチから連続的にメロディデータのピッチに近づいている区間を検出すればよい。
【００４４】
また、ＣＰＵ１１は、模範音声データとメロディデータとの対応関係と、模範音声データから算出されたパワーとに基づいて、メロディデータが有音である区間であって模範音声データのパワー値が所定の閾値よりも小さい区間を検出し、検出した箇所を「息継ぎ」の区間であると特定する。
【００４５】
また、ＣＰＵ１１は、模範音声データから算出されたスペクトルの時間的な変化パターンを解析して、スペクトル特性がその予め決められた変化状態に急激に遷移している区間を検出し、検出した区間を「ファルセット」の歌唱技法が用いられている区間であると特定する。ここで、予め決められた変化状態とは、スペクトル特性の高調波成分が極端に少なくなる状態である。例えば、図１６に示すように、地声の場合は沢山の高調波成分が含まれるが（同図（ａ）参照）、ファルセットになると高調波成分の大きさが極端に小さくなる（同図（ｂ）参照）。なお、この場合、ＣＰＵ１１は、ピッチが大幅に上方に変化したかどうかも参照してもよい。ファルセットは地声と同一のピッチを発生する場合でも用いられることもあるが、一般には地声では発声できない高音を発声するときに使われる技法だからである。したがって、音声データのピッチが所定音高以上の場合に限って「ファルセット」の検出をするように構成してもよい。また、男声と女声とでは一般にファルセットを用いる音高の領域が異なるので、音声データの音域や、音声データから検出されるフォルマントによって性別検出を行い、この結果を踏まえてファルセット検出の音高領域を設定してもよい。
また、ＣＰＵ１１は、スペクトル特性の変化の態様が短時間に多様に切り替わる区間を検出し、検出した部分を「こぶし」の歌唱技法が用いられている部分であると特定する。「こぶし」の場合は、短い区間において声色や発声方法を変えて唸るような味わいを付加する歌唱技法であるため、この技法が用いられている区間においてはスペクトル特性が多様に変化するからである。
以上のようにして、ＣＰＵ１１は、模範音声データから各歌唱技法が用いられている区間を検出し、検出した区間を示す区間情報をその歌唱技法を示す種別情報と関連付けて記憶部１４の模範技法データ記憶領域１４ｆに記憶する。
【００４６】
図１５の説明に戻る。カラオケ装置２ＡのＣＰＵ１１は、模範技法データの生成処理（ステップＳＣ３）を終えると、伴奏データ記憶領域１４ａに記憶された伴奏データを読み出して、読み出した伴奏データを音声処理部１８に供給する。音声処理部１８は、供給された伴奏データをアナログ信号に変換して伴奏データの表す音声をスピーカ１９から発音させる。また、ＣＰＵ１１は、伴奏データを音声処理部１８に供給するに併せて、歌詞データ記憶領域１４ｂに記憶された歌詞データを表示部１５に供給して、再生される伴奏に対応する歌詞を表示部１５に表示させる。
【００４７】
練習者は、表示部１５に表示される歌詞を確認しつつ、スピーカ１９から発音される伴奏に併せて歌唱を行う。練習者によって歌唱が行われると、練習者の音声がマイクロフォン１７によって音声信号に変換され、変換された信号が音声処理部１８へ出力される。音声処理部１８は、マイクロフォン１７から出力された音声信号をデジタルデータに変換して練習者音声データとする（ステップＳＣ４）。この練習者音声データは、音声処理部１８から出力されて記憶部１４の練習者音声データ記憶領域１４ｃに記憶される。
【００４８】
伴奏の再生が終了すると、カラオケ装置２ＡのＣＰＵ１１は、練習者音声データ記憶領域１４ｃに記憶された練習者音声データに対して基礎分析処理を行って、ピッチ、パワー、スペクトルを算出する（ステップＳＣ５）。また、カラオケ装置２ＡのＣＰＵ１１は、伴奏データ記憶領域１４ａに記憶された伴奏データに含まれるメロディデータと練習者音声データ記憶領域１４ｃに記憶された練習者音声データとを所定のフレーム単位で解析し、練習者音声データとメロディデータとの時間的な対応関係を検出する（ステップＳＣ６）。続けて、ＣＰＵ１１は、練習者音声データから練習者技法データを生成する（ステップＳＣ７）。これらのステップＳＣ５〜ＳＣ７に示した処理と、上述したステップＳＣ２〜ＳＣ４に示した処理が異なる点は、処理対象となる音声データが異なる点である。すなわち、ステップＳＣ２〜ステップＳＣ４では模範音声データに対して処理を行い、ステップＳＣ５〜ＳＣ７では練習者音声データに対して処理が行われるものの、その処理内容については同様であるため、ステップＳＣ５〜ステップＳＣ７についてはその詳細な説明を省略する。
【００４９】
次に、カラオケ装置２ＡのＣＰＵ１１は、模範音声データと練習者音声データとの両者の波形同士を直接対比して、例えばＤＴＷ（Dynamic Time Warping）等により、模範音声データと、練習者音声データとの時間的な対応付けをフレーム毎に行い、両者の対応箇所を検出する（ステップＳＣ８）。
【００５０】
続けて、カラオケ装置２ＡのＣＰＵ１１は、ステップＳＣ８で検出した対応箇所に基づいて、模範音声データ記憶領域１４ｅに記憶された模範音声データと音声処理部１８から出力された練習者音声データとを比較し、練習者音声データと模範音声データとの相違の程度を示す相違情報を区間毎に生成する（ステップＳＣ９）。具体的には、ＣＰＵ１１は、模範音声データのピッチと練習者音声データのピッチとを区間毎に比較して、練習者音声データと模範音声データとの相違の程度を示す相違情報を区間毎に生成して、生成した相違情報を採点結果データ記憶領域１４ｄに記憶する。また、ＣＰＵ１１は、記憶部１４の模範技法データ記憶領域１４ｆに記憶された模範技法データをひとつずつ読み出して、読み出した模範技法データと対応する練習者技法データを練習者技法データ記憶領域１４ｇから検索し、模範技法データと練習者技法データとを区間毎に比較して、両者の相違の程度を示す相違情報を生成して、採点結果データ記憶領域１４ｄに記憶する。そして、ＣＰＵ１１は、生成した採点結果データを通信ネットワーク４を介してサーバ装置３に送信する（ステップＳＣ１０）。
【００５１】
サーバ装置３は、通信ネットワーク４を介して採点結果データを受信したことを検知すると、受信された採点結果データを記憶部３４の採点結果データベース記憶領域３４ａに記憶し、採点結果データの統計を区間毎にとって、区間毎の歌詞、ピッチ、歌唱技法（ビブラート、こぶし等）の統計結果（間違い数、間違い率）を算出する。なお、この処理は、図８のステップＳＢ１〜ステップＳＢ２に示した処理とその処理対象となるデータ（ピッチ、歌詞、歌唱技法）が異なるものの、おおまかな処理の流れは上述したそれと同様であるため、ここではその説明を省略する。
【００５２】
このように、本実施形態においては、ピッチ、歌詞に加えて、歌唱技法の相違箇所を抽出するから、練習者に、歌唱技法の相違箇所についても報知することができ、より詳細な情報を練習者に報知することができる。
【００５３】
＜Ｃ：変形例＞
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されることなく、他の様々な形態で実施可能である。以下にその一例を示す。
（１）上述した実施形態においては、ガイドメロディの音量を大きくしたり、歌詞の文字を大きくしたりする等によって、特定の区間（間違えやすい区間）を練習者に報知するようにした。報知の形態はこれに限らず、例えば注意を促す音声メッセージや警告音を出力するような形態であってもよいし、または、伴奏音の放音を開始する前に間違えやすい区間の一覧を表示する形態であってもよい。要は、練習者に対して何らかの手段でメッセージ乃至情報を伝えることができる報知形態であればよい。
【００５４】
また、上述した実施形態においては、区間指定情報に含まれる特徴データに応じて予め設定された態様の報知を行うようにしたが、区間指定情報に特徴データを含まない構成としてもよい。この場合は、カラオケ装置のＣＰＵは、「歌詞に注意」といった注意表示を行わずに、区間指定情報の示す区間（例えば、フレーズ番号や小節番号等）を報知するようにすればよい。
【００５５】
（２）カラオケ装置２のＣＰＵ１１が行う採点動作として、第１実施形態においては練習者音声データとメロディデータとを比較し、一方、第２実施形態においては練習者音声データと模範音声データとを比較して採点を行った。採点方法はいずれか一方を用いてもよく、または、両方を用いて採点処理を行うようにしてもよい。また、上述した実施形態においては、音声のピッチ、歌詞または歌唱技法を区間毎に比較するようにしたが、これに限らず、例えばＦＦＴ（Fast Fourier Transform）を用いて練習者音声データと模範音声データとのそれぞれに対してフォルマントの検出を行い、区間毎に声質を比較して採点を行うようにしてもよい。
【００５６】
（３）上述した実施形態においては、区間指定情報に含まれる区間番号は、１小節を単位として小節毎に割り当てられた番号を用いたが、単位区間は小節に限定されるものではなく、例えば１フレーズを単位とするものであってもよく、または音符を単位とするものであってもよい。要は、予め定められた単位であればどのようなものであってもよい。
また、上述した実施形態においては、カラオケ装置２のＣＰＵ１１は、伴奏データに含まれる小節番号情報から認識した位置（小節）とサーバ装置３から取得した区間指定情報の開始位置（小節）とを比較し、両者の差が１フレーズになったときに、当該区間指定情報が示す区間を報知するようになっていた。この場合の「両者の差」は「１フレーズ」に限定されるものではなく、例えば、２フレーズであってもよく、または、１小節であってもよい。要は、両者の差が所定の差になったときに、区間指定情報の示す区間を報知すればよい。
【００５７】
また、上述した実施形態においては、カラオケ装置２のＣＰＵ１１が伴奏データに含まれる小節番号情報に応じて、音声処理部１８によって生成される伴奏音信号が楽曲のどの位置にあたるかを認識するようになっていたが、伴奏音信号の位置の認識方法はこれに限定されるものではなく、例えば、ＣＰＵ１１による伴奏データの読み出し処理に応じて、音声処理部１８が生成した伴奏音信号が楽曲のどの位置にあたるかを認識するようにしてもよい。具体的には、例えば、カラオケ装置のＣＰＵが、記憶部から読み出して音声処理部に供給する伴奏データについて、どういう長さの音符（または休符）を供給したかを積算することによって認識するようにしてもよい。または、ＣＰＵ１１が、テンポクロックをカウントして、曲頭からの拍数でカウントするようにしてもよい。また、音符や拍数（あるいは小節やフレーズ）の積算値は、テンポの速度が分かれば時間に変換することができるので、曲頭からの時間データを用いて、伴奏音信号の曲中の位置を認識してもよい。この場合において、実施形態における相違情報や区間指定情報に含まれる「区間番号」（図８参照）に相当する部分は、伴奏音信号の位置認識に対応して、曲頭からの音符（休符も含む）の累積長、曲頭からの拍数あるいは曲頭からの経過時間を示すデータにするとよい。
【００５８】
（４）上述した実施形態においては、採点結果として、相違の程度を示す相違情報を算出するようにした。これに代えて、比較データそのもの（例えば、ピッチのズレ量）などであってもよい。
【００５９】
（５）上述した実施形態においては、練習者の歌唱を評価する場合を例に挙げて説明したが、これに限らず、練習者の楽器演奏を評価するようにしてもよい。この場合、練習者音声データは入力される楽器の演奏音を表すデータであり、また、伴奏データ記憶領域１４ａには、練習したい楽器以外の楽器の演奏データが記憶されており、模範音声データ記憶領域１４ｅには、模範として用いられる楽器の演奏音を表すデータが記憶されている。
【００６０】
（６）上述した実施形態においては、記憶部１４の模範音声データ記憶領域１４ｅに記憶される音声データはＷＡＶＥ形式やＭＰ３形式のデータとしたが、データの形式はこれに限定されるものではなく、音声を示すデータであればどのような形式のデータであってもよい。
また、上述した実施形態においては、模範音声データを模範音声データ記憶領域１４ｅに記憶させて、カラオケ装置２のＣＰＵ１１が模範音声データ記憶領域１４ｅから模範音声データを読み出すようにしたが、これに代えて、通信ネットワークを介して音声データを受信するようにしてもよい。要するに、模範音声データをＣＰＵ１１に入力するようにすればよい。
また、上述した第１の実施形態においては、模範データとして、楽曲の伴奏を行う各種楽器の旋律の音程（ピッチ）を表すメロディデータを用いた。模範データはこれに限らず、楽曲のメロディやサブメロディ、コーラスなど、楽曲の旋律のピッチを表すデータであればどのようなものであってもよい。
【００６１】
（７）上述した第１の実施形態では、練習者音声データに対して音声認識処理を行って認識した音声に対応する認識文字列を生成し、生成した認識文字列と歌詞データとを区間毎に比較して歌詞の間違いを検出した。これに代えて、模範音声データと練習者音声データのスペクトルをそれぞれ区間毎に算出して、対応する部分のスペクトルを比較することで歌詞の間違いを検出してもよい。
【００６２】
（８）上述した実施形態では、カラオケ装置２とサーバ装置３とが通信ネットワークで接続された楽曲練習システム１が、上述した実施形態に係る機能を実現するようになっている。これに対し、通信ネットワークで接続された３以上の装置が上記機能を分担するようにし、それら複数の装置を備えるシステムが同実施形態のシステムを実現するようにしてもよい。または、ひとつの装置が上記機能のすべてを実現するようにしてもよい。
【００６３】
（９）上述した実施形態におけるカラオケ装置２のＣＰＵ１１またはサーバ装置３のＣＰＵ３１によって実行されるプログラムは、磁気テープ、磁気ディスク、フレキシブルディスク、光記録媒体、光磁気記録媒体、ＣＤ（Compact Disk）−ＲＯＭ、ＤＶＤ（Digital Versatile Disk）、ＲＡＭなどの記録媒体に記憶した状態で提供し得る。また、インターネットのようなネットワーク経由でカラオケ装置２またはサーバ装置３にダウンロードさせることも可能である。
【図面の簡単な説明】
【００６４】
【図１】楽曲練習システムの構成の一例を示すブロック図である。
【図２】カラオケ装置のハードウェア構成の一例を示すブロック図である。
【図３】採点結果データの内容の一例を示す図である。
【図４】サーバ装置のハードウェア構成の一例を示すブロック図である。
【図５】ピッチ採点結果テーブルの内容の一例を示す図である。
【図６】区間指定情報の内容の一例を示す図である。
【図７】カラオケ装置のＣＰＵが行う処理の流れを示すフローチャートである。
【図８】サーバ装置のＣＰＵが行う採点結果統計処理の流れを示すフローチャートである。
【図９】カラオケ装置の表示部に表示される画面の一例を示す図である。
【図１０】区間指定情報の示す区間の報知の態様の一例を示す図である。
【図１１】カラオケ装置の表示部に表示される画面の一例を示す図である。
【図１２】本発明の第２実施形態に係るカラオケ装置のハードウェア構成の一例を示す図である。
【図１３】模範技法データの内容の一例を示す図である。
【図１４】採点結果データの内容の一例を示す図である。
【図１５】カラオケ装置のＣＰＵが行う処理の流れを示すフローチャートである。
【図１６】ファルセットの検出処理を説明するための図である。
【符号の説明】
【００６５】
１…楽曲練習システム、２，２ａ，２ｂ，２ｃ…カラオケ装置、３…サーバ装置、４…通信ネットワーク、１１…ＣＰＵ、１２…ＲＯＭ、１３…ＲＡＭ、１４…記憶部、１５…表示部、１６…操作部、１７…マイクロフォン、１８…音声処理部、１９…スピーカ、２０…通信部、３１…ＣＰＵ、３２…ＲＯＭ、３３…ＲＡＭ、３４…記憶部、３５…通信部。

【特許請求の範囲】
【請求項１】
楽曲の伴奏楽音を構成する伴奏データを記憶する伴奏データ記憶手段と、
前記楽曲の特定の区間を示す区間指定情報を取得する取得手段と、
伴奏の開始を指示する指示手段と、
前記指示手段によって伴奏の開始が指示された場合に、楽曲の進行に応じて前記伴奏データ記憶手段から伴奏データを読み出し、読み出した伴奏データに基づいて伴奏音信号を生成する伴奏音信号生成手段と、
前記伴奏音信号生成手段が生成した伴奏音信号が前記楽曲のどの位置にあたるかを認識する伴奏位置認識手段と、
前記伴奏位置認識手段が認識した位置と前記取得手段が取得した区間指定情報の開始位置とを比較し、両者の差が所定の差になったときに、前記区間指定情報が示す区間を報知する報知手段と
を備えることを特徴とする楽曲練習装置。
【請求項２】
前記区間指定情報は、特定する区間の特徴を示す特徴データを含み、前記報知手段は前記区間の報知とともに、前記特徴データに応じて予め設定された態様の報知を行う
ことを特徴とする請求項１に記載の楽曲練習装置。
【請求項３】
楽曲の伴奏楽音を構成する伴奏データを記憶する伴奏データ記憶手段と、
前記楽曲に含まれる旋律の音を表す模範音声データが記憶された模範音声データ記憶手段と、
前記楽曲の特定の区間を示す区間指定情報を取得する取得手段と、
伴奏の開始を指示する指示手段と、
前記指示手段によって伴奏の開始が指示された場合に、楽曲の進行に応じて前記伴奏データ記憶手段から伴奏データを読み出し、読み出した伴奏データに基づいて伴奏音信号を生成する伴奏音信号生成手段と、
前記伴奏音信号生成手段が生成した伴奏音信号が前記楽曲のどの位置にあたるかを認識する伴奏位置認識手段と、
前記伴奏位置認識手段が認識した位置と前記取得手段が取得した区間指定情報の開始位置とが一致するタイミングで、前記取得手段により取得された区間指定情報の示す区間と対応する部分の模範音声データを前記模範音声データ記憶手段から読み出し、読み出した模範音声データに基づいて音声信号を生成する音声信号生成手段と
を備えることを特徴とする楽曲練習装置。
【請求項４】
楽曲の伴奏楽音を構成する伴奏データを記憶する伴奏データ記憶手段と、
前記楽曲の特定の区間を示す区間指定情報を取得する取得手段と、
前記取得手段により取得された区間指定情報の示す区間から伴奏の開始を指示する特定区間指示手段と、
前記特定区間指示手段によって伴奏の開始が指示された場合に、前記取得手段により取得された区間指定情報の示す区間と対応する部分の伴奏データを前記伴奏データ記憶手段から読み出し、読み出した伴奏データに基づいて伴奏音信号を生成する伴奏音信号生成手段と
を備えることを特徴とする楽曲練習装置。
【請求項５】
前記伴奏データは、楽曲の位置を示す位置情報を含んでおり、前記伴奏位置認識手段は、前記伴奏データに含まれる位置情報から、前記伴奏音信号生成手段が生成した伴奏音信号が前記楽曲のどの位置にあたるかを認識する
ことを特徴とする請求項１乃至３のいずれかに記載の楽曲練習装置。
【請求項６】
前記伴奏位置認識手段は、前記伴奏音信号生成手段による伴奏データの読み出し処理に応じて、前記伴奏音信号生成手段が生成した伴奏音信号が前記楽曲のどの位置にあたるかを認識する
ことを特徴とする請求項１乃至３のいずれかに記載の楽曲練習装置。
【請求項７】
練習者の音声を表す練習者データの入力を受け付ける入力手段と、
入力された練習者データと模範データ記憶手段に記憶された模範データとを、予め定められた時間単位の比較区間毎に比較して、両者の相違の程度を示す相違情報を前記比較区間毎に生成して出力する比較手段とを具備することを特徴とする請求項１乃至６いずれかに記載の楽曲練習装置。
【請求項８】
前記模範データは、楽曲の旋律のピッチを表すデータであり、
前記練習者データから音声のピッチを算出するピッチ算出手段を備え、
前記比較手段は、前記ピッチ算出手段により算出されたピッチと前記模範データ記憶手段に記憶された模範データの示すピッチとを、前記比較区間毎に比較して、両者の相違の程度を示す相違情報を前記比較区間毎に生成する
ことを特徴とする請求項７に記載の楽曲練習装置。
【請求項９】
前記模範データは、楽曲の歌詞を表すデータであり、
前記練習者データにより表される音声を認識し、認識した音声に対応する認識文字列を生成する音声認識手段を備え、
前記比較手段は、前記音声認識手段により生成された認識文字列と前記模範データ記憶手段に記憶された模範データとを、前記比較区間毎に比較して、両者の相違の程度を示す相違情報を前記比較区間毎に生成する
ことを特徴とする請求項７に記載の楽曲練習装置。
【請求項１０】
前記模範データは、模範となる歌唱に用いられている技法の種類とタイミングとを示す技法データであることを特徴とする請求項７に記載の楽曲練習装置。
【請求項１１】
前記練習者データは、入力される楽器の演奏音を表すデータであり、前記模範データは、模範として用いられる楽器の演奏音を表すデータであることを特徴とする請求項７に記載の楽曲練習装置。
【請求項１２】
請求項７乃至１１いずれかに記載の楽曲練習装置を複数有し、
前記各楽曲練習装置の前記比較手段が生成した相違情報をネットワークを介して受信し、受信した相違情報の統計を前記比較区間毎にとって、統計結果が予め定められた条件を満たす比較区間を抽出し、抽出された比較区間を前記楽曲の特定の区間として示す区間指定情報を生成する区間指定情報生成手段を有するサーバ装置を具備し、
前記各楽曲練習装置の取得手段は、前記サーバ装置から区間指定情報を取得することを特徴とする楽曲練習システム。

【図１】