楽曲練習装置および楽曲練習システム
【課題】カラオケ装置において、間違いやすい箇所を事前に歌唱者(または演奏者)に報知することのできる技術を提供する。
【解決手段】 歌唱者(または演奏者)によって曲が選択されると、カラオケ装置2のCPU11は、指定された曲の伴奏データを記憶部14から読み出し、音声処理部18に供給する。音声処理部18は、供給された伴奏データをアナログ信号に変換してスピーカ19に供給して放音させる。このとき、CPU11は、音声処理部18によって生成される伴奏音信号が楽曲のどの位置にあるかを認識し、認識した位置とサーバ装置3から取得した区間指定情報の開始位置とを比較し、両者の差が所定の差になったときに、当該区間指定情報の示す区間を報知する。
【解決手段】 歌唱者(または演奏者)によって曲が選択されると、カラオケ装置2のCPU11は、指定された曲の伴奏データを記憶部14から読み出し、音声処理部18に供給する。音声処理部18は、供給された伴奏データをアナログ信号に変換してスピーカ19に供給して放音させる。このとき、CPU11は、音声処理部18によって生成される伴奏音信号が楽曲のどの位置にあるかを認識し、認識した位置とサーバ装置3から取得した区間指定情報の開始位置とを比較し、両者の差が所定の差になったときに、当該区間指定情報の示す区間を報知する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、楽曲練習装置および楽曲練習システムに関する。
【背景技術】
【0002】
カラオケ装置においては、歌唱者の歌唱の巧拙を採点するための方法が種々提案されている。例えば、特許文献1においては、歌唱された音声のピッチと基準ピッチとを比較して、どの部分がうまく歌えなかったかを判定する方法が提案されている。また、特許文献2おいては、歌唱者の過去の採点結果を記憶し、点数が悪いフレーズではガイドメロディの音量を大きくする方法が提案されている。また、採点結果をサーバに送信して、ランキングを行う方法も提案されている(例えば、特許文献3参照)。
【特許文献1】特開2004−093601号公報
【特許文献2】特開2005−049410号公報
【特許文献3】特開2005−099288号公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
ところで、特許文献1や特許文献2に記載の方法では、歌唱者が一度歌ってみなければどの部分を間違ったかを把握することができない。そのため、歌唱者がその楽曲を初めて歌唱する場合には、歌唱者は楽曲のどの部分に留意して歌唱すべきなのかを把握することはできなかった。これは楽器演奏についても同様である。
本発明は上述した背景の下になされたものであり、カラオケ装置において、間違いやすい箇所を事前に歌唱者に報知することのできる技術を提供することを目的とする。
【課題を解決するための手段】
【0004】
上記課題を解決するため、本発明は、楽曲の伴奏楽音を構成する伴奏データを記憶する伴奏データ記憶手段と、前記楽曲の特定の区間を示す区間指定情報を取得する取得手段と、伴奏の開始を指示する指示手段と、前記指示手段によって伴奏の開始が指示された場合に、楽曲の進行に応じて前記伴奏データ記憶手段から伴奏データを読み出し、読み出した伴奏データに基づいて伴奏音信号を生成する伴奏音信号生成手段と、前記伴奏音信号生成手段が生成した伴奏音信号が前記楽曲のどの位置にあたるかを認識する伴奏位置認識手段と、前記伴奏位置認識手段が認識した位置と前記取得手段が取得した区間指定情報の開始位置とを比較し、両者の差が所定の差になったときに、前記区間指定情報が示す区間を報知する報知手段とを備えることを特徴とする楽曲練習装置を提供する。
本発明の好ましい態様においては、前記区間指定情報は、特定する区間の特徴を示す特徴データを含み、前記報知手段は前記区間の報知とともに、前記特徴データに応じて予め設定された態様の報知を行うことを特徴とする。
【0005】
また、本発明は、楽曲の伴奏楽音を構成する伴奏データを記憶する伴奏データ記憶手段と、前記楽曲に含まれる旋律の音を表す模範音声データが記憶された模範音声データ記憶手段と、前記楽曲の特定の区間を示す区間指定情報を取得する取得手段と、伴奏の開始を指示する指示手段と、前記指示手段によって伴奏の開始が指示された場合に、楽曲の進行に応じて前記伴奏データ記憶手段から伴奏データを読み出し、読み出した伴奏データに基づいて伴奏音信号を生成する伴奏音信号生成手段と、前記伴奏音信号生成手段が生成した伴奏音信号が前記楽曲のどの位置にあたるかを認識する伴奏位置認識手段と、前記伴奏位置認識手段が認識した位置と前記取得手段が取得した区間指定情報の開始位置とが一致するタイミングで、前記取得手段により取得された区間指定情報の示す区間と対応する部分の模範音声データを前記模範音声データ記憶手段から読み出し、読み出した模範音声データに基づいて音声信号を生成する音声信号生成手段とを備えることを特徴とする楽曲練習装置を提供する。
また、本発明は、楽曲の伴奏楽音を構成する伴奏データを記憶する伴奏データ記憶手段と、前記楽曲の特定の区間を示す区間指定情報を取得する取得手段と、前記取得手段により取得された区間指定情報の示す区間から伴奏の開始を指示する特定区間指示手段と、前記特定区間指示手段によって伴奏の開始が指示された場合に、前記取得手段により取得された区間指定情報の示す区間と対応する部分の伴奏データを前記伴奏データ記憶手段から読み出し、読み出した伴奏データに基づいて伴奏音信号を生成する伴奏音信号生成手段とを備えることを特徴とする楽曲練習装置を提供する。
【0006】
本発明の好ましい態様においては、前記伴奏データは、楽曲の位置を示す位置情報を含んでおり、前記伴奏位置認識手段は、前記伴奏データに含まれる位置情報から、前記伴奏音信号生成手段が生成した伴奏音信号が前記楽曲のどの位置にあたるかを認識することを特徴とする。
本発明の別の好ましい態様においては、前記伴奏位置認識手段は、前記伴奏音信号生成手段による伴奏データの読み出し処理に応じて、前記伴奏音信号生成手段が生成した伴奏音信号が前記楽曲のどの位置にあたるかを認識することを特徴とする。
【0007】
また、本発明の更に好ましい態様においては、練習者の音声を表す練習者データの入力を受け付ける入力手段と、入力された練習者データと模範データ記憶手段に記憶された模範データとを、予め定められた時間単位の比較区間毎に比較して、両者の相違の程度を示す相違情報を前記比較区間毎に生成して出力する比較手段とを具備することを特徴とする。
また、本発明の更に好ましい態様においては、前記模範データは、楽曲の旋律のピッチを表すデータであり、前記楽曲練習装置は、前記練習者データから音声のピッチを算出するピッチ算出手段を備え、前記比較手段は、前記ピッチ算出手段により算出されたピッチと前記模範データ記憶手段に記憶された模範データの示すピッチとを、前記比較区間毎に比較して、両者の相違の程度を示す相違情報を前記比較区間毎に生成することを特徴とする。
また、本発明の好ましい態様においては、前記模範データは、楽曲の歌詞を表すデータであり、前記楽曲練習装置は、前記練習者データにより表される音声を認識し、認識した音声に対応する認識文字列を生成する音声認識手段を備え、前記比較手段は、前記音声認識手段により生成された認識文字列と前記模範データ記憶手段に記憶された模範データとを、前記比較区間毎に比較して、両者の相違の程度を示す相違情報を前記比較区間毎に生成することを特徴とする。
また、本発明の好ましい態様においては、前記模範データは、模範となる歌唱に用いられている技法の種類とタイミングとを示す技法データであることを特徴とする。
また、本発明の好ましい態様においては、前記練習者データは、入力される楽器の演奏音を表すデータであり、前記模範データは、模範として用いられる楽器の演奏音を表すデータであることを特徴とする。
また、本発明は、上述の練習装置を複数有し、前記各楽曲練習装置の前記比較手段が生成した相違情報をネットワークを介して受信し、受信した相違情報の統計を前記比較区間毎にとって、統計結果が予め定められた条件を満たす比較区間を抽出し、抽出された比較区間を前記楽曲の特定の区間として示す区間指定情報を生成する区間指定情報生成手段を有するサーバ装置を具備し、前記各楽曲練習装置の前記取得手段は、前記サーバ装置から区間指定情報を取得することを特徴とする楽曲練習システムを提供する。
【発明の効果】
【0008】
本発明によれば、間違いやすい箇所を事前に歌唱者に報知することができる。
【発明を実施するための最良の形態】
【0009】
<A:第1実施形態>
<A−1:構成>
図1は、この発明の一実施形態に係る楽曲練習システム1の全体構成の一例を示すブロック図である。このシステムは、カラオケ装置2a,2b,2cとサーバ装置3とが通信ネットワーク4を介して接続されて構成される。なお、図1には3つのカラオケ装置が例示されているが、本楽曲練習システムに含まれるカラオケ装置の数は3に限定されるものではなく、これより多くても少なくてもよい。また、以下では、カラオケ装置2a,2b,2cを各々区別する必要がない場合には、単に「カラオケ装置2」とする。
【0010】
図2は、カラオケ装置2のハードウェア構成を例示したブロック図である。CPU(Central Processing Unit)11は、ROM(Read Only Memory)12または記憶部14に記憶されているコンピュータプログラムを読み出してRAM(Random Access Memory)13にロードし、これを実行することにより、カラオケ装置2の各部を制御する。記憶部14は、例えばハードディスクなどの大容量の記憶手段であり、伴奏データ記憶領域14aと、歌詞データ記憶領域14bと、練習者音声データ記憶領域14cと、採点結果データ記憶領域14dと、模範音声データ記憶領域14eとを有している。表示部15は、例えば液晶ディスプレイなどであり、CPU11の制御の下で、カラオケ装置2を操作するためのメニュー画面や、背景画像に歌詞テロップを重ねたカラオケ画面などの各種画面を表示する。操作部16は、各種のキーを備えており、押下されたキーに対応した信号をCPU11へ出力する。マイクロフォン17は、歌唱者が発音した音声を収音する収音手段である。音声処理部18は、マイクロフォン17によって収音された音声(アナログデータ)をデジタルデータに変換してCPU11に供給する。スピーカ19は、音声処理部18に接続されており、音声処理部18から出力される信号に応じた強度で放音する。通信部20は、各種通信装置等を備えており、CPU11の制御の下、通信ネットワーク4を介してサーバ装置3とデータの授受を行う。
【0011】
記憶部14の伴奏データ記憶領域14aには、例えばMIDI(Musical Instruments Digital Interface:登録商標)形式の伴奏データであって、各曲の伴奏を行う各種楽器の旋律の音程(ピッチ)や強さ(ベロシティ)や効果の付与等を示す情報が楽曲の進行に従って記された伴奏データが記憶されている。この伴奏データの中には、楽曲のメロディの音階を示すメロディデータが含まれている。本実施形態においては、このメロディデータを模範データとして用いる。また、この伴奏データは曲中の小節の番号を示す小節番号情報(位置情報)を含んでいる。歌詞データ記憶領域14bには、伴奏データと対応する歌詞を示す歌詞データが記憶されている。
【0012】
練習者音声データ記憶領域14cには、マイクロフォン17から音声処理部18を経てA/D変換された音声データが、例えばWAVE形式やMP3(MPEG Audio Layer-3)形式で時系列に記憶される。この音声データは、練習者の音声(以下、練習者音声)を表す音声データであるから、以下では、練習者音声データという。
【0013】
採点結果データ記憶領域14dには、練習者音声データとメロディデータとの相違の程度を示す相違情報が記憶される。カラオケ装置2のCPU11は、練習者音声データとメロディデータとを、予め定められた区間(比較区間)毎に比較して、両者の相違の程度を示す相違情報を区間毎に生成し、生成した相違情報をこの採点結果データ記憶領域14dに記憶する。
【0014】
図3は、採点結果データの内容の一例を示す図である。図示のように、採点結果データは、「区間番号」と「ピッチ点数」と「歌詞点数」との各項目が互いに対応付けて記憶されている。これらの項目のうち、「区間番号」は、楽曲を構成する区間を識別する情報が記憶される。この実施形態においては、「区間番号」は、1小節を単位として小節毎に割り当てられた小節番号情報を用いる。「ピッチ点数」の項目には、「区間番号」と対応する区間における練習者音声データのピッチとメロディデータのピッチとの相違の程度を示す相違情報が記憶される。図3に示す例においては、100点満点の点数に換算された数値がピッチ点数として記憶されている態様を示している。図3の例においては、ピッチ点数の数値が大きいほど両者のピッチがより近似しており、逆に数値が小さいほど両者のピッチが相違していることを示している。
「歌詞点数」の項目には、「区間番号」と対応する区間における練習者音声データの歌詞と歌詞データとの相違の程度を示す相違情報が記憶される。図3に示す例においては、この「歌詞点数」も、上述した「ピッチ点数」と同様に、100点満点の点数に換算された数値が歌詞点数として記憶されている態様を示している。
【0015】
次に、記憶部14の模範音声データ記憶領域14eには、例えばWAVE形式やMP3形式などの音声データであって、楽曲の歌唱の模範として用いられる、楽曲に含まれる旋律の音を表す音声データ(以下、「模範音声データ」)が記憶されている。
【0016】
図4は、サーバ装置3のハードウェア構成を例示したブロック図である。CPU31は、ROM32または記憶部34に記憶されているコンピュータプログラムを読み出してRAM33にロードし、これを実行することにより、サーバ装置3の各部を制御する。記憶部34は、例えばハードディスクなどの大容量の記憶手段であり、採点結果データベース記憶領域34aと、区間指定情報記憶領域34bとを有している。通信部35は、各種通信装置等を備えており、CPU31の制御の下、通信ネットワーク4を介してカラオケ装置2とデータの授受を行う。
【0017】
記憶部34の採点結果データベース記憶領域34aには、採点結果データの集合である採点結果データベースが記憶されている。この採点結果データベースは、ピッチ採点結果テーブルと、歌詞採点結果テーブルとを楽曲毎に有している。
図5は、ピッチ採点結果テーブルの内容の一例を示す図である。図示のように、このテーブルは、「区間番号」と「ピッチ点数」と「間違い数」と「間違い率」との各項目が互いに関連付けて記憶されている。これらの項目のうち、「区間番号」と「ピッチ点数」とは上述した採点結果データにおいて示したものと同様のデータが記憶される。ただし、このテーブルには、図示のように、「区間番号」に対応付けて、複数の歌唱におけるピッチ点数(「ピッチ点数(歌唱A,歌唱B・・・)」)が記憶されている。次に、「間違い数」の項目には、相違度が大きいことを示す採点結果の数を示す数値が記憶される。例えば、閾値を60(%)とすると、「区間1」と対応する「間違い数」には、「区間1」と対応する「ピッチ点数」であってその値が60以下である「ピッチ点数」総数が記憶される。図5に示す例においては、「区間1」においては、相違度が大きいピッチ点数の数が1である場合を例示している。
次に、「間違い率」の項目には、「間違い数」をピッチ点数における歌唱の総数で除算した値が記憶される。
なお、歌詞採点結果テーブルの内容も図5に示すピッチ採点結果テーブルの内容と同様であり、ここではその説明を省略する。
【0018】
次に、記憶部34の区間指定情報記憶領域34bには、例えば歌詞を間違いやすい区間や、音程(ピッチ)を間違いやすい区間などといった楽曲の特定の区間を示す区間指定情報が記憶される。
図6は、区間指定情報の内容の一例を示す図である。図示のように、区間指定情報は、「曲コード」と「区間番号」と「特徴データ」との各項目が互いに関連付けて記憶される。これらの項目のうち、「曲コード」の項目には、楽曲を識別する情報が記憶される。「区間番号」の項目には、小節番号情報が記憶される。「特徴データ」の項目には、例えば「ピッチ間違い」や「歌詞間違い」など、特定する区間の特徴を示す情報が記憶される。
【0019】
<A−2:動作>
次に、楽曲練習システム1の動作を説明する。
<A−2−1:採点結果統計動作>
まず、図7に示すフローチャートを参照しつつ、楽曲練習システム1の採点結果統計動作を説明する。
練習者は、カラオケ装置2の操作部16を操作して歌唱したい曲を選定する。このとき、曲の伴奏を再生するに先立って、カラオケ装置2のCPU11は、その曲の間違いやすい箇所について報知動作を行うが、この報知動作については後述するため、ここではその説明を省略する。
練習者は、カラオケ装置2の操作部16を操作して、歌唱したい曲の伴奏データの再生を指示する。CPU11は、この指示に応じて図7に示す処理を開始する。CPU11は、まず、指定された曲の伴奏データを伴奏データ記憶領域14aから読み出し、音声処理部18に供給する(ステップS1)。音声処理部18は、供給された伴奏データをアナログ信号に変換してスピーカ19に供給して放音させる。このとき、CPU11は表示部15を制御して、「伴奏に合わせて歌唱してください」というような歌唱を促すメッセージを表示するようにしてもよい。練習者は、スピーカ19から放音される伴奏に合わせて歌唱を行う。このとき、練習者の音声はマイクロフォン17によって収音されて音声信号に変換され、音声処理部18へと供給される。そして、音声処理部18によってA/D変換された練習者音声データは、記憶部14の練習者音声データ記憶領域14cに時系列に記憶される(ステップS2)。
【0020】
伴奏データの再生が終了すると、CPU11は、練習者音声データ記憶領域14cに記憶された練習者音声データを読み出し、読み出した練習者音声データに対して音声分析処理を行い、時刻に対応したピッチを練習者音声データから算出する(ステップS3)。
続けて、CPU11は、算出したピッチと記憶部14の伴奏データ記憶領域14aに記憶された伴奏データに含まれるメロディデータのピッチとを、予め定められた区間(比較区間)毎に比較して、両者の相違の程度を示すピッチ点数(相違情報)を区間毎に生成する(ステップS4)。
【0021】
また、CPU11は、練習者音声データ記憶領域14cに記憶された練習者音声データを読み出し、読み出した練習者音声データに対して音声認識処理を行って、練習者音声データにより表される音声を認識し、認識した音声に対応する認識文字列を生成する(ステップS5)。そして、CPU11は、生成した認識文字列と歌詞データ記憶領域14bに記憶された歌詞データとを、区間毎に比較して、両者の相違の程度を示す歌詞点数(相違情報)を区間毎に生成する(ステップS6)。ステップS4とステップS6との処理によって、図3に例示したような、区間毎の採点結果を示す相違情報が生成される。
CPU11は、ステップS4で生成した区間毎のピッチ点数と歌詞点数とを採点結果データとして、通信ネットワーク4を介してサーバ装置3に送信する(ステップS7)。このとき、CPU11は、楽曲を識別する曲コードも、採点結果データとあわせて送信する。
【0022】
図8は、サーバ装置3が行う処理の流れを示すフローチャートである。サーバ装置3のCPU31は、通信ネットワーク4を介して採点結果データと曲コードとを受信したことを検知すると、受信された採点結果データ(相違情報)を記憶部34の採点結果データベース記憶領域34aに記憶する(ステップSB1)。
そして、CPU31は、採点結果データのピッチ点数と歌詞点数とのそれぞれの統計を区間毎にとって、区間毎の「間違い数」と「間違い率」とを算出する(ステップSB2)。具体的には、例えば、ピッチ点数の統計処理としては、採点結果データベースのピッチ採点結果テーブルに記憶されたピッチ点数を、区間毎に、その区間のピッチ点数が60%以下であるものをカウントし、カウント結果をピッチ採点結果テーブルの「間違い数」の項目に記憶する。また、それぞれの区間について、間違い数をピッチ点数における歌唱の総数で除算した値を「間違い率」の項目に記憶する。
歌詞点数についても、歌詞点数と同様の統計処理を実行して、区間毎の歌詞の「間違い数」と「間違い率」とを歌詞採点結果テーブルの「間違い数」と「間違い率」との項目にそれぞれ記憶する。
このように、ピッチ点数と歌詞点数とのそれぞれについて上述した統計処理を行うことにより、図5に示すような、区間毎の統計結果(間違い数、間違い率)が得られる。
このように区間毎に統計処理を行うことで、各観点(ピッチ、歌詞など)に対して多くの人が間違えている区間、すなわち間違えやすい区間を特定することができる。
【0023】
次に、サーバ装置3のCPU31は、相違情報(ピッチ点数、歌詞点数)の統計を区間毎にとった統計結果(間違い数、間違い率)が、予め定められた条件を満たす区間を抽出する(ステップSB3)。具体的には、例えば、間違い数の多い区間から順に、予め定められた数の区間を、間違いやすい区間として抽出する。または、間違い率が所定の閾値よりも大きい区間を抽出するようにしてもよい。また、他の例としては、間違い率の上位から何位までと決め打ちして抽出するようにしてもよい。または、区間毎に点数の平均値を算出して、それが低い方から所定の数分の区間を抽出するようにしてもよい。または、区間毎に点数の平均点を算出して、平均点が所定の閾値よりも小さい区間を抽出するようにしてもよい。要するに、統計結果が予め定められた条件を満たす区間を抽出するようにすればよい。
【0024】
サーバ装置3のCPU31は、抽出した区間を示す区間指定情報を区間指定情報記憶領域34bに記憶する。なお、このとき、CPU31が、通信ネットワーク4を介して区間指定情報をカラオケ装置2に送信することによって区間指定情報を出力するようにしてもよい(ステップSB4)。
【0025】
<A−2−2:報知動作>
次に、区間指定情報の報知動作について説明する。
練習者は、カラオケ装置2の操作部16を操作して歌唱したい曲を選定する。
カラオケ装置2は、操作部16を介して曲が選定されたことを検知すると、練習者が歌唱するに先立って、その曲において間違いやすい区間を示す情報を取得する旨のリクエスト情報を、通信ネットワーク4を介してサーバ装置3に送信する。
サーバ装置3のCPU31は、通信ネットワーク4を介してリクエスト情報を受信したことを検知すると、受信したリクエスト情報と対応する曲の曲コードを区間指定情報記憶領域34bから検索し、検索された曲コードと対応付けて記憶された区間指定情報を、通信ネットワーク4を介してカラオケ装置2に送信する。
【0026】
カラオケ装置2のCPU11は、通信ネットワーク4を介して区間指定情報を受信したことを検知すると、練習者に報知モードを選択させる旨の画面を表示部15に表示させる。
図9は、表示部15に表示される画面の一例を示す図である。図示のように、「間違いやすい箇所を歌唱中に報知」、「間違いやすい箇所を練習」および「間違いやすい箇所を代替歌唱」のいずれかの選択を促す画面が表示部15に表示される。練習者は、表示部15に表示される画面を確認しつつ、操作部16を操作してこれらのうちのいずれかを選択する。
【0027】
図9に示す画面において、「間違いやすい箇所を歌唱中に報知」が選択された場合は、カラオケ装置2のCPU11は、指定された曲の伴奏データを伴奏データ記憶領域14aから読み出し、音声処理部18に供給する。音声処理部18は、供給された伴奏データをアナログ信号(伴奏音信号)に変換してスピーカ19に供給して放音させる。このとき、CPU11は、音声処理部18によって生成される伴奏音信号が楽曲のどの位置にあたるかを認識する。この認識処理は、具体的には、例えば、CPU11が、音声処理部18に供給する伴奏データに含まれる小節番号情報から認識する。
【0028】
CPU11は、認識した位置(小節)とサーバ装置3から取得した区間指定情報の開始位置(小節)とを比較し、両者の差が所定の差(この実施形態では1フレーズ)になったときに、当該区間指定情報が示す区間を報知するとともに、区間指定情報に含まれる特徴データに応じて予め設定された態様の報知を行う。予め設定された態様とは、例えば、特徴データが「ピッチ間違い」である区間については、ガイドメロディの音量を大きくする態様であってもよい。また、例えば、特徴データが「歌詞間違い」である区間については、歌詞表示の文字を大きくしたり、文字に色をつけたり、文字の上部に付点を表示させる等の態様であってもよい。または、例えば、画面上に、「次のフレーズは歌詞に注意」などのメッセージを表示部15に表示させる態様であってもよい。要するに、特徴データに応じて予め設定された態様の報知であればどのようなものであってもよい。なお、予め定められた態様とは、一つの態様に限らず、歌詞を逐一太字にする態様と、単なる注意で止める態様とを選択できるようにしてもよい。
【0029】
図10は、区間指定情報の報知の態様の一例を示す図である。この例においては、区間指定情報が、歌詞の「母の背中」という部分の区間を示す情報であり、また特徴データが「歌詞間違い」である場合の報知の態様の一例について示している。この場合、CPU11は、楽曲の進行に応じて伴奏データ記憶領域14aから伴奏データを読み出して音声処理部18に供給するとともに、供給する伴奏データと対応する歌詞データを歌詞データ記憶領域14bから読み出して表示部15に供給する。音声処理部18は、供給される伴奏データに基づいて伴奏音信号をスピーカ19から放音させ、表示部15は、CPU11の制御の下、図10に示すように歌詞データに応じた歌詞テロップA1を表示する。
このとき、CPU11は、サーバ装置3から取得した区間指定情報に含まれる区間番号に基づいて当該区間指定情報の開始位置を特定する。そして、CPU11は、伴奏音信号の位置と区間指定情報の開始位置とを比較し、両者の差が所定の差(この実施形態では1フレーズ)になったときに、区間指定情報に含まれる特徴データに応じて、当該区間指定情報が示す区間と対応する歌詞の文字A11を大きくして表示部15に表示させ、また、「次のフレーズには歌詞に注意しましょう」といった練習者の注意を促すメッセージA12を表示部15に表示させる。
【0030】
このように歌詞や音程(ピッチ)の間違えやすい箇所が報知されるから、練習者は、初めて歌唱する場合であっても、これから歌唱する区間ではどういう間違いをしやすいかを事前に知ることができ、そこに注意して歌唱することができる。
【0031】
また、本実施形態においては、過去の歌唱者の統計結果に基づいて間違いやすい箇所を特定している。間違いやすい箇所はある程度個人差はあるものの、それらは似通っていることが多いから、過去の歌唱者の統計をとることで、間違いやすい箇所をより正確に特定することができる。
【0032】
次に、図9に示す画面において、「間違いやすい箇所を練習」するモードが選択された場合には、CPU11は、まず、サーバ装置3から取得した区間指定情報の示す区間のリストを表示部15に表示させる。
図11は、区間指定情報の示す区間のリストが表示された画面の一例を示す図である。図示のように、CPU11は、区間指定情報の示す複数の区間の情報(何小節目、区間の特徴(歌詞間違いが多い、音程間違いが多い、等)、その区間と対応する歌詞、等)を、表示部15に表示させる。練習者は、表示部15に表示される画面を確認しつつ、自分が練習したい区間を選択する。CPU11は、区間が選択されたことを検知すると、選択された区間と対応する部分の伴奏データを、伴奏データ記憶領域14aから読み出して、音声処理部18に供給する。音声処理部18は、供給された伴奏データをアナログ信号に変換してスピーカ19に供給して放音させる。
【0033】
このように、間違いやすい区間と対応する部分の伴奏が放音されるから、練習者は、初めて歌唱する場合であっても、間違いやすい箇所を事前に練習することができる。
【0034】
次に、図9に示す画面において、「間違いやすい箇所を代替歌唱」のモードが選択された場合には、CPU11は、指定された曲の伴奏データを伴奏データ記憶領域14aから読み出し、音声処理部18に供給する。音声処理部18は、供給された伴奏データをアナログ信号に変換してスピーカ19に供給して放音させる。また、このとき、CPU11は、伴奏データに含まれる小節番号情報に基づいて、音声処理部18によって生成される伴奏音信号が楽曲のどの位置にあたるかを認識する。
CPU11は、認識した位置(小節)とサーバ装置3から取得した区間指定情報の開始位置(小節)とが一致するタイミングで、当該区間指定情報の示す区間と対応する部分の模範音声データを模範音声データ記憶領域14eから読み出し、読み出した模範音声データを音声処理部18に供給する。音声処理部18は、供給された模範音声データをアナログ信号に変換してスピーカ19に供給して放音させる。すなわち、サーバ装置3から取得した区間指定情報の示す区間においては、伴奏音と模範音声との両方が放音され、一方、サーバ装置3から取得した区間指定情報の示す区間以外においては、伴奏音のみが再生される。
【0035】
このように、間違いやすい区間においては、模範音声が放音されるから、カラオケ装置2は、間違いやすい(難しい)箇所については練習者に代わって歌唱音声を放音することができる。すなわち、練習者は、曲のほとんどを自分で歌唱するものの、難しい(間違いやすい)箇所については自分で歌唱しなくてもカラオケ装置2が模範音声で代替歌唱してくれることになる。これにより、練習者は、曲中の難しい箇所を自分で歌唱する必要がなく、難しい箇所が含まれていて歌唱が困難であるとみなしていた曲であっても、その曲の歌唱に挑戦することができる。
【0036】
<B:第2実施形態>
次に、この発明の第2の実施形態について説明する。
この実施形態が、上述した第1の実施形態と異なる点は、カラオケ装置の記憶部に記憶されているデータが異なる点と、カラオケ装置が行う採点処理とが異なる点であり、他の構成は、上述した第1実施形態と同様である。そのため、以下の説明においては、上述した第1実施形態と同様の構成要素については、同じ符号を用いてその説明を省略する。
【0037】
図12は、この実施形態のカラオケ装置2Aのハードウェア構成の一例を示す図である。図において、記憶部14の模範技法データ記憶領域14fには、模範音声データ記憶領域14eに記憶された模範音声データの表す模範となる歌唱に用いられている歌唱技法の種類とタイミングとを示すデータ(以下、「模範技法データ」)が記憶される。本実施形態においては、この模範技法データが模範データとして用いられる。
図13は、模範技法データの内容の一例を示す図である。図示のように、模範技法データは、「区間情報」と「種別情報」との各項目が互いに関連付けられている。これらの項目のうち、「区間情報」の項目には、模範音声データにおいて歌唱技法が用いられた区間を示す情報が記憶される。なお、この区間情報が示す区間は、開始時刻情報と終了時刻情報とによって表される時間幅を有した区間であってもよく、またはある1点の時刻を示すものであってもよい。
「種別情報」の項目には、予め複数種類設定された歌唱技法を識別する情報が記憶される。この「種別情報」は、例えば「ビブラート」、「しゃくり」、「こぶし」、「ファルセット」、「つっこみ」、「ため」、「息継ぎ」などの歌唱技法を識別する情報である。「ビブラート」は、音の高さをほんのわずかに連続的に上下させ、震えるような音色を出す技法を示す。「しゃくり」は、目的の音より低い音から発音し、音程を滑らかに目的の音に近づけていく技法を示す。「こぶし」は、装飾的に加えるうねるような節回しを行う技法を示す。「ファルセット」は、いわゆる「裏声」で歌う技法を示す。「つっこみ」は、歌い出しを本来のタイミングよりも早いタイミングにする技法を示す。「ため」は、歌い出しを本来のタイミングよりも遅いタイミングにする技法を示す。「息継ぎ」は、歌唱者が息継ぎをするタイミングを示すものである。
また、練習者技法データ記憶領域14gには、練習者音声データで用いられている歌唱技法を示すデータ(以下、「練習者技法データ」)が記憶される。この練習者技法データの構成は、上述した模範技法データの構成と同様であり、「区間情報」と「種別情報」との各項目が互いに関連付けられて構成されている。
【0038】
図14は、採点結果データの内容の一例を示す図である。
図示のように、この採点結果データは、上述した第1実施形態で示した「ピッチ点数」や「歌詞点数」に加えて、「ビブラート点数」や「しゃくり点数」等、歌唱技法の採点結果が区間(比較区間)毎に記憶されている。
【0039】
次に、この実施形態の採点結果統計動作について、図15に示すフローチャートを参照しつつ以下に説明する。
練習者がカラオケ装置2Aの操作部16を操作して曲を選択すると、選択内容を示す信号が操作部16からCPU11に出力される。CPU11は、操作内容を示す信号が入力されたことを検知すると、選択された曲と対応する模範音声データを記憶部14の模範音声データ記憶領域14eから読み出し、読み出した模範音声データに対して音声分析処理を行い、時刻に対応したピッチ、パワー、スペクトルを模範音声データから算出する(ステップSC1)。続けて、CPU11は、伴奏データ記憶領域14aに記憶された伴奏データに含まれるメロディデータと模範音声データ記憶領域14eに記憶された模範音声データとを所定のフレーム単位で解析し、模範音声データとメロディデータとの時間的な対応関係を検出する(ステップSC2)。
次に、CPU11は、模範音声データから算出されたピッチ、パワーおよびスペクトルの時間的な変化のパターンを解析して、この解析結果が予め定められたパターンに対応するか否かを判定し、対応する場合には当該パターンに対応する区間を特定の歌唱技法が用いられている区間として特定する。そして、CPU11は、特定した区間の区間情報を、その歌唱技法を示す種別情報と関連付けて記憶部14の模範技法データ記憶領域14fに記憶する(ステップSC3)。
【0040】
ここで、ステップSC3に示す、各歌唱技法が用いられている区間の特定処理について以下に説明する。本実施形態においては、CPU11は、「ビブラート」、「しゃくり」、「こぶし」、「ファルセット」、「つっこみ」、「ため」および「息継ぎ」の各歌唱技法が用いられている区間を特定(検出)する。これらのうち、「ビブラート」および「しゃくり」は模範音声データから算出されたピッチに基づいて検出する。また、「こぶし」および「ファルセット」は模範音声データから算出されたスペクトルに基づいて検出する。また、「ため」および「つっこみ」は、模範音声データから算出されたピッチとメロディデータとに基づいて検出する。また、「息継ぎ」は、模範音声データから算出されたパワーとメロディデータとに基づいて検出する。
【0041】
CPU11は、模範音声データとメロディデータとの対応関係と、模範音声データから算出されたピッチとに基づいて、模範音声データに含まれる音の開始時刻と当該音に対応するメロディデータの音の開始時刻とが異なる区間を特定する。ここで、CPU11は、模範音声データのピッチの変化タイミングがメロディデータのピッチの変化タイミングよりも早く現れている区間、すなわち模範音声データに含まれる音の開始時刻が当該音に対応するメロディデータの音の開始時刻よりも早い区間については、この区間を「つっこみ」の歌唱技法が用いられている区間であると特定する。CPU11は、特定した区間の区間情報を、「つっこみ」を示す識別情報と関連付けて記憶部14の模範技法データ記憶領域14fに記憶する。
逆に、CPU11は、模範音声データとメロディデータとの対応関係と、模範音声データから算出されたピッチとに基づいて、模範音声データのピッチの変化タイミングがメロディデータのピッチの変化タイミングよりも遅れて現れている区間、すなわち模範音声データに含まれる音の開始時刻が当該音に対応するメロディデータの音の開始時刻よりも遅い区間を検出し、検出した区間を「ため」の歌唱技法が用いられている区間であると特定する。
【0042】
また、CPU11は、模範音声データから算出したピッチの時間的な変化のパターンを解析して、中心となる周波数の上下に所定の範囲内でピッチが連続的に変動している区間を検出し、検出した区間を「ビブラート」の歌唱技法が用いられている区間であると特定する。
【0043】
また、CPU11は、模範音声データから算出したピッチの時間的な変化のパターンを解析して、低いピッチから高いピッチに連続的にピッチが変化する区間を検出し、検出した区間を「しゃくり」の歌唱技法が用いられている区間であると特定する。なお、この処理は、メロディデータとの対応関係に基づいて行うようにしてもよい。すなわち、CPU11は、模範音声データとメロディデータとの対応関係に基づいて、模範音声データのピッチが、低いピッチから連続的にメロディデータのピッチに近づいている区間を検出すればよい。
【0044】
また、CPU11は、模範音声データとメロディデータとの対応関係と、模範音声データから算出されたパワーとに基づいて、メロディデータが有音である区間であって模範音声データのパワー値が所定の閾値よりも小さい区間を検出し、検出した箇所を「息継ぎ」の区間であると特定する。
【0045】
また、CPU11は、模範音声データから算出されたスペクトルの時間的な変化パターンを解析して、スペクトル特性がその予め決められた変化状態に急激に遷移している区間を検出し、検出した区間を「ファルセット」の歌唱技法が用いられている区間であると特定する。ここで、予め決められた変化状態とは、スペクトル特性の高調波成分が極端に少なくなる状態である。例えば、図16に示すように、地声の場合は沢山の高調波成分が含まれるが(同図(a)参照)、ファルセットになると高調波成分の大きさが極端に小さくなる(同図(b)参照)。なお、この場合、CPU11は、ピッチが大幅に上方に変化したかどうかも参照してもよい。ファルセットは地声と同一のピッチを発生する場合でも用いられることもあるが、一般には地声では発声できない高音を発声するときに使われる技法だからである。したがって、音声データのピッチが所定音高以上の場合に限って「ファルセット」の検出をするように構成してもよい。また、男声と女声とでは一般にファルセットを用いる音高の領域が異なるので、音声データの音域や、音声データから検出されるフォルマントによって性別検出を行い、この結果を踏まえてファルセット検出の音高領域を設定してもよい。
また、CPU11は、スペクトル特性の変化の態様が短時間に多様に切り替わる区間を検出し、検出した部分を「こぶし」の歌唱技法が用いられている部分であると特定する。「こぶし」の場合は、短い区間において声色や発声方法を変えて唸るような味わいを付加する歌唱技法であるため、この技法が用いられている区間においてはスペクトル特性が多様に変化するからである。
以上のようにして、CPU11は、模範音声データから各歌唱技法が用いられている区間を検出し、検出した区間を示す区間情報をその歌唱技法を示す種別情報と関連付けて記憶部14の模範技法データ記憶領域14fに記憶する。
【0046】
図15の説明に戻る。カラオケ装置2AのCPU11は、模範技法データの生成処理(ステップSC3)を終えると、伴奏データ記憶領域14aに記憶された伴奏データを読み出して、読み出した伴奏データを音声処理部18に供給する。音声処理部18は、供給された伴奏データをアナログ信号に変換して伴奏データの表す音声をスピーカ19から発音させる。また、CPU11は、伴奏データを音声処理部18に供給するに併せて、歌詞データ記憶領域14bに記憶された歌詞データを表示部15に供給して、再生される伴奏に対応する歌詞を表示部15に表示させる。
【0047】
練習者は、表示部15に表示される歌詞を確認しつつ、スピーカ19から発音される伴奏に併せて歌唱を行う。練習者によって歌唱が行われると、練習者の音声がマイクロフォン17によって音声信号に変換され、変換された信号が音声処理部18へ出力される。音声処理部18は、マイクロフォン17から出力された音声信号をデジタルデータに変換して練習者音声データとする(ステップSC4)。この練習者音声データは、音声処理部18から出力されて記憶部14の練習者音声データ記憶領域14cに記憶される。
【0048】
伴奏の再生が終了すると、カラオケ装置2AのCPU11は、練習者音声データ記憶領域14cに記憶された練習者音声データに対して基礎分析処理を行って、ピッチ、パワー、スペクトルを算出する(ステップSC5)。また、カラオケ装置2AのCPU11は、伴奏データ記憶領域14aに記憶された伴奏データに含まれるメロディデータと練習者音声データ記憶領域14cに記憶された練習者音声データとを所定のフレーム単位で解析し、練習者音声データとメロディデータとの時間的な対応関係を検出する(ステップSC6)。続けて、CPU11は、練習者音声データから練習者技法データを生成する(ステップSC7)。これらのステップSC5〜SC7に示した処理と、上述したステップSC2〜SC4に示した処理が異なる点は、処理対象となる音声データが異なる点である。すなわち、ステップSC2〜ステップSC4では模範音声データに対して処理を行い、ステップSC5〜SC7では練習者音声データに対して処理が行われるものの、その処理内容については同様であるため、ステップSC5〜ステップSC7についてはその詳細な説明を省略する。
【0049】
次に、カラオケ装置2AのCPU11は、模範音声データと練習者音声データとの両者の波形同士を直接対比して、例えばDTW(Dynamic Time Warping)等により、模範音声データと、練習者音声データとの時間的な対応付けをフレーム毎に行い、両者の対応箇所を検出する(ステップSC8)。
【0050】
続けて、カラオケ装置2AのCPU11は、ステップSC8で検出した対応箇所に基づいて、模範音声データ記憶領域14eに記憶された模範音声データと音声処理部18から出力された練習者音声データとを比較し、練習者音声データと模範音声データとの相違の程度を示す相違情報を区間毎に生成する(ステップSC9)。具体的には、CPU11は、模範音声データのピッチと練習者音声データのピッチとを区間毎に比較して、練習者音声データと模範音声データとの相違の程度を示す相違情報を区間毎に生成して、生成した相違情報を採点結果データ記憶領域14dに記憶する。また、CPU11は、記憶部14の模範技法データ記憶領域14fに記憶された模範技法データをひとつずつ読み出して、読み出した模範技法データと対応する練習者技法データを練習者技法データ記憶領域14gから検索し、模範技法データと練習者技法データとを区間毎に比較して、両者の相違の程度を示す相違情報を生成して、採点結果データ記憶領域14dに記憶する。そして、CPU11は、生成した採点結果データを通信ネットワーク4を介してサーバ装置3に送信する(ステップSC10)。
【0051】
サーバ装置3は、通信ネットワーク4を介して採点結果データを受信したことを検知すると、受信された採点結果データを記憶部34の採点結果データベース記憶領域34aに記憶し、採点結果データの統計を区間毎にとって、区間毎の歌詞、ピッチ、歌唱技法(ビブラート、こぶし等)の統計結果(間違い数、間違い率)を算出する。なお、この処理は、図8のステップSB1〜ステップSB2に示した処理とその処理対象となるデータ(ピッチ、歌詞、歌唱技法)が異なるものの、おおまかな処理の流れは上述したそれと同様であるため、ここではその説明を省略する。
【0052】
このように、本実施形態においては、ピッチ、歌詞に加えて、歌唱技法の相違箇所を抽出するから、練習者に、歌唱技法の相違箇所についても報知することができ、より詳細な情報を練習者に報知することができる。
【0053】
<C:変形例>
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されることなく、他の様々な形態で実施可能である。以下にその一例を示す。
(1)上述した実施形態においては、ガイドメロディの音量を大きくしたり、歌詞の文字を大きくしたりする等によって、特定の区間(間違えやすい区間)を練習者に報知するようにした。報知の形態はこれに限らず、例えば注意を促す音声メッセージや警告音を出力するような形態であってもよいし、または、伴奏音の放音を開始する前に間違えやすい区間の一覧を表示する形態であってもよい。要は、練習者に対して何らかの手段でメッセージ乃至情報を伝えることができる報知形態であればよい。
【0054】
また、上述した実施形態においては、区間指定情報に含まれる特徴データに応じて予め設定された態様の報知を行うようにしたが、区間指定情報に特徴データを含まない構成としてもよい。この場合は、カラオケ装置のCPUは、「歌詞に注意」といった注意表示を行わずに、区間指定情報の示す区間(例えば、フレーズ番号や小節番号等)を報知するようにすればよい。
【0055】
(2)カラオケ装置2のCPU11が行う採点動作として、第1実施形態においては練習者音声データとメロディデータとを比較し、一方、第2実施形態においては練習者音声データと模範音声データとを比較して採点を行った。採点方法はいずれか一方を用いてもよく、または、両方を用いて採点処理を行うようにしてもよい。また、上述した実施形態においては、音声のピッチ、歌詞または歌唱技法を区間毎に比較するようにしたが、これに限らず、例えばFFT(Fast Fourier Transform)を用いて練習者音声データと模範音声データとのそれぞれに対してフォルマントの検出を行い、区間毎に声質を比較して採点を行うようにしてもよい。
【0056】
(3)上述した実施形態においては、区間指定情報に含まれる区間番号は、1小節を単位として小節毎に割り当てられた番号を用いたが、単位区間は小節に限定されるものではなく、例えば1フレーズを単位とするものであってもよく、または音符を単位とするものであってもよい。要は、予め定められた単位であればどのようなものであってもよい。
また、上述した実施形態においては、カラオケ装置2のCPU11は、伴奏データに含まれる小節番号情報から認識した位置(小節)とサーバ装置3から取得した区間指定情報の開始位置(小節)とを比較し、両者の差が1フレーズになったときに、当該区間指定情報が示す区間を報知するようになっていた。この場合の「両者の差」は「1フレーズ」に限定されるものではなく、例えば、2フレーズであってもよく、または、1小節であってもよい。要は、両者の差が所定の差になったときに、区間指定情報の示す区間を報知すればよい。
【0057】
また、上述した実施形態においては、カラオケ装置2のCPU11が伴奏データに含まれる小節番号情報に応じて、音声処理部18によって生成される伴奏音信号が楽曲のどの位置にあたるかを認識するようになっていたが、伴奏音信号の位置の認識方法はこれに限定されるものではなく、例えば、CPU11による伴奏データの読み出し処理に応じて、音声処理部18が生成した伴奏音信号が楽曲のどの位置にあたるかを認識するようにしてもよい。具体的には、例えば、カラオケ装置のCPUが、記憶部から読み出して音声処理部に供給する伴奏データについて、どういう長さの音符(または休符)を供給したかを積算することによって認識するようにしてもよい。または、CPU11が、テンポクロックをカウントして、曲頭からの拍数でカウントするようにしてもよい。また、音符や拍数(あるいは小節やフレーズ)の積算値は、テンポの速度が分かれば時間に変換することができるので、曲頭からの時間データを用いて、伴奏音信号の曲中の位置を認識してもよい。この場合において、実施形態における相違情報や区間指定情報に含まれる「区間番号」(図8参照)に相当する部分は、伴奏音信号の位置認識に対応して、曲頭からの音符(休符も含む)の累積長、曲頭からの拍数あるいは曲頭からの経過時間を示すデータにするとよい。
【0058】
(4)上述した実施形態においては、採点結果として、相違の程度を示す相違情報を算出するようにした。これに代えて、比較データそのもの(例えば、ピッチのズレ量)などであってもよい。
【0059】
(5)上述した実施形態においては、練習者の歌唱を評価する場合を例に挙げて説明したが、これに限らず、練習者の楽器演奏を評価するようにしてもよい。この場合、練習者音声データは入力される楽器の演奏音を表すデータであり、また、伴奏データ記憶領域14aには、練習したい楽器以外の楽器の演奏データが記憶されており、模範音声データ記憶領域14eには、模範として用いられる楽器の演奏音を表すデータが記憶されている。
【0060】
(6)上述した実施形態においては、記憶部14の模範音声データ記憶領域14eに記憶される音声データはWAVE形式やMP3形式のデータとしたが、データの形式はこれに限定されるものではなく、音声を示すデータであればどのような形式のデータであってもよい。
また、上述した実施形態においては、模範音声データを模範音声データ記憶領域14eに記憶させて、カラオケ装置2のCPU11が模範音声データ記憶領域14eから模範音声データを読み出すようにしたが、これに代えて、通信ネットワークを介して音声データを受信するようにしてもよい。要するに、模範音声データをCPU11に入力するようにすればよい。
また、上述した第1の実施形態においては、模範データとして、楽曲の伴奏を行う各種楽器の旋律の音程(ピッチ)を表すメロディデータを用いた。模範データはこれに限らず、楽曲のメロディやサブメロディ、コーラスなど、楽曲の旋律のピッチを表すデータであればどのようなものであってもよい。
【0061】
(7)上述した第1の実施形態では、練習者音声データに対して音声認識処理を行って認識した音声に対応する認識文字列を生成し、生成した認識文字列と歌詞データとを区間毎に比較して歌詞の間違いを検出した。これに代えて、模範音声データと練習者音声データのスペクトルをそれぞれ区間毎に算出して、対応する部分のスペクトルを比較することで歌詞の間違いを検出してもよい。
【0062】
(8)上述した実施形態では、カラオケ装置2とサーバ装置3とが通信ネットワークで接続された楽曲練習システム1が、上述した実施形態に係る機能を実現するようになっている。これに対し、通信ネットワークで接続された3以上の装置が上記機能を分担するようにし、それら複数の装置を備えるシステムが同実施形態のシステムを実現するようにしてもよい。または、ひとつの装置が上記機能のすべてを実現するようにしてもよい。
【0063】
(9)上述した実施形態におけるカラオケ装置2のCPU11またはサーバ装置3のCPU31によって実行されるプログラムは、磁気テープ、磁気ディスク、フレキシブルディスク、光記録媒体、光磁気記録媒体、CD(Compact Disk)−ROM、DVD(Digital Versatile Disk)、RAMなどの記録媒体に記憶した状態で提供し得る。また、インターネットのようなネットワーク経由でカラオケ装置2またはサーバ装置3にダウンロードさせることも可能である。
【図面の簡単な説明】
【0064】
【図1】楽曲練習システムの構成の一例を示すブロック図である。
【図2】カラオケ装置のハードウェア構成の一例を示すブロック図である。
【図3】採点結果データの内容の一例を示す図である。
【図4】サーバ装置のハードウェア構成の一例を示すブロック図である。
【図5】ピッチ採点結果テーブルの内容の一例を示す図である。
【図6】区間指定情報の内容の一例を示す図である。
【図7】カラオケ装置のCPUが行う処理の流れを示すフローチャートである。
【図8】サーバ装置のCPUが行う採点結果統計処理の流れを示すフローチャートである。
【図9】カラオケ装置の表示部に表示される画面の一例を示す図である。
【図10】区間指定情報の示す区間の報知の態様の一例を示す図である。
【図11】カラオケ装置の表示部に表示される画面の一例を示す図である。
【図12】本発明の第2実施形態に係るカラオケ装置のハードウェア構成の一例を示す図である。
【図13】模範技法データの内容の一例を示す図である。
【図14】採点結果データの内容の一例を示す図である。
【図15】カラオケ装置のCPUが行う処理の流れを示すフローチャートである。
【図16】ファルセットの検出処理を説明するための図である。
【符号の説明】
【0065】
1…楽曲練習システム、2,2a,2b,2c…カラオケ装置、3…サーバ装置、4…通信ネットワーク、11…CPU、12…ROM、13…RAM、14…記憶部、15…表示部、16…操作部、17…マイクロフォン、18…音声処理部、19…スピーカ、20…通信部、31…CPU、32…ROM、33…RAM、34…記憶部、35…通信部。
【技術分野】
【0001】
本発明は、楽曲練習装置および楽曲練習システムに関する。
【背景技術】
【0002】
カラオケ装置においては、歌唱者の歌唱の巧拙を採点するための方法が種々提案されている。例えば、特許文献1においては、歌唱された音声のピッチと基準ピッチとを比較して、どの部分がうまく歌えなかったかを判定する方法が提案されている。また、特許文献2おいては、歌唱者の過去の採点結果を記憶し、点数が悪いフレーズではガイドメロディの音量を大きくする方法が提案されている。また、採点結果をサーバに送信して、ランキングを行う方法も提案されている(例えば、特許文献3参照)。
【特許文献1】特開2004−093601号公報
【特許文献2】特開2005−049410号公報
【特許文献3】特開2005−099288号公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
ところで、特許文献1や特許文献2に記載の方法では、歌唱者が一度歌ってみなければどの部分を間違ったかを把握することができない。そのため、歌唱者がその楽曲を初めて歌唱する場合には、歌唱者は楽曲のどの部分に留意して歌唱すべきなのかを把握することはできなかった。これは楽器演奏についても同様である。
本発明は上述した背景の下になされたものであり、カラオケ装置において、間違いやすい箇所を事前に歌唱者に報知することのできる技術を提供することを目的とする。
【課題を解決するための手段】
【0004】
上記課題を解決するため、本発明は、楽曲の伴奏楽音を構成する伴奏データを記憶する伴奏データ記憶手段と、前記楽曲の特定の区間を示す区間指定情報を取得する取得手段と、伴奏の開始を指示する指示手段と、前記指示手段によって伴奏の開始が指示された場合に、楽曲の進行に応じて前記伴奏データ記憶手段から伴奏データを読み出し、読み出した伴奏データに基づいて伴奏音信号を生成する伴奏音信号生成手段と、前記伴奏音信号生成手段が生成した伴奏音信号が前記楽曲のどの位置にあたるかを認識する伴奏位置認識手段と、前記伴奏位置認識手段が認識した位置と前記取得手段が取得した区間指定情報の開始位置とを比較し、両者の差が所定の差になったときに、前記区間指定情報が示す区間を報知する報知手段とを備えることを特徴とする楽曲練習装置を提供する。
本発明の好ましい態様においては、前記区間指定情報は、特定する区間の特徴を示す特徴データを含み、前記報知手段は前記区間の報知とともに、前記特徴データに応じて予め設定された態様の報知を行うことを特徴とする。
【0005】
また、本発明は、楽曲の伴奏楽音を構成する伴奏データを記憶する伴奏データ記憶手段と、前記楽曲に含まれる旋律の音を表す模範音声データが記憶された模範音声データ記憶手段と、前記楽曲の特定の区間を示す区間指定情報を取得する取得手段と、伴奏の開始を指示する指示手段と、前記指示手段によって伴奏の開始が指示された場合に、楽曲の進行に応じて前記伴奏データ記憶手段から伴奏データを読み出し、読み出した伴奏データに基づいて伴奏音信号を生成する伴奏音信号生成手段と、前記伴奏音信号生成手段が生成した伴奏音信号が前記楽曲のどの位置にあたるかを認識する伴奏位置認識手段と、前記伴奏位置認識手段が認識した位置と前記取得手段が取得した区間指定情報の開始位置とが一致するタイミングで、前記取得手段により取得された区間指定情報の示す区間と対応する部分の模範音声データを前記模範音声データ記憶手段から読み出し、読み出した模範音声データに基づいて音声信号を生成する音声信号生成手段とを備えることを特徴とする楽曲練習装置を提供する。
また、本発明は、楽曲の伴奏楽音を構成する伴奏データを記憶する伴奏データ記憶手段と、前記楽曲の特定の区間を示す区間指定情報を取得する取得手段と、前記取得手段により取得された区間指定情報の示す区間から伴奏の開始を指示する特定区間指示手段と、前記特定区間指示手段によって伴奏の開始が指示された場合に、前記取得手段により取得された区間指定情報の示す区間と対応する部分の伴奏データを前記伴奏データ記憶手段から読み出し、読み出した伴奏データに基づいて伴奏音信号を生成する伴奏音信号生成手段とを備えることを特徴とする楽曲練習装置を提供する。
【0006】
本発明の好ましい態様においては、前記伴奏データは、楽曲の位置を示す位置情報を含んでおり、前記伴奏位置認識手段は、前記伴奏データに含まれる位置情報から、前記伴奏音信号生成手段が生成した伴奏音信号が前記楽曲のどの位置にあたるかを認識することを特徴とする。
本発明の別の好ましい態様においては、前記伴奏位置認識手段は、前記伴奏音信号生成手段による伴奏データの読み出し処理に応じて、前記伴奏音信号生成手段が生成した伴奏音信号が前記楽曲のどの位置にあたるかを認識することを特徴とする。
【0007】
また、本発明の更に好ましい態様においては、練習者の音声を表す練習者データの入力を受け付ける入力手段と、入力された練習者データと模範データ記憶手段に記憶された模範データとを、予め定められた時間単位の比較区間毎に比較して、両者の相違の程度を示す相違情報を前記比較区間毎に生成して出力する比較手段とを具備することを特徴とする。
また、本発明の更に好ましい態様においては、前記模範データは、楽曲の旋律のピッチを表すデータであり、前記楽曲練習装置は、前記練習者データから音声のピッチを算出するピッチ算出手段を備え、前記比較手段は、前記ピッチ算出手段により算出されたピッチと前記模範データ記憶手段に記憶された模範データの示すピッチとを、前記比較区間毎に比較して、両者の相違の程度を示す相違情報を前記比較区間毎に生成することを特徴とする。
また、本発明の好ましい態様においては、前記模範データは、楽曲の歌詞を表すデータであり、前記楽曲練習装置は、前記練習者データにより表される音声を認識し、認識した音声に対応する認識文字列を生成する音声認識手段を備え、前記比較手段は、前記音声認識手段により生成された認識文字列と前記模範データ記憶手段に記憶された模範データとを、前記比較区間毎に比較して、両者の相違の程度を示す相違情報を前記比較区間毎に生成することを特徴とする。
また、本発明の好ましい態様においては、前記模範データは、模範となる歌唱に用いられている技法の種類とタイミングとを示す技法データであることを特徴とする。
また、本発明の好ましい態様においては、前記練習者データは、入力される楽器の演奏音を表すデータであり、前記模範データは、模範として用いられる楽器の演奏音を表すデータであることを特徴とする。
また、本発明は、上述の練習装置を複数有し、前記各楽曲練習装置の前記比較手段が生成した相違情報をネットワークを介して受信し、受信した相違情報の統計を前記比較区間毎にとって、統計結果が予め定められた条件を満たす比較区間を抽出し、抽出された比較区間を前記楽曲の特定の区間として示す区間指定情報を生成する区間指定情報生成手段を有するサーバ装置を具備し、前記各楽曲練習装置の前記取得手段は、前記サーバ装置から区間指定情報を取得することを特徴とする楽曲練習システムを提供する。
【発明の効果】
【0008】
本発明によれば、間違いやすい箇所を事前に歌唱者に報知することができる。
【発明を実施するための最良の形態】
【0009】
<A:第1実施形態>
<A−1:構成>
図1は、この発明の一実施形態に係る楽曲練習システム1の全体構成の一例を示すブロック図である。このシステムは、カラオケ装置2a,2b,2cとサーバ装置3とが通信ネットワーク4を介して接続されて構成される。なお、図1には3つのカラオケ装置が例示されているが、本楽曲練習システムに含まれるカラオケ装置の数は3に限定されるものではなく、これより多くても少なくてもよい。また、以下では、カラオケ装置2a,2b,2cを各々区別する必要がない場合には、単に「カラオケ装置2」とする。
【0010】
図2は、カラオケ装置2のハードウェア構成を例示したブロック図である。CPU(Central Processing Unit)11は、ROM(Read Only Memory)12または記憶部14に記憶されているコンピュータプログラムを読み出してRAM(Random Access Memory)13にロードし、これを実行することにより、カラオケ装置2の各部を制御する。記憶部14は、例えばハードディスクなどの大容量の記憶手段であり、伴奏データ記憶領域14aと、歌詞データ記憶領域14bと、練習者音声データ記憶領域14cと、採点結果データ記憶領域14dと、模範音声データ記憶領域14eとを有している。表示部15は、例えば液晶ディスプレイなどであり、CPU11の制御の下で、カラオケ装置2を操作するためのメニュー画面や、背景画像に歌詞テロップを重ねたカラオケ画面などの各種画面を表示する。操作部16は、各種のキーを備えており、押下されたキーに対応した信号をCPU11へ出力する。マイクロフォン17は、歌唱者が発音した音声を収音する収音手段である。音声処理部18は、マイクロフォン17によって収音された音声(アナログデータ)をデジタルデータに変換してCPU11に供給する。スピーカ19は、音声処理部18に接続されており、音声処理部18から出力される信号に応じた強度で放音する。通信部20は、各種通信装置等を備えており、CPU11の制御の下、通信ネットワーク4を介してサーバ装置3とデータの授受を行う。
【0011】
記憶部14の伴奏データ記憶領域14aには、例えばMIDI(Musical Instruments Digital Interface:登録商標)形式の伴奏データであって、各曲の伴奏を行う各種楽器の旋律の音程(ピッチ)や強さ(ベロシティ)や効果の付与等を示す情報が楽曲の進行に従って記された伴奏データが記憶されている。この伴奏データの中には、楽曲のメロディの音階を示すメロディデータが含まれている。本実施形態においては、このメロディデータを模範データとして用いる。また、この伴奏データは曲中の小節の番号を示す小節番号情報(位置情報)を含んでいる。歌詞データ記憶領域14bには、伴奏データと対応する歌詞を示す歌詞データが記憶されている。
【0012】
練習者音声データ記憶領域14cには、マイクロフォン17から音声処理部18を経てA/D変換された音声データが、例えばWAVE形式やMP3(MPEG Audio Layer-3)形式で時系列に記憶される。この音声データは、練習者の音声(以下、練習者音声)を表す音声データであるから、以下では、練習者音声データという。
【0013】
採点結果データ記憶領域14dには、練習者音声データとメロディデータとの相違の程度を示す相違情報が記憶される。カラオケ装置2のCPU11は、練習者音声データとメロディデータとを、予め定められた区間(比較区間)毎に比較して、両者の相違の程度を示す相違情報を区間毎に生成し、生成した相違情報をこの採点結果データ記憶領域14dに記憶する。
【0014】
図3は、採点結果データの内容の一例を示す図である。図示のように、採点結果データは、「区間番号」と「ピッチ点数」と「歌詞点数」との各項目が互いに対応付けて記憶されている。これらの項目のうち、「区間番号」は、楽曲を構成する区間を識別する情報が記憶される。この実施形態においては、「区間番号」は、1小節を単位として小節毎に割り当てられた小節番号情報を用いる。「ピッチ点数」の項目には、「区間番号」と対応する区間における練習者音声データのピッチとメロディデータのピッチとの相違の程度を示す相違情報が記憶される。図3に示す例においては、100点満点の点数に換算された数値がピッチ点数として記憶されている態様を示している。図3の例においては、ピッチ点数の数値が大きいほど両者のピッチがより近似しており、逆に数値が小さいほど両者のピッチが相違していることを示している。
「歌詞点数」の項目には、「区間番号」と対応する区間における練習者音声データの歌詞と歌詞データとの相違の程度を示す相違情報が記憶される。図3に示す例においては、この「歌詞点数」も、上述した「ピッチ点数」と同様に、100点満点の点数に換算された数値が歌詞点数として記憶されている態様を示している。
【0015】
次に、記憶部14の模範音声データ記憶領域14eには、例えばWAVE形式やMP3形式などの音声データであって、楽曲の歌唱の模範として用いられる、楽曲に含まれる旋律の音を表す音声データ(以下、「模範音声データ」)が記憶されている。
【0016】
図4は、サーバ装置3のハードウェア構成を例示したブロック図である。CPU31は、ROM32または記憶部34に記憶されているコンピュータプログラムを読み出してRAM33にロードし、これを実行することにより、サーバ装置3の各部を制御する。記憶部34は、例えばハードディスクなどの大容量の記憶手段であり、採点結果データベース記憶領域34aと、区間指定情報記憶領域34bとを有している。通信部35は、各種通信装置等を備えており、CPU31の制御の下、通信ネットワーク4を介してカラオケ装置2とデータの授受を行う。
【0017】
記憶部34の採点結果データベース記憶領域34aには、採点結果データの集合である採点結果データベースが記憶されている。この採点結果データベースは、ピッチ採点結果テーブルと、歌詞採点結果テーブルとを楽曲毎に有している。
図5は、ピッチ採点結果テーブルの内容の一例を示す図である。図示のように、このテーブルは、「区間番号」と「ピッチ点数」と「間違い数」と「間違い率」との各項目が互いに関連付けて記憶されている。これらの項目のうち、「区間番号」と「ピッチ点数」とは上述した採点結果データにおいて示したものと同様のデータが記憶される。ただし、このテーブルには、図示のように、「区間番号」に対応付けて、複数の歌唱におけるピッチ点数(「ピッチ点数(歌唱A,歌唱B・・・)」)が記憶されている。次に、「間違い数」の項目には、相違度が大きいことを示す採点結果の数を示す数値が記憶される。例えば、閾値を60(%)とすると、「区間1」と対応する「間違い数」には、「区間1」と対応する「ピッチ点数」であってその値が60以下である「ピッチ点数」総数が記憶される。図5に示す例においては、「区間1」においては、相違度が大きいピッチ点数の数が1である場合を例示している。
次に、「間違い率」の項目には、「間違い数」をピッチ点数における歌唱の総数で除算した値が記憶される。
なお、歌詞採点結果テーブルの内容も図5に示すピッチ採点結果テーブルの内容と同様であり、ここではその説明を省略する。
【0018】
次に、記憶部34の区間指定情報記憶領域34bには、例えば歌詞を間違いやすい区間や、音程(ピッチ)を間違いやすい区間などといった楽曲の特定の区間を示す区間指定情報が記憶される。
図6は、区間指定情報の内容の一例を示す図である。図示のように、区間指定情報は、「曲コード」と「区間番号」と「特徴データ」との各項目が互いに関連付けて記憶される。これらの項目のうち、「曲コード」の項目には、楽曲を識別する情報が記憶される。「区間番号」の項目には、小節番号情報が記憶される。「特徴データ」の項目には、例えば「ピッチ間違い」や「歌詞間違い」など、特定する区間の特徴を示す情報が記憶される。
【0019】
<A−2:動作>
次に、楽曲練習システム1の動作を説明する。
<A−2−1:採点結果統計動作>
まず、図7に示すフローチャートを参照しつつ、楽曲練習システム1の採点結果統計動作を説明する。
練習者は、カラオケ装置2の操作部16を操作して歌唱したい曲を選定する。このとき、曲の伴奏を再生するに先立って、カラオケ装置2のCPU11は、その曲の間違いやすい箇所について報知動作を行うが、この報知動作については後述するため、ここではその説明を省略する。
練習者は、カラオケ装置2の操作部16を操作して、歌唱したい曲の伴奏データの再生を指示する。CPU11は、この指示に応じて図7に示す処理を開始する。CPU11は、まず、指定された曲の伴奏データを伴奏データ記憶領域14aから読み出し、音声処理部18に供給する(ステップS1)。音声処理部18は、供給された伴奏データをアナログ信号に変換してスピーカ19に供給して放音させる。このとき、CPU11は表示部15を制御して、「伴奏に合わせて歌唱してください」というような歌唱を促すメッセージを表示するようにしてもよい。練習者は、スピーカ19から放音される伴奏に合わせて歌唱を行う。このとき、練習者の音声はマイクロフォン17によって収音されて音声信号に変換され、音声処理部18へと供給される。そして、音声処理部18によってA/D変換された練習者音声データは、記憶部14の練習者音声データ記憶領域14cに時系列に記憶される(ステップS2)。
【0020】
伴奏データの再生が終了すると、CPU11は、練習者音声データ記憶領域14cに記憶された練習者音声データを読み出し、読み出した練習者音声データに対して音声分析処理を行い、時刻に対応したピッチを練習者音声データから算出する(ステップS3)。
続けて、CPU11は、算出したピッチと記憶部14の伴奏データ記憶領域14aに記憶された伴奏データに含まれるメロディデータのピッチとを、予め定められた区間(比較区間)毎に比較して、両者の相違の程度を示すピッチ点数(相違情報)を区間毎に生成する(ステップS4)。
【0021】
また、CPU11は、練習者音声データ記憶領域14cに記憶された練習者音声データを読み出し、読み出した練習者音声データに対して音声認識処理を行って、練習者音声データにより表される音声を認識し、認識した音声に対応する認識文字列を生成する(ステップS5)。そして、CPU11は、生成した認識文字列と歌詞データ記憶領域14bに記憶された歌詞データとを、区間毎に比較して、両者の相違の程度を示す歌詞点数(相違情報)を区間毎に生成する(ステップS6)。ステップS4とステップS6との処理によって、図3に例示したような、区間毎の採点結果を示す相違情報が生成される。
CPU11は、ステップS4で生成した区間毎のピッチ点数と歌詞点数とを採点結果データとして、通信ネットワーク4を介してサーバ装置3に送信する(ステップS7)。このとき、CPU11は、楽曲を識別する曲コードも、採点結果データとあわせて送信する。
【0022】
図8は、サーバ装置3が行う処理の流れを示すフローチャートである。サーバ装置3のCPU31は、通信ネットワーク4を介して採点結果データと曲コードとを受信したことを検知すると、受信された採点結果データ(相違情報)を記憶部34の採点結果データベース記憶領域34aに記憶する(ステップSB1)。
そして、CPU31は、採点結果データのピッチ点数と歌詞点数とのそれぞれの統計を区間毎にとって、区間毎の「間違い数」と「間違い率」とを算出する(ステップSB2)。具体的には、例えば、ピッチ点数の統計処理としては、採点結果データベースのピッチ採点結果テーブルに記憶されたピッチ点数を、区間毎に、その区間のピッチ点数が60%以下であるものをカウントし、カウント結果をピッチ採点結果テーブルの「間違い数」の項目に記憶する。また、それぞれの区間について、間違い数をピッチ点数における歌唱の総数で除算した値を「間違い率」の項目に記憶する。
歌詞点数についても、歌詞点数と同様の統計処理を実行して、区間毎の歌詞の「間違い数」と「間違い率」とを歌詞採点結果テーブルの「間違い数」と「間違い率」との項目にそれぞれ記憶する。
このように、ピッチ点数と歌詞点数とのそれぞれについて上述した統計処理を行うことにより、図5に示すような、区間毎の統計結果(間違い数、間違い率)が得られる。
このように区間毎に統計処理を行うことで、各観点(ピッチ、歌詞など)に対して多くの人が間違えている区間、すなわち間違えやすい区間を特定することができる。
【0023】
次に、サーバ装置3のCPU31は、相違情報(ピッチ点数、歌詞点数)の統計を区間毎にとった統計結果(間違い数、間違い率)が、予め定められた条件を満たす区間を抽出する(ステップSB3)。具体的には、例えば、間違い数の多い区間から順に、予め定められた数の区間を、間違いやすい区間として抽出する。または、間違い率が所定の閾値よりも大きい区間を抽出するようにしてもよい。また、他の例としては、間違い率の上位から何位までと決め打ちして抽出するようにしてもよい。または、区間毎に点数の平均値を算出して、それが低い方から所定の数分の区間を抽出するようにしてもよい。または、区間毎に点数の平均点を算出して、平均点が所定の閾値よりも小さい区間を抽出するようにしてもよい。要するに、統計結果が予め定められた条件を満たす区間を抽出するようにすればよい。
【0024】
サーバ装置3のCPU31は、抽出した区間を示す区間指定情報を区間指定情報記憶領域34bに記憶する。なお、このとき、CPU31が、通信ネットワーク4を介して区間指定情報をカラオケ装置2に送信することによって区間指定情報を出力するようにしてもよい(ステップSB4)。
【0025】
<A−2−2:報知動作>
次に、区間指定情報の報知動作について説明する。
練習者は、カラオケ装置2の操作部16を操作して歌唱したい曲を選定する。
カラオケ装置2は、操作部16を介して曲が選定されたことを検知すると、練習者が歌唱するに先立って、その曲において間違いやすい区間を示す情報を取得する旨のリクエスト情報を、通信ネットワーク4を介してサーバ装置3に送信する。
サーバ装置3のCPU31は、通信ネットワーク4を介してリクエスト情報を受信したことを検知すると、受信したリクエスト情報と対応する曲の曲コードを区間指定情報記憶領域34bから検索し、検索された曲コードと対応付けて記憶された区間指定情報を、通信ネットワーク4を介してカラオケ装置2に送信する。
【0026】
カラオケ装置2のCPU11は、通信ネットワーク4を介して区間指定情報を受信したことを検知すると、練習者に報知モードを選択させる旨の画面を表示部15に表示させる。
図9は、表示部15に表示される画面の一例を示す図である。図示のように、「間違いやすい箇所を歌唱中に報知」、「間違いやすい箇所を練習」および「間違いやすい箇所を代替歌唱」のいずれかの選択を促す画面が表示部15に表示される。練習者は、表示部15に表示される画面を確認しつつ、操作部16を操作してこれらのうちのいずれかを選択する。
【0027】
図9に示す画面において、「間違いやすい箇所を歌唱中に報知」が選択された場合は、カラオケ装置2のCPU11は、指定された曲の伴奏データを伴奏データ記憶領域14aから読み出し、音声処理部18に供給する。音声処理部18は、供給された伴奏データをアナログ信号(伴奏音信号)に変換してスピーカ19に供給して放音させる。このとき、CPU11は、音声処理部18によって生成される伴奏音信号が楽曲のどの位置にあたるかを認識する。この認識処理は、具体的には、例えば、CPU11が、音声処理部18に供給する伴奏データに含まれる小節番号情報から認識する。
【0028】
CPU11は、認識した位置(小節)とサーバ装置3から取得した区間指定情報の開始位置(小節)とを比較し、両者の差が所定の差(この実施形態では1フレーズ)になったときに、当該区間指定情報が示す区間を報知するとともに、区間指定情報に含まれる特徴データに応じて予め設定された態様の報知を行う。予め設定された態様とは、例えば、特徴データが「ピッチ間違い」である区間については、ガイドメロディの音量を大きくする態様であってもよい。また、例えば、特徴データが「歌詞間違い」である区間については、歌詞表示の文字を大きくしたり、文字に色をつけたり、文字の上部に付点を表示させる等の態様であってもよい。または、例えば、画面上に、「次のフレーズは歌詞に注意」などのメッセージを表示部15に表示させる態様であってもよい。要するに、特徴データに応じて予め設定された態様の報知であればどのようなものであってもよい。なお、予め定められた態様とは、一つの態様に限らず、歌詞を逐一太字にする態様と、単なる注意で止める態様とを選択できるようにしてもよい。
【0029】
図10は、区間指定情報の報知の態様の一例を示す図である。この例においては、区間指定情報が、歌詞の「母の背中」という部分の区間を示す情報であり、また特徴データが「歌詞間違い」である場合の報知の態様の一例について示している。この場合、CPU11は、楽曲の進行に応じて伴奏データ記憶領域14aから伴奏データを読み出して音声処理部18に供給するとともに、供給する伴奏データと対応する歌詞データを歌詞データ記憶領域14bから読み出して表示部15に供給する。音声処理部18は、供給される伴奏データに基づいて伴奏音信号をスピーカ19から放音させ、表示部15は、CPU11の制御の下、図10に示すように歌詞データに応じた歌詞テロップA1を表示する。
このとき、CPU11は、サーバ装置3から取得した区間指定情報に含まれる区間番号に基づいて当該区間指定情報の開始位置を特定する。そして、CPU11は、伴奏音信号の位置と区間指定情報の開始位置とを比較し、両者の差が所定の差(この実施形態では1フレーズ)になったときに、区間指定情報に含まれる特徴データに応じて、当該区間指定情報が示す区間と対応する歌詞の文字A11を大きくして表示部15に表示させ、また、「次のフレーズには歌詞に注意しましょう」といった練習者の注意を促すメッセージA12を表示部15に表示させる。
【0030】
このように歌詞や音程(ピッチ)の間違えやすい箇所が報知されるから、練習者は、初めて歌唱する場合であっても、これから歌唱する区間ではどういう間違いをしやすいかを事前に知ることができ、そこに注意して歌唱することができる。
【0031】
また、本実施形態においては、過去の歌唱者の統計結果に基づいて間違いやすい箇所を特定している。間違いやすい箇所はある程度個人差はあるものの、それらは似通っていることが多いから、過去の歌唱者の統計をとることで、間違いやすい箇所をより正確に特定することができる。
【0032】
次に、図9に示す画面において、「間違いやすい箇所を練習」するモードが選択された場合には、CPU11は、まず、サーバ装置3から取得した区間指定情報の示す区間のリストを表示部15に表示させる。
図11は、区間指定情報の示す区間のリストが表示された画面の一例を示す図である。図示のように、CPU11は、区間指定情報の示す複数の区間の情報(何小節目、区間の特徴(歌詞間違いが多い、音程間違いが多い、等)、その区間と対応する歌詞、等)を、表示部15に表示させる。練習者は、表示部15に表示される画面を確認しつつ、自分が練習したい区間を選択する。CPU11は、区間が選択されたことを検知すると、選択された区間と対応する部分の伴奏データを、伴奏データ記憶領域14aから読み出して、音声処理部18に供給する。音声処理部18は、供給された伴奏データをアナログ信号に変換してスピーカ19に供給して放音させる。
【0033】
このように、間違いやすい区間と対応する部分の伴奏が放音されるから、練習者は、初めて歌唱する場合であっても、間違いやすい箇所を事前に練習することができる。
【0034】
次に、図9に示す画面において、「間違いやすい箇所を代替歌唱」のモードが選択された場合には、CPU11は、指定された曲の伴奏データを伴奏データ記憶領域14aから読み出し、音声処理部18に供給する。音声処理部18は、供給された伴奏データをアナログ信号に変換してスピーカ19に供給して放音させる。また、このとき、CPU11は、伴奏データに含まれる小節番号情報に基づいて、音声処理部18によって生成される伴奏音信号が楽曲のどの位置にあたるかを認識する。
CPU11は、認識した位置(小節)とサーバ装置3から取得した区間指定情報の開始位置(小節)とが一致するタイミングで、当該区間指定情報の示す区間と対応する部分の模範音声データを模範音声データ記憶領域14eから読み出し、読み出した模範音声データを音声処理部18に供給する。音声処理部18は、供給された模範音声データをアナログ信号に変換してスピーカ19に供給して放音させる。すなわち、サーバ装置3から取得した区間指定情報の示す区間においては、伴奏音と模範音声との両方が放音され、一方、サーバ装置3から取得した区間指定情報の示す区間以外においては、伴奏音のみが再生される。
【0035】
このように、間違いやすい区間においては、模範音声が放音されるから、カラオケ装置2は、間違いやすい(難しい)箇所については練習者に代わって歌唱音声を放音することができる。すなわち、練習者は、曲のほとんどを自分で歌唱するものの、難しい(間違いやすい)箇所については自分で歌唱しなくてもカラオケ装置2が模範音声で代替歌唱してくれることになる。これにより、練習者は、曲中の難しい箇所を自分で歌唱する必要がなく、難しい箇所が含まれていて歌唱が困難であるとみなしていた曲であっても、その曲の歌唱に挑戦することができる。
【0036】
<B:第2実施形態>
次に、この発明の第2の実施形態について説明する。
この実施形態が、上述した第1の実施形態と異なる点は、カラオケ装置の記憶部に記憶されているデータが異なる点と、カラオケ装置が行う採点処理とが異なる点であり、他の構成は、上述した第1実施形態と同様である。そのため、以下の説明においては、上述した第1実施形態と同様の構成要素については、同じ符号を用いてその説明を省略する。
【0037】
図12は、この実施形態のカラオケ装置2Aのハードウェア構成の一例を示す図である。図において、記憶部14の模範技法データ記憶領域14fには、模範音声データ記憶領域14eに記憶された模範音声データの表す模範となる歌唱に用いられている歌唱技法の種類とタイミングとを示すデータ(以下、「模範技法データ」)が記憶される。本実施形態においては、この模範技法データが模範データとして用いられる。
図13は、模範技法データの内容の一例を示す図である。図示のように、模範技法データは、「区間情報」と「種別情報」との各項目が互いに関連付けられている。これらの項目のうち、「区間情報」の項目には、模範音声データにおいて歌唱技法が用いられた区間を示す情報が記憶される。なお、この区間情報が示す区間は、開始時刻情報と終了時刻情報とによって表される時間幅を有した区間であってもよく、またはある1点の時刻を示すものであってもよい。
「種別情報」の項目には、予め複数種類設定された歌唱技法を識別する情報が記憶される。この「種別情報」は、例えば「ビブラート」、「しゃくり」、「こぶし」、「ファルセット」、「つっこみ」、「ため」、「息継ぎ」などの歌唱技法を識別する情報である。「ビブラート」は、音の高さをほんのわずかに連続的に上下させ、震えるような音色を出す技法を示す。「しゃくり」は、目的の音より低い音から発音し、音程を滑らかに目的の音に近づけていく技法を示す。「こぶし」は、装飾的に加えるうねるような節回しを行う技法を示す。「ファルセット」は、いわゆる「裏声」で歌う技法を示す。「つっこみ」は、歌い出しを本来のタイミングよりも早いタイミングにする技法を示す。「ため」は、歌い出しを本来のタイミングよりも遅いタイミングにする技法を示す。「息継ぎ」は、歌唱者が息継ぎをするタイミングを示すものである。
また、練習者技法データ記憶領域14gには、練習者音声データで用いられている歌唱技法を示すデータ(以下、「練習者技法データ」)が記憶される。この練習者技法データの構成は、上述した模範技法データの構成と同様であり、「区間情報」と「種別情報」との各項目が互いに関連付けられて構成されている。
【0038】
図14は、採点結果データの内容の一例を示す図である。
図示のように、この採点結果データは、上述した第1実施形態で示した「ピッチ点数」や「歌詞点数」に加えて、「ビブラート点数」や「しゃくり点数」等、歌唱技法の採点結果が区間(比較区間)毎に記憶されている。
【0039】
次に、この実施形態の採点結果統計動作について、図15に示すフローチャートを参照しつつ以下に説明する。
練習者がカラオケ装置2Aの操作部16を操作して曲を選択すると、選択内容を示す信号が操作部16からCPU11に出力される。CPU11は、操作内容を示す信号が入力されたことを検知すると、選択された曲と対応する模範音声データを記憶部14の模範音声データ記憶領域14eから読み出し、読み出した模範音声データに対して音声分析処理を行い、時刻に対応したピッチ、パワー、スペクトルを模範音声データから算出する(ステップSC1)。続けて、CPU11は、伴奏データ記憶領域14aに記憶された伴奏データに含まれるメロディデータと模範音声データ記憶領域14eに記憶された模範音声データとを所定のフレーム単位で解析し、模範音声データとメロディデータとの時間的な対応関係を検出する(ステップSC2)。
次に、CPU11は、模範音声データから算出されたピッチ、パワーおよびスペクトルの時間的な変化のパターンを解析して、この解析結果が予め定められたパターンに対応するか否かを判定し、対応する場合には当該パターンに対応する区間を特定の歌唱技法が用いられている区間として特定する。そして、CPU11は、特定した区間の区間情報を、その歌唱技法を示す種別情報と関連付けて記憶部14の模範技法データ記憶領域14fに記憶する(ステップSC3)。
【0040】
ここで、ステップSC3に示す、各歌唱技法が用いられている区間の特定処理について以下に説明する。本実施形態においては、CPU11は、「ビブラート」、「しゃくり」、「こぶし」、「ファルセット」、「つっこみ」、「ため」および「息継ぎ」の各歌唱技法が用いられている区間を特定(検出)する。これらのうち、「ビブラート」および「しゃくり」は模範音声データから算出されたピッチに基づいて検出する。また、「こぶし」および「ファルセット」は模範音声データから算出されたスペクトルに基づいて検出する。また、「ため」および「つっこみ」は、模範音声データから算出されたピッチとメロディデータとに基づいて検出する。また、「息継ぎ」は、模範音声データから算出されたパワーとメロディデータとに基づいて検出する。
【0041】
CPU11は、模範音声データとメロディデータとの対応関係と、模範音声データから算出されたピッチとに基づいて、模範音声データに含まれる音の開始時刻と当該音に対応するメロディデータの音の開始時刻とが異なる区間を特定する。ここで、CPU11は、模範音声データのピッチの変化タイミングがメロディデータのピッチの変化タイミングよりも早く現れている区間、すなわち模範音声データに含まれる音の開始時刻が当該音に対応するメロディデータの音の開始時刻よりも早い区間については、この区間を「つっこみ」の歌唱技法が用いられている区間であると特定する。CPU11は、特定した区間の区間情報を、「つっこみ」を示す識別情報と関連付けて記憶部14の模範技法データ記憶領域14fに記憶する。
逆に、CPU11は、模範音声データとメロディデータとの対応関係と、模範音声データから算出されたピッチとに基づいて、模範音声データのピッチの変化タイミングがメロディデータのピッチの変化タイミングよりも遅れて現れている区間、すなわち模範音声データに含まれる音の開始時刻が当該音に対応するメロディデータの音の開始時刻よりも遅い区間を検出し、検出した区間を「ため」の歌唱技法が用いられている区間であると特定する。
【0042】
また、CPU11は、模範音声データから算出したピッチの時間的な変化のパターンを解析して、中心となる周波数の上下に所定の範囲内でピッチが連続的に変動している区間を検出し、検出した区間を「ビブラート」の歌唱技法が用いられている区間であると特定する。
【0043】
また、CPU11は、模範音声データから算出したピッチの時間的な変化のパターンを解析して、低いピッチから高いピッチに連続的にピッチが変化する区間を検出し、検出した区間を「しゃくり」の歌唱技法が用いられている区間であると特定する。なお、この処理は、メロディデータとの対応関係に基づいて行うようにしてもよい。すなわち、CPU11は、模範音声データとメロディデータとの対応関係に基づいて、模範音声データのピッチが、低いピッチから連続的にメロディデータのピッチに近づいている区間を検出すればよい。
【0044】
また、CPU11は、模範音声データとメロディデータとの対応関係と、模範音声データから算出されたパワーとに基づいて、メロディデータが有音である区間であって模範音声データのパワー値が所定の閾値よりも小さい区間を検出し、検出した箇所を「息継ぎ」の区間であると特定する。
【0045】
また、CPU11は、模範音声データから算出されたスペクトルの時間的な変化パターンを解析して、スペクトル特性がその予め決められた変化状態に急激に遷移している区間を検出し、検出した区間を「ファルセット」の歌唱技法が用いられている区間であると特定する。ここで、予め決められた変化状態とは、スペクトル特性の高調波成分が極端に少なくなる状態である。例えば、図16に示すように、地声の場合は沢山の高調波成分が含まれるが(同図(a)参照)、ファルセットになると高調波成分の大きさが極端に小さくなる(同図(b)参照)。なお、この場合、CPU11は、ピッチが大幅に上方に変化したかどうかも参照してもよい。ファルセットは地声と同一のピッチを発生する場合でも用いられることもあるが、一般には地声では発声できない高音を発声するときに使われる技法だからである。したがって、音声データのピッチが所定音高以上の場合に限って「ファルセット」の検出をするように構成してもよい。また、男声と女声とでは一般にファルセットを用いる音高の領域が異なるので、音声データの音域や、音声データから検出されるフォルマントによって性別検出を行い、この結果を踏まえてファルセット検出の音高領域を設定してもよい。
また、CPU11は、スペクトル特性の変化の態様が短時間に多様に切り替わる区間を検出し、検出した部分を「こぶし」の歌唱技法が用いられている部分であると特定する。「こぶし」の場合は、短い区間において声色や発声方法を変えて唸るような味わいを付加する歌唱技法であるため、この技法が用いられている区間においてはスペクトル特性が多様に変化するからである。
以上のようにして、CPU11は、模範音声データから各歌唱技法が用いられている区間を検出し、検出した区間を示す区間情報をその歌唱技法を示す種別情報と関連付けて記憶部14の模範技法データ記憶領域14fに記憶する。
【0046】
図15の説明に戻る。カラオケ装置2AのCPU11は、模範技法データの生成処理(ステップSC3)を終えると、伴奏データ記憶領域14aに記憶された伴奏データを読み出して、読み出した伴奏データを音声処理部18に供給する。音声処理部18は、供給された伴奏データをアナログ信号に変換して伴奏データの表す音声をスピーカ19から発音させる。また、CPU11は、伴奏データを音声処理部18に供給するに併せて、歌詞データ記憶領域14bに記憶された歌詞データを表示部15に供給して、再生される伴奏に対応する歌詞を表示部15に表示させる。
【0047】
練習者は、表示部15に表示される歌詞を確認しつつ、スピーカ19から発音される伴奏に併せて歌唱を行う。練習者によって歌唱が行われると、練習者の音声がマイクロフォン17によって音声信号に変換され、変換された信号が音声処理部18へ出力される。音声処理部18は、マイクロフォン17から出力された音声信号をデジタルデータに変換して練習者音声データとする(ステップSC4)。この練習者音声データは、音声処理部18から出力されて記憶部14の練習者音声データ記憶領域14cに記憶される。
【0048】
伴奏の再生が終了すると、カラオケ装置2AのCPU11は、練習者音声データ記憶領域14cに記憶された練習者音声データに対して基礎分析処理を行って、ピッチ、パワー、スペクトルを算出する(ステップSC5)。また、カラオケ装置2AのCPU11は、伴奏データ記憶領域14aに記憶された伴奏データに含まれるメロディデータと練習者音声データ記憶領域14cに記憶された練習者音声データとを所定のフレーム単位で解析し、練習者音声データとメロディデータとの時間的な対応関係を検出する(ステップSC6)。続けて、CPU11は、練習者音声データから練習者技法データを生成する(ステップSC7)。これらのステップSC5〜SC7に示した処理と、上述したステップSC2〜SC4に示した処理が異なる点は、処理対象となる音声データが異なる点である。すなわち、ステップSC2〜ステップSC4では模範音声データに対して処理を行い、ステップSC5〜SC7では練習者音声データに対して処理が行われるものの、その処理内容については同様であるため、ステップSC5〜ステップSC7についてはその詳細な説明を省略する。
【0049】
次に、カラオケ装置2AのCPU11は、模範音声データと練習者音声データとの両者の波形同士を直接対比して、例えばDTW(Dynamic Time Warping)等により、模範音声データと、練習者音声データとの時間的な対応付けをフレーム毎に行い、両者の対応箇所を検出する(ステップSC8)。
【0050】
続けて、カラオケ装置2AのCPU11は、ステップSC8で検出した対応箇所に基づいて、模範音声データ記憶領域14eに記憶された模範音声データと音声処理部18から出力された練習者音声データとを比較し、練習者音声データと模範音声データとの相違の程度を示す相違情報を区間毎に生成する(ステップSC9)。具体的には、CPU11は、模範音声データのピッチと練習者音声データのピッチとを区間毎に比較して、練習者音声データと模範音声データとの相違の程度を示す相違情報を区間毎に生成して、生成した相違情報を採点結果データ記憶領域14dに記憶する。また、CPU11は、記憶部14の模範技法データ記憶領域14fに記憶された模範技法データをひとつずつ読み出して、読み出した模範技法データと対応する練習者技法データを練習者技法データ記憶領域14gから検索し、模範技法データと練習者技法データとを区間毎に比較して、両者の相違の程度を示す相違情報を生成して、採点結果データ記憶領域14dに記憶する。そして、CPU11は、生成した採点結果データを通信ネットワーク4を介してサーバ装置3に送信する(ステップSC10)。
【0051】
サーバ装置3は、通信ネットワーク4を介して採点結果データを受信したことを検知すると、受信された採点結果データを記憶部34の採点結果データベース記憶領域34aに記憶し、採点結果データの統計を区間毎にとって、区間毎の歌詞、ピッチ、歌唱技法(ビブラート、こぶし等)の統計結果(間違い数、間違い率)を算出する。なお、この処理は、図8のステップSB1〜ステップSB2に示した処理とその処理対象となるデータ(ピッチ、歌詞、歌唱技法)が異なるものの、おおまかな処理の流れは上述したそれと同様であるため、ここではその説明を省略する。
【0052】
このように、本実施形態においては、ピッチ、歌詞に加えて、歌唱技法の相違箇所を抽出するから、練習者に、歌唱技法の相違箇所についても報知することができ、より詳細な情報を練習者に報知することができる。
【0053】
<C:変形例>
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されることなく、他の様々な形態で実施可能である。以下にその一例を示す。
(1)上述した実施形態においては、ガイドメロディの音量を大きくしたり、歌詞の文字を大きくしたりする等によって、特定の区間(間違えやすい区間)を練習者に報知するようにした。報知の形態はこれに限らず、例えば注意を促す音声メッセージや警告音を出力するような形態であってもよいし、または、伴奏音の放音を開始する前に間違えやすい区間の一覧を表示する形態であってもよい。要は、練習者に対して何らかの手段でメッセージ乃至情報を伝えることができる報知形態であればよい。
【0054】
また、上述した実施形態においては、区間指定情報に含まれる特徴データに応じて予め設定された態様の報知を行うようにしたが、区間指定情報に特徴データを含まない構成としてもよい。この場合は、カラオケ装置のCPUは、「歌詞に注意」といった注意表示を行わずに、区間指定情報の示す区間(例えば、フレーズ番号や小節番号等)を報知するようにすればよい。
【0055】
(2)カラオケ装置2のCPU11が行う採点動作として、第1実施形態においては練習者音声データとメロディデータとを比較し、一方、第2実施形態においては練習者音声データと模範音声データとを比較して採点を行った。採点方法はいずれか一方を用いてもよく、または、両方を用いて採点処理を行うようにしてもよい。また、上述した実施形態においては、音声のピッチ、歌詞または歌唱技法を区間毎に比較するようにしたが、これに限らず、例えばFFT(Fast Fourier Transform)を用いて練習者音声データと模範音声データとのそれぞれに対してフォルマントの検出を行い、区間毎に声質を比較して採点を行うようにしてもよい。
【0056】
(3)上述した実施形態においては、区間指定情報に含まれる区間番号は、1小節を単位として小節毎に割り当てられた番号を用いたが、単位区間は小節に限定されるものではなく、例えば1フレーズを単位とするものであってもよく、または音符を単位とするものであってもよい。要は、予め定められた単位であればどのようなものであってもよい。
また、上述した実施形態においては、カラオケ装置2のCPU11は、伴奏データに含まれる小節番号情報から認識した位置(小節)とサーバ装置3から取得した区間指定情報の開始位置(小節)とを比較し、両者の差が1フレーズになったときに、当該区間指定情報が示す区間を報知するようになっていた。この場合の「両者の差」は「1フレーズ」に限定されるものではなく、例えば、2フレーズであってもよく、または、1小節であってもよい。要は、両者の差が所定の差になったときに、区間指定情報の示す区間を報知すればよい。
【0057】
また、上述した実施形態においては、カラオケ装置2のCPU11が伴奏データに含まれる小節番号情報に応じて、音声処理部18によって生成される伴奏音信号が楽曲のどの位置にあたるかを認識するようになっていたが、伴奏音信号の位置の認識方法はこれに限定されるものではなく、例えば、CPU11による伴奏データの読み出し処理に応じて、音声処理部18が生成した伴奏音信号が楽曲のどの位置にあたるかを認識するようにしてもよい。具体的には、例えば、カラオケ装置のCPUが、記憶部から読み出して音声処理部に供給する伴奏データについて、どういう長さの音符(または休符)を供給したかを積算することによって認識するようにしてもよい。または、CPU11が、テンポクロックをカウントして、曲頭からの拍数でカウントするようにしてもよい。また、音符や拍数(あるいは小節やフレーズ)の積算値は、テンポの速度が分かれば時間に変換することができるので、曲頭からの時間データを用いて、伴奏音信号の曲中の位置を認識してもよい。この場合において、実施形態における相違情報や区間指定情報に含まれる「区間番号」(図8参照)に相当する部分は、伴奏音信号の位置認識に対応して、曲頭からの音符(休符も含む)の累積長、曲頭からの拍数あるいは曲頭からの経過時間を示すデータにするとよい。
【0058】
(4)上述した実施形態においては、採点結果として、相違の程度を示す相違情報を算出するようにした。これに代えて、比較データそのもの(例えば、ピッチのズレ量)などであってもよい。
【0059】
(5)上述した実施形態においては、練習者の歌唱を評価する場合を例に挙げて説明したが、これに限らず、練習者の楽器演奏を評価するようにしてもよい。この場合、練習者音声データは入力される楽器の演奏音を表すデータであり、また、伴奏データ記憶領域14aには、練習したい楽器以外の楽器の演奏データが記憶されており、模範音声データ記憶領域14eには、模範として用いられる楽器の演奏音を表すデータが記憶されている。
【0060】
(6)上述した実施形態においては、記憶部14の模範音声データ記憶領域14eに記憶される音声データはWAVE形式やMP3形式のデータとしたが、データの形式はこれに限定されるものではなく、音声を示すデータであればどのような形式のデータであってもよい。
また、上述した実施形態においては、模範音声データを模範音声データ記憶領域14eに記憶させて、カラオケ装置2のCPU11が模範音声データ記憶領域14eから模範音声データを読み出すようにしたが、これに代えて、通信ネットワークを介して音声データを受信するようにしてもよい。要するに、模範音声データをCPU11に入力するようにすればよい。
また、上述した第1の実施形態においては、模範データとして、楽曲の伴奏を行う各種楽器の旋律の音程(ピッチ)を表すメロディデータを用いた。模範データはこれに限らず、楽曲のメロディやサブメロディ、コーラスなど、楽曲の旋律のピッチを表すデータであればどのようなものであってもよい。
【0061】
(7)上述した第1の実施形態では、練習者音声データに対して音声認識処理を行って認識した音声に対応する認識文字列を生成し、生成した認識文字列と歌詞データとを区間毎に比較して歌詞の間違いを検出した。これに代えて、模範音声データと練習者音声データのスペクトルをそれぞれ区間毎に算出して、対応する部分のスペクトルを比較することで歌詞の間違いを検出してもよい。
【0062】
(8)上述した実施形態では、カラオケ装置2とサーバ装置3とが通信ネットワークで接続された楽曲練習システム1が、上述した実施形態に係る機能を実現するようになっている。これに対し、通信ネットワークで接続された3以上の装置が上記機能を分担するようにし、それら複数の装置を備えるシステムが同実施形態のシステムを実現するようにしてもよい。または、ひとつの装置が上記機能のすべてを実現するようにしてもよい。
【0063】
(9)上述した実施形態におけるカラオケ装置2のCPU11またはサーバ装置3のCPU31によって実行されるプログラムは、磁気テープ、磁気ディスク、フレキシブルディスク、光記録媒体、光磁気記録媒体、CD(Compact Disk)−ROM、DVD(Digital Versatile Disk)、RAMなどの記録媒体に記憶した状態で提供し得る。また、インターネットのようなネットワーク経由でカラオケ装置2またはサーバ装置3にダウンロードさせることも可能である。
【図面の簡単な説明】
【0064】
【図1】楽曲練習システムの構成の一例を示すブロック図である。
【図2】カラオケ装置のハードウェア構成の一例を示すブロック図である。
【図3】採点結果データの内容の一例を示す図である。
【図4】サーバ装置のハードウェア構成の一例を示すブロック図である。
【図5】ピッチ採点結果テーブルの内容の一例を示す図である。
【図6】区間指定情報の内容の一例を示す図である。
【図7】カラオケ装置のCPUが行う処理の流れを示すフローチャートである。
【図8】サーバ装置のCPUが行う採点結果統計処理の流れを示すフローチャートである。
【図9】カラオケ装置の表示部に表示される画面の一例を示す図である。
【図10】区間指定情報の示す区間の報知の態様の一例を示す図である。
【図11】カラオケ装置の表示部に表示される画面の一例を示す図である。
【図12】本発明の第2実施形態に係るカラオケ装置のハードウェア構成の一例を示す図である。
【図13】模範技法データの内容の一例を示す図である。
【図14】採点結果データの内容の一例を示す図である。
【図15】カラオケ装置のCPUが行う処理の流れを示すフローチャートである。
【図16】ファルセットの検出処理を説明するための図である。
【符号の説明】
【0065】
1…楽曲練習システム、2,2a,2b,2c…カラオケ装置、3…サーバ装置、4…通信ネットワーク、11…CPU、12…ROM、13…RAM、14…記憶部、15…表示部、16…操作部、17…マイクロフォン、18…音声処理部、19…スピーカ、20…通信部、31…CPU、32…ROM、33…RAM、34…記憶部、35…通信部。
【特許請求の範囲】
【請求項1】
楽曲の伴奏楽音を構成する伴奏データを記憶する伴奏データ記憶手段と、
前記楽曲の特定の区間を示す区間指定情報を取得する取得手段と、
伴奏の開始を指示する指示手段と、
前記指示手段によって伴奏の開始が指示された場合に、楽曲の進行に応じて前記伴奏データ記憶手段から伴奏データを読み出し、読み出した伴奏データに基づいて伴奏音信号を生成する伴奏音信号生成手段と、
前記伴奏音信号生成手段が生成した伴奏音信号が前記楽曲のどの位置にあたるかを認識する伴奏位置認識手段と、
前記伴奏位置認識手段が認識した位置と前記取得手段が取得した区間指定情報の開始位置とを比較し、両者の差が所定の差になったときに、前記区間指定情報が示す区間を報知する報知手段と
を備えることを特徴とする楽曲練習装置。
【請求項2】
前記区間指定情報は、特定する区間の特徴を示す特徴データを含み、前記報知手段は前記区間の報知とともに、前記特徴データに応じて予め設定された態様の報知を行う
ことを特徴とする請求項1に記載の楽曲練習装置。
【請求項3】
楽曲の伴奏楽音を構成する伴奏データを記憶する伴奏データ記憶手段と、
前記楽曲に含まれる旋律の音を表す模範音声データが記憶された模範音声データ記憶手段と、
前記楽曲の特定の区間を示す区間指定情報を取得する取得手段と、
伴奏の開始を指示する指示手段と、
前記指示手段によって伴奏の開始が指示された場合に、楽曲の進行に応じて前記伴奏データ記憶手段から伴奏データを読み出し、読み出した伴奏データに基づいて伴奏音信号を生成する伴奏音信号生成手段と、
前記伴奏音信号生成手段が生成した伴奏音信号が前記楽曲のどの位置にあたるかを認識する伴奏位置認識手段と、
前記伴奏位置認識手段が認識した位置と前記取得手段が取得した区間指定情報の開始位置とが一致するタイミングで、前記取得手段により取得された区間指定情報の示す区間と対応する部分の模範音声データを前記模範音声データ記憶手段から読み出し、読み出した模範音声データに基づいて音声信号を生成する音声信号生成手段と
を備えることを特徴とする楽曲練習装置。
【請求項4】
楽曲の伴奏楽音を構成する伴奏データを記憶する伴奏データ記憶手段と、
前記楽曲の特定の区間を示す区間指定情報を取得する取得手段と、
前記取得手段により取得された区間指定情報の示す区間から伴奏の開始を指示する特定区間指示手段と、
前記特定区間指示手段によって伴奏の開始が指示された場合に、前記取得手段により取得された区間指定情報の示す区間と対応する部分の伴奏データを前記伴奏データ記憶手段から読み出し、読み出した伴奏データに基づいて伴奏音信号を生成する伴奏音信号生成手段と
を備えることを特徴とする楽曲練習装置。
【請求項5】
前記伴奏データは、楽曲の位置を示す位置情報を含んでおり、前記伴奏位置認識手段は、前記伴奏データに含まれる位置情報から、前記伴奏音信号生成手段が生成した伴奏音信号が前記楽曲のどの位置にあたるかを認識する
ことを特徴とする請求項1乃至3のいずれかに記載の楽曲練習装置。
【請求項6】
前記伴奏位置認識手段は、前記伴奏音信号生成手段による伴奏データの読み出し処理に応じて、前記伴奏音信号生成手段が生成した伴奏音信号が前記楽曲のどの位置にあたるかを認識する
ことを特徴とする請求項1乃至3のいずれかに記載の楽曲練習装置。
【請求項7】
練習者の音声を表す練習者データの入力を受け付ける入力手段と、
入力された練習者データと模範データ記憶手段に記憶された模範データとを、予め定められた時間単位の比較区間毎に比較して、両者の相違の程度を示す相違情報を前記比較区間毎に生成して出力する比較手段とを具備することを特徴とする請求項1乃至6いずれかに記載の楽曲練習装置。
【請求項8】
前記模範データは、楽曲の旋律のピッチを表すデータであり、
前記練習者データから音声のピッチを算出するピッチ算出手段を備え、
前記比較手段は、前記ピッチ算出手段により算出されたピッチと前記模範データ記憶手段に記憶された模範データの示すピッチとを、前記比較区間毎に比較して、両者の相違の程度を示す相違情報を前記比較区間毎に生成する
ことを特徴とする請求項7に記載の楽曲練習装置。
【請求項9】
前記模範データは、楽曲の歌詞を表すデータであり、
前記練習者データにより表される音声を認識し、認識した音声に対応する認識文字列を生成する音声認識手段を備え、
前記比較手段は、前記音声認識手段により生成された認識文字列と前記模範データ記憶手段に記憶された模範データとを、前記比較区間毎に比較して、両者の相違の程度を示す相違情報を前記比較区間毎に生成する
ことを特徴とする請求項7に記載の楽曲練習装置。
【請求項10】
前記模範データは、模範となる歌唱に用いられている技法の種類とタイミングとを示す技法データであることを特徴とする請求項7に記載の楽曲練習装置。
【請求項11】
前記練習者データは、入力される楽器の演奏音を表すデータであり、前記模範データは、模範として用いられる楽器の演奏音を表すデータであることを特徴とする請求項7に記載の楽曲練習装置。
【請求項12】
請求項7乃至11いずれかに記載の楽曲練習装置を複数有し、
前記各楽曲練習装置の前記比較手段が生成した相違情報をネットワークを介して受信し、受信した相違情報の統計を前記比較区間毎にとって、統計結果が予め定められた条件を満たす比較区間を抽出し、抽出された比較区間を前記楽曲の特定の区間として示す区間指定情報を生成する区間指定情報生成手段を有するサーバ装置を具備し、
前記各楽曲練習装置の取得手段は、前記サーバ装置から区間指定情報を取得することを特徴とする楽曲練習システム。
【請求項1】
楽曲の伴奏楽音を構成する伴奏データを記憶する伴奏データ記憶手段と、
前記楽曲の特定の区間を示す区間指定情報を取得する取得手段と、
伴奏の開始を指示する指示手段と、
前記指示手段によって伴奏の開始が指示された場合に、楽曲の進行に応じて前記伴奏データ記憶手段から伴奏データを読み出し、読み出した伴奏データに基づいて伴奏音信号を生成する伴奏音信号生成手段と、
前記伴奏音信号生成手段が生成した伴奏音信号が前記楽曲のどの位置にあたるかを認識する伴奏位置認識手段と、
前記伴奏位置認識手段が認識した位置と前記取得手段が取得した区間指定情報の開始位置とを比較し、両者の差が所定の差になったときに、前記区間指定情報が示す区間を報知する報知手段と
を備えることを特徴とする楽曲練習装置。
【請求項2】
前記区間指定情報は、特定する区間の特徴を示す特徴データを含み、前記報知手段は前記区間の報知とともに、前記特徴データに応じて予め設定された態様の報知を行う
ことを特徴とする請求項1に記載の楽曲練習装置。
【請求項3】
楽曲の伴奏楽音を構成する伴奏データを記憶する伴奏データ記憶手段と、
前記楽曲に含まれる旋律の音を表す模範音声データが記憶された模範音声データ記憶手段と、
前記楽曲の特定の区間を示す区間指定情報を取得する取得手段と、
伴奏の開始を指示する指示手段と、
前記指示手段によって伴奏の開始が指示された場合に、楽曲の進行に応じて前記伴奏データ記憶手段から伴奏データを読み出し、読み出した伴奏データに基づいて伴奏音信号を生成する伴奏音信号生成手段と、
前記伴奏音信号生成手段が生成した伴奏音信号が前記楽曲のどの位置にあたるかを認識する伴奏位置認識手段と、
前記伴奏位置認識手段が認識した位置と前記取得手段が取得した区間指定情報の開始位置とが一致するタイミングで、前記取得手段により取得された区間指定情報の示す区間と対応する部分の模範音声データを前記模範音声データ記憶手段から読み出し、読み出した模範音声データに基づいて音声信号を生成する音声信号生成手段と
を備えることを特徴とする楽曲練習装置。
【請求項4】
楽曲の伴奏楽音を構成する伴奏データを記憶する伴奏データ記憶手段と、
前記楽曲の特定の区間を示す区間指定情報を取得する取得手段と、
前記取得手段により取得された区間指定情報の示す区間から伴奏の開始を指示する特定区間指示手段と、
前記特定区間指示手段によって伴奏の開始が指示された場合に、前記取得手段により取得された区間指定情報の示す区間と対応する部分の伴奏データを前記伴奏データ記憶手段から読み出し、読み出した伴奏データに基づいて伴奏音信号を生成する伴奏音信号生成手段と
を備えることを特徴とする楽曲練習装置。
【請求項5】
前記伴奏データは、楽曲の位置を示す位置情報を含んでおり、前記伴奏位置認識手段は、前記伴奏データに含まれる位置情報から、前記伴奏音信号生成手段が生成した伴奏音信号が前記楽曲のどの位置にあたるかを認識する
ことを特徴とする請求項1乃至3のいずれかに記載の楽曲練習装置。
【請求項6】
前記伴奏位置認識手段は、前記伴奏音信号生成手段による伴奏データの読み出し処理に応じて、前記伴奏音信号生成手段が生成した伴奏音信号が前記楽曲のどの位置にあたるかを認識する
ことを特徴とする請求項1乃至3のいずれかに記載の楽曲練習装置。
【請求項7】
練習者の音声を表す練習者データの入力を受け付ける入力手段と、
入力された練習者データと模範データ記憶手段に記憶された模範データとを、予め定められた時間単位の比較区間毎に比較して、両者の相違の程度を示す相違情報を前記比較区間毎に生成して出力する比較手段とを具備することを特徴とする請求項1乃至6いずれかに記載の楽曲練習装置。
【請求項8】
前記模範データは、楽曲の旋律のピッチを表すデータであり、
前記練習者データから音声のピッチを算出するピッチ算出手段を備え、
前記比較手段は、前記ピッチ算出手段により算出されたピッチと前記模範データ記憶手段に記憶された模範データの示すピッチとを、前記比較区間毎に比較して、両者の相違の程度を示す相違情報を前記比較区間毎に生成する
ことを特徴とする請求項7に記載の楽曲練習装置。
【請求項9】
前記模範データは、楽曲の歌詞を表すデータであり、
前記練習者データにより表される音声を認識し、認識した音声に対応する認識文字列を生成する音声認識手段を備え、
前記比較手段は、前記音声認識手段により生成された認識文字列と前記模範データ記憶手段に記憶された模範データとを、前記比較区間毎に比較して、両者の相違の程度を示す相違情報を前記比較区間毎に生成する
ことを特徴とする請求項7に記載の楽曲練習装置。
【請求項10】
前記模範データは、模範となる歌唱に用いられている技法の種類とタイミングとを示す技法データであることを特徴とする請求項7に記載の楽曲練習装置。
【請求項11】
前記練習者データは、入力される楽器の演奏音を表すデータであり、前記模範データは、模範として用いられる楽器の演奏音を表すデータであることを特徴とする請求項7に記載の楽曲練習装置。
【請求項12】
請求項7乃至11いずれかに記載の楽曲練習装置を複数有し、
前記各楽曲練習装置の前記比較手段が生成した相違情報をネットワークを介して受信し、受信した相違情報の統計を前記比較区間毎にとって、統計結果が予め定められた条件を満たす比較区間を抽出し、抽出された比較区間を前記楽曲の特定の区間として示す区間指定情報を生成する区間指定情報生成手段を有するサーバ装置を具備し、
前記各楽曲練習装置の取得手段は、前記サーバ装置から区間指定情報を取得することを特徴とする楽曲練習システム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【公開番号】特開2007−256617(P2007−256617A)
【公開日】平成19年10月4日(2007.10.4)
【国際特許分類】
【出願番号】特願2006−80810(P2006−80810)
【出願日】平成18年3月23日(2006.3.23)
【出願人】(000004075)ヤマハ株式会社 (5,930)
【Fターム(参考)】
【公開日】平成19年10月4日(2007.10.4)
【国際特許分類】
【出願日】平成18年3月23日(2006.3.23)
【出願人】(000004075)ヤマハ株式会社 (5,930)
【Fターム(参考)】
[ Back to top ]