楽曲練習支援装置、制御方法及びプログラム
【課題】歌唱や演奏を練習する練習者にあったレベルの模範を検索する。
【解決手段】サーバ装置3の記憶部32には、歌唱のレベルを示すレベル情報と歌唱音声を表す模範音声データとが関連付けて記憶されている。カラオケ装置2の制御部21は、練習者の音声を収音して練習者音声データを生成し、練習者音声データから音声の特徴を表す練習者特徴データを生成し、サーバ装置3に送信する。サーバ装置3は、受信した練習者特徴データと記憶部22に記憶された模範特徴データとを比較し、その類似度に応じて練習者音声のレベルを特定し、特定したレベルの模範音声データを記憶部32から読み出してカラオケ装置2に送信する。
【解決手段】サーバ装置3の記憶部32には、歌唱のレベルを示すレベル情報と歌唱音声を表す模範音声データとが関連付けて記憶されている。カラオケ装置2の制御部21は、練習者の音声を収音して練習者音声データを生成し、練習者音声データから音声の特徴を表す練習者特徴データを生成し、サーバ装置3に送信する。サーバ装置3は、受信した練習者特徴データと記憶部22に記憶された模範特徴データとを比較し、その類似度に応じて練習者音声のレベルを特定し、特定したレベルの模範音声データを記憶部32から読み出してカラオケ装置2に送信する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、歌唱練習又は演奏練習を支援するための技術に関する。
【背景技術】
【0002】
歌唱を練習する者が、カラオケ装置によって再生される楽曲の伴奏に合わせて歌唱を行う場合、その楽曲を持ち歌としている歌手の歌い方を真似て歌うことが多い。ところが、歌唱の素人である練習者と、歌唱に熟練した歌手とでは、声質や歌唱技術に相当の開きがあるので、練習者はうまく真似することができないのが普通である。また、練習者の歌唱技術があまりにも低いと、無理に真似をして歌ったとしても、歌唱技術を上達させるのは難しい。練習者の歌唱技術を効率よく上達させるためには、その練習者の声質や歌唱技術のレベルに見合った適切な模範が必要である。これは楽曲の歌唱に限らず、楽器の演奏についても同様である。
【0003】
発話練習を支援するためのシステムとして、例えば特許文献1には、模範者(先生)の発話音声を練習者(生徒)の音声に変換して聴かせるシステムが提案されている。また、特許文献2には、練習者自身の発話音声についてスペクトル・エンベロープを修正するなどの音声処理を施して再生するシステムが提案されている。
【特許文献1】特開2002−244547号公報
【特許文献2】特開2004−133409号公報
【発明の開示】
【発明が解決しようとする課題】
【0004】
しかしながら、特許文献1に記載のシステムにおいては、どの模範音声で練習するかを練習者自身が選択する必要があり、練習者にとって煩雑である。また、特許文献2に記載のシステムでは、練習者の発話音声に音声処理を施すので、不自然な発音になってしまうことがある。
本発明は上述した背景の下になされたものであり、歌唱練習又は演奏練習において、練習者にとって適切な模範を検索するための手法を提供することを目的とする。
【課題を解決するための手段】
【0005】
上記課題を解決するため、本発明は、歌唱のレベルを示すレベル情報と歌唱音声を表す音声データとが関連付けられた関連データ又は演奏のレベルを示すレベル情報と演奏音を表す音声データとが関連付けられた関連データが複数記憶された関連データ記憶手段と、レベルを指定するレベル指定手段と、前記レベル指定手段により指定されたレベルに応じたレベル情報に関連付けられた関連データに含まれる音声データを前記関連データ記憶手段から読み出す選択手段と、前記選択手段により読み出された音声データを出力する出力手段とを具備することを特徴とする楽曲練習支援装置を提供する。
本発明の好ましい態様においては、模範となる歌唱音声又は模範となる演奏音の特徴を表す模範特徴データを記憶する模範特徴データ記憶手段と、練習者の歌唱音声又は演奏音の特徴を表す練習者特徴データを取得する練習者特徴データ取得手段とを備え、前記レベル指定手段は、前記模範特徴データ記憶手段に記憶された模範特徴データと前記練習者特徴データ取得手段により取得された練習者特徴データとを比較して両者の類似度を算出し、算出した類似度に応じてレベルを指定することを特徴とする。
本発明の別の好ましい態様においては、模範となる歌唱音声又は模範となる演奏音の特徴を表す模範特徴データを記憶する模範特徴データ記憶手段と、練習者の歌唱音声又は演奏音の特徴を表す練習者特徴データを取得する練習者特徴データ取得手段とを備え、前記模範特徴データ記憶手段に記憶された模範特徴データと前記練習者特徴データ取得手段により取得された練習者特徴データとを比較して両者の類似度を算出し、前記レベル指定手段によって指定されたレベルに対して予め定められた範囲内に、算出した類似度が含まれる場合には、前記関連データ記憶手段に記憶された複数の音声データのなかから、前記レベル指定手段により指定されたレベルよりも高いレベルの音声データを選択する第2の選択手段と、前記第2の選択手段により選択された音声データを出力する第2の出力手段とを備えることを特徴とする。
本発明の更に好ましい態様においては、前記模範特徴データ及び前記練習者特徴データは、歌唱音声又は演奏音のピッチ、タイミング、スペクトル、パワー及び歌唱又は演奏に用いられる技法のうち、少なくともいずれか一つを示すデータであることを特徴とする。
【0006】
また、本発明の更に好ましい態様においては、前記関連データ記憶手段は、前記レベル情報を、前記音声データと当該音声データが示す音声の特徴を表す特徴データとに関連付けて複数記憶し、前記練習者の歌唱音声又は演奏音の特徴を表す練習者特徴データを取得する練習者特徴データ取得手段と、前記レベル指定手段により指定されたレベルの特徴データを前記関連データ記憶手段から読み出し、読み出した特徴データと前記練習者特徴データ取得手段により取得された練習者特徴データとを比較可能な態様で報知する報知手段とを備えることを特徴とする。
また、本発明の更に好ましい態様においては、練習者の歌唱音声又は演奏音を表す練習者音声データを取得する練習者音声データ取得手段と、前記練習者音声データ取得手段により取得された練習者音声データから前記練習者特徴データを生成する練習者特徴データ生成手段とを備え、前記練習者特徴データ取得手段は、前記練習者特徴データ生成手段により生成された練習者特徴データを取得することを特徴とする。
本発明の更に好ましい態様においては、収音手段及び再生手段を備えた通信装置との間で、ネットワークを介して通信を行う通信手段を備え、前記練習者音声データ取得手段は、前記通信装置の収音手段によって収音された前記練習者音声データを前記通信手段によって受信し、前記出力手段は、前記通信装置の再生手段によって再生可能なデータ形式の前記音声データを前記通信手段から前記通信装置に送信することを特徴とする。
【発明の効果】
【0007】
本発明によれば、歌唱練習又は演奏練習において、練習者にとって適切な模範データを検索することができる。
【発明を実施するための最良の形態】
【0008】
次に、この発明の実施の形態を説明する。
以下の説明では、歌唱を練習する者を「練習者」と呼び、その練習者にとって模範となるような歌唱を行う者を「模範者」と呼ぶ。また、特に、ある楽曲についてその楽曲を持ち歌としている歌手など、練習者が最終的に真似て歌いたい対象である模範者を「目標模範者」と呼ぶ。
【0009】
<A:第1実施形態>
<A−1:構成>
図1は、本実施形態に係る楽曲練習支援システム1の全体構成を示すブロック図である。この楽曲練習支援システム1は、複数のカラオケ装置2a,2b,2cと、サーバ装置3と、これらを接続するネットワーク4とを備えている。カラオケ装置2a,2b,2cは、一般家庭や、カラオケボックス又は飲食店などの各種店舗に備えられており、ネットワーク4を介して通信を行う通信装置として機能する。サーバ装置3は、多数の模範者の歌唱音声を記憶しており、これらの中から「練習者」にとって適切であろうと思われる歌唱音声を選択する楽曲練習支援装置として機能する。ネットワーク4は、例えばISDN(Integrated Services Digital Network)や、インターネットであり、有線区間又は無線区間を含んでいる。なお、図1には3つのカラオケ装置2a,2b,2cを例示しているが、この楽曲練習支援システム1に含まれるカラオケ装置の数は3に限定されるものではなく、これより多くても少なくてもよい。また、以下の説明においては、カラオケ装置2a,2b,2cを各々区別する必要がない場合には、単に「カラオケ装置2」として説明する。
【0010】
図2は、カラオケ装置2の構成を示したブロック図である。図2において、制御部21は例えばCPUであり、記憶部22に記憶されているコンピュータプログラムを読み出して実行することにより、カラオケ装置2の各部を制御する。表示部23は、例えば液晶ディスプレイであり、制御部21の制御の下、カラオケ装置2を操作するためのメニュー画面や、背景画像に歌詞テロップが重ねられたカラオケ画面などの各種画面を表示する。操作部24は、各種のキーを備えており、押下されたキーに対応した信号を制御部21へ出力する。マイクロフォン25は、練習者が発声した音声を収音する。音声処理部26は、マイクロフォン25によって収音された音声(アナログデータ)をデジタルデータに変換して制御部21に出力する。スピーカ27は、音声処理部26から出力される音声を放音する。通信部28は、制御部21の制御の下、ネットワーク4を介してサーバ装置3とデータ通信を行う。
【0011】
記憶部22は、例えばハードディスクなどの大容量の記憶手段であり、前述したコンピュータプログラムを記憶するほか、伴奏・歌詞データ記憶領域22aと、練習者音声データ記憶領域22bと、楽譜音データ記憶領域22cとを有している。伴奏・歌詞データ記憶領域22aには、楽曲の伴奏を行う各種楽器の演奏音が楽曲の進行に伴って記された伴奏データと、楽曲の歌詞を示す歌詞データとが、楽曲に割り当てられた楽曲IDに対応付けられて記憶されている。伴奏データは、例えばMIDI(Musical Instruments Digital Interface)形式などのデータ形式であり、練習者がカラオケ歌唱する際に再生される。歌詞データは、そのカラオケ歌唱の際に歌詞テロップとして表示部23に表示される。練習者音声データ記憶領域22bには、マイクロフォン25から音声処理部26を経てA/D変換された音声データが練習者音声データとして記憶される。この練習者音声データは、例えばWAVE形式やMP3(MPEG Audio Layer-3)形式である。楽譜音データ記憶領域22cには、楽曲の楽譜によって規定された歌唱音を表す楽譜音データが楽曲IDに対応付けられて記憶されている。この楽譜音データは、例えばMIDI形式などのデータ形式であり、歌唱音のピッチとその発音タイミングとを含んでいる。
【0012】
次に、図3は、サーバ装置3の構成を示したブロック図である。図3において、制御部31は例えばCPUであり、記憶部32に記憶されているコンピュータプログラムを読み出して実行することにより、サーバ装置3の各部を制御する。記憶部32は、例えばハードディスクなどの大容量の記憶手段である。通信部33は、制御部31による制御の下で、ネットワーク4を介してカラオケ装置2とデータ通信を行う。
【0013】
記憶部32は、前述したコンピュータプログラムを記憶するほか、図示のように、模範特徴データ記憶領域32aと、関連データ記憶領域32bとを有している。
模範特徴データ記憶領域32aには、目標模範者の歌唱に用いられている技法の種類、区間及び態様を示す模範特徴データが、楽曲IDに対応付けて記憶されている。
図4は、模範特徴データ記憶領域32aに記憶されている模範特徴データの内容の一例を示す図である。模範特徴データは、図示のように、「技法種別」と「区間」と「態様」との各項目が互いに関連付けて記憶されている。これらの項目のうち、「技法種別」の項目には、例えば「ビブラート」、「しゃくり」、「こぶし」、「ファルセット」、「つっこみ」、「ため」、「息継ぎ」などの歌唱の技法を識別する識別情報が記憶される。「ビブラート」は、音の高さをほんのわずかに連続的に上下させ、震えるような音色を出すという技法である。「しゃくり」は、目的の音より低い音から発音し、音程を滑らかに目的の音に近づけていくという技法である。「こぶし」は、装飾的に加えるうねるような節回しを行うという技法である。「ファルセット」は、いわゆる「裏声」で歌うという技法である。「つっこみ」は、歌い出しを本来のタイミングよりも早いタイミングにするという技法である。「ため」は、歌い出しを本来のタイミングよりも遅いタイミングにするという技法である。「息継ぎ」は、練習者が息継ぎをするタイミングを意味する。
次に、「区間」の項目には、その技法が用いられている区間を示す情報が記憶される。「態様」の項目には、その技法の態様を示す情報が記憶される。図4に示す例においては、技法の程度を10段階で示す数値が記憶されている。例えば、「ビブラート」の場合には、ビブラートの「深さ」や「長さ」の程度を10段階で示す数値が記憶され、「しゃくり」の場合は、しゃくりの「傾斜度」や「長さ」の程度を10段階で示す数値が記憶され、「つっこみ」、「ため」の場合は、「タイミング」を10段階で示す値が記憶され、「ファルセット」、「息継ぎ」、「こぶし」は、それぞれの技法が用いられた時間の長さが10段階の数値で示されている。例えば、図4に示す例においては、「t1〜t2」の区間で、「ビブラート」の技法が、「深さ」が「3」、「長さ」が「4」の程度で用いられた場合のデータが記憶されている。
なお、本実施形態においては、技法の態様を10段階の数値で表すようにしたが、これに限定されるものではなく、技法の態様を示す情報であればどのような情報を用いてもよい。
【0014】
図5は、関連データ記憶領域32bに記憶されている関連データの内容の一例を示す図である。図5に示すように、この領域には、「レベルID」と「模範音声データ」と「類似度」との各項目が互いに関連付けられて構成された「関連データ」が、「楽曲ID」に関連付けて複数記憶されている。これらの項目のうち、「楽曲ID」の項目には、例えば曲名やカラオケ曲ナンバーなどの、楽曲に割り当てられた識別情報が記憶される。「レベルID」の項目には、歌唱のレベルを示すレベル情報が記憶される。図5に示す例においては、レベルが最も低いのは「1」であり、レベル情報の値が大きくなるほどレベルが高くなっている。次に、「模範音声データ」の項目には、楽曲IDの示す楽曲を模範者が歌唱した際の歌唱音声を表す模範音声データであって、レベルIDの示すレベルに対応する模範音声データが記憶される。模範音声データは予め録音されたものであり、サーバ装置3からカラオケ装置2へと送信されてカラオケ装置2によって練習者に対する模範音声として再生される。なお、本実施形態においては、各楽曲についてレベルが最も高い模範音声データは、目標模範者の歌唱音声を表す音声データである。次に、「類似度」の項目には、目標模範者の模範音声データと、そのレベルの模範音声データとの類似度を示す情報が記憶される。この類似度は、予め算出されたものであり、サーバ装置3の制御部31が練習者の歌唱のレベルを判定する際に用いる情報である。なお、本実施形態においては、この類似度は、目標模範者の音声データとそのレベルの模範音声データとの差分の程度を示す差分情報を類似度として用い、差分情報の値が小さいほど類似度が高く、逆に、値が大きいほど類似度が低いことを示す。
【0015】
<A−2:動作>
次に、この実施形態の動作について、以下に説明する。
<A−2−1:レベル判定動作>
図6のシーケンス図において、練習者は、カラオケ装置2の操作部24を操作して、歌唱したい曲の楽曲IDを選択し、カラオケ伴奏の再生を指示する。制御部21は、この操作に応じて、カラオケ伴奏を開始する(ステップS1)。即ち、制御部21は、伴奏・歌詞データ記憶領域22aから、指定された楽曲IDに対応する伴奏データを読み出して音声処理部26に供給し、音声処理部26は、伴奏データをアナログ信号に変換し、スピーカ27から放音させる。同時に、制御部21は、伴奏・歌詞データ記憶領域22aから歌詞データを読み出して歌詞テロップを表示部23に表示させる。練習者は、表示された歌詞テロップを参照しつつ、スピーカ27から放音される伴奏に合わせて歌唱を行う。このとき、練習者の音声はマイクロフォン25によって収音されて音声信号に変換され、音声処理部26へと出力される。音声処理部26によってA/D変換された練習者音声データは、伴奏開始からの経過時間を表す情報と共に、記憶部22に記憶されていく(ステップS2)。
【0016】
伴奏データの再生が終了すると、制御部21は練習者の歌唱音声を録音する処理を終了する。そして、制御部21は、練習者音声データ記憶領域22bに記憶された練習者音声データを、所定時間長のフレーム単位に分離し、フレーム単位でピッチ、パワー及びスペクトルを算出する(ステップS3)。スペクトルの算出には例えばFFT(Fast Fourier Transform)を用いればよい。
【0017】
次いで、制御部21は、練習者音声データから技法とその技法の態様とを抽出する(ステップS4)。例えば「ビブラート」及び「しゃくり」については、練習者音声データのピッチに基づいて検出することができる。また、「こぶし」及び「ファルセット」については、練習者音声データのスペクトルに基づいて検出することができる。また、「ため」及び「つっこみ」については、練習者音声データのピッチと、楽譜音データ記憶領域22cに記憶されている楽譜音データとに基づいて検出することができる。また、「息継ぎ」については、練習者音声データのパワーと、楽譜音データ記憶領域22cに記憶されている楽譜音データとに基づいて検出することができる。
【0018】
具体的な検出方法は以下のとおりである。
制御部21は、練習者音声データと楽譜音データ記憶領域22cに記憶された楽譜音データとの対応関係と、練習者音声データから算出されたピッチとに基づいて、練習者音声データに含まれる音の開始時刻と当該音に対応する楽譜音データの音の開始時刻とが異なる区間を特定する。ここで、制御部21は、練習者音声データのピッチの変化タイミングが楽譜音データのピッチの変化タイミングよりも早く現れている区間、すなわち練習者音声データに含まれる音の開始時刻が当該音に対応する楽譜音データの音の開始時刻よりも早い区間については、この区間を「つっこみ」の技法が用いられている区間であると特定する。制御部21は、このようにして特定した区間の区間情報を、「つっこみ」を示す識別情報と関連付ける。また、制御部21は、練習者音声データのピッチの変化タイミングと楽譜音データのピッチの変化タイミングとの時間差を算出し、算出した値を、この技法の態様として10段階の数値で示される値に変換する。
【0019】
逆に、制御部21は、練習者音声データと楽譜音データとの対応関係と、練習者音声データから算出されたピッチとに基づいて、練習者音声データのピッチの変化発音タイミングが楽譜音データのピッチの変化発音タイミングよりも遅れて現れている区間、すなわち練習者音声データに含まれる音の開始時刻が当該音に対応する楽譜音データの音の開始時刻よりも遅い区間を検出し、検出した区間を「ため」の技法が用いられている区間であると特定する。また、制御部21は、練習者音声データのピッチの変化タイミングと楽譜音データのピッチの変化タイミングとの時間差を算出し、算出した値を、この技法の態様として10段階の数値で示される値に変換する。
【0020】
また、制御部21は、練習者音声データから算出したピッチの時間的な変化のパターンを解析して、中心となる周波数の上下に所定の範囲内でピッチが連続的に変動している区間を検出し、検出した区間を「ビブラート」の技法が用いられている区間であると特定する。また、制御部21は、検出した区間におけるピッチの変動範囲を算出し、算出した値を、この技法の「深さ」の程度として10段階の数値で示される値に変換する。また、制御部21は、検出した区間の時間長を、この技法の「長さ」の程度として10段階の数値で示される値に変換する。
【0021】
また、制御部21は、練習者音声データから算出したピッチの時間的な変化のパターンを解析して、低いピッチから高いピッチに連続的にピッチが変化する区間を検出し、検出した区間を「しゃくり」の技法が用いられている区間であると特定する。なお、この処理は、楽譜音データとの対応関係に基づいて行うようにしてもよい。すなわち、制御部21は、練習者音声データと楽譜音データとの対応関係に基づいて、練習者音声データのピッチが、低いピッチから連続的に楽譜音データのピッチに近づいている区間を検出すればよい。また、制御部21は、検出した区間の時間長を、この技法の「長さ」の程度として10段階の数値で示される値に変換する。また、制御部21は、検出した区間のピッチの変化量を区間で除算して傾斜度を算出し、算出した値を、この技法の「傾斜度」の程度として10段階の数値で示される値に変換する。
【0022】
また、制御部21は、練習者音声データと楽譜音データとの対応関係と、練習者音声データから算出されたパワーとに基づいて、楽譜音データが有音である区間であって練習者音声データのパワー値が所定の閾値よりも小さい区間を検出し、検出した区間を「息継ぎ」の区間であると特定する。また、制御部21は、検出した区間の時間長を、この技法の「長さ」の程度として10段階の数値で示される値に変換する。
【0023】
また、制御部21は、練習者音声データから算出されたスペクトルの時間的な変化パターンを解析して、スペクトル特性が予め決められた変化状態に急激に遷移している区間を検出し、検出した区間を「ファルセット」の技法が用いられている区間であると特定する。ここで、予め決められた変化状態とは、スペクトル特性の高調波成分が極端に少なくなる状態である。例えば地声の場合は沢山の高調波成分が含まれるが、ファルセットになると高調波成分の大きさが極端に小さくなる。なお、この場合、制御部21は、ピッチが大幅に上方に変化したかどうかも参照してよい。ファルセットは地声と同一のピッチを発声する場合でも用いられることもあるが、一般には地声では発声できない高音を発声するときに使われる技法だからである。したがって、練習者音声データのピッチが所定音高以上の場合に限って「ファルセット」の検出をするように構成してもよい。また、男声と女声とでは一般にファルセットを用いる音高の領域が異なるので、練習者音声データの音域や、練習者音声データから検出されるフォルマントによって性別検出を行い、この結果を踏まえてファルセット検出の音高領域を設定してもよい。
また、制御部21は、検出した区間の時間長を、この技法の「長さ」の程度として10段階の数値で示される値に変換する。
【0024】
また、制御部21は、スペクトル特性の変化の態様が短時間に多様に切り替わる区間を検出し、検出した区間を「こぶし」の技法が用いられている区間であると特定する。「こぶし」の場合は、短い区間において声色や発声方法を変化させて唸るような味わいを付加する技法であるため、この技法が用いられている区間においてはスペクトル特性が多様に変化するからである。また、制御部21は、検出した区間の時間長を、この技法の「長さ」の程度として10段階の数値で示される値に変換する。
【0025】
以上のようにして、制御部21は、練習者音声データから技法が用いられている区間と技法の態様とを検出し、検出した区間を示す区間情報をその技法を示す種別情報と技法の態様を示す情報とに関連付ける。そして、制御部21は、ステップS3にて算出したピッチ、スペクトル及びパワーと、ステップS4にて生成した区間情報及び種別情報とを含む練習者特徴データを生成する(ステップS5)。ここで生成される練習者特徴データは、図4に示した模範特徴データと同様の構成である。次いで、制御部21は、生成した練習者特徴データを楽曲IDとともに通信部28からサーバ装置3に送信する(ステップS6)。
【0026】
サーバ装置3の制御部31は、練習者特徴データ及び楽曲IDを受信すると、受信した練習者特徴データと、模範特徴データ記憶領域32aにおいて上記楽曲IDと対応付けて記憶されている模範特徴データとを比較し、練習者特徴データのレベルを特定(指定)する(ステップS7)。
【0027】
レベルの特定処理の具体例について以下に説明する。制御部31は、練習者特徴データが表す各技法の態様を示す情報(10段階の数値)と模範特徴データ記憶領域32aに記憶された模範特徴データが表す各技法の態様を示す情報との差分を累算する。一例として、例えば、練習者特徴データに含まれる「ビブラート」の技法の「深さ」の程度を示す情報をEA1,EA2,・・・EAk、「長さ」の程度を示す情報をEB1,EB2,・・・EBl、「つっこみ」の「傾斜度」の程度を示す情報をEC1,EC2,・・・ECm、「つっこみ」の「長さ」の程度を示す情報をED1,ED2,・・・EDnとし、また、模範特徴データに含まれる「ビブラート」の技法の「深さ」の程度を示す情報をMA1,MA2,・・・MAk、「長さ」の程度を示す情報をMB1,MB2,・・・MBl、「つっこみ」の「傾斜度」の程度を示す情報をMC1,MC2,・・・MCm、「つっこみ」の「長さ」の程度を示す情報をMD1,MD2,・・・MDnとすると、制御部21は、その累算値pを次式で求める。
【数1】
なおこの式においては、ビブラート、つっこみの技法のみを示し、他の「ため」、「しゃくり」などの技法について省略しているが、制御部21は、他の技法についても、ビブラートやつっこみと同様にして、程度の差分を累算する。算出された累積値は、差分の累算結果であるから、その値が大きいほど目標模範者の歌唱音声との類似度が低く、逆に、その値が小さいほど目標模範者の歌唱音声との類似度が高いことを示す。
次いで、制御部31は、関連データ記憶領域32bに記憶された関連データの「類似度」の項目に記憶されている差分情報と、算出した累積値とを比較して、算出された累積値の示す類似度(以下、「練習者類似度」)よりも類似度が高い差分情報のなかから、練習者類似度に最も近い類似度である差分情報に対応するレベルを、練習者特徴データのレベルとして特定する。具体的には、制御部31は、関連データ記憶領域32bの「類似度」の項目に記憶されている複数の情報のうち、算出された累積値から減算した値が予め定められた閾値以上である差分情報を抽出し、抽出した差分情報のなかでその値が最も大きいもの、すなわち抽出した差分情報のうちの最もレベルの低いものを特定する。例えば、算出された累積値が「60」であって、関連データ記憶領域32bに記憶されたデータが図5に示すものであり、予め定められた閾値が「10」である場合には、制御部21は、「類似度」が「50」であるレベル、すなわち「2」のレベルを練習者特徴データのレベルとして特定する。
【0028】
次いで、制御部31は、特定(指定)したレベルに応じたレベル情報に関連付けられた関連データに含まれる模範音声データを記憶部32から読み出し(ステップS8)、読み出した模範音声データを、カラオケ装置2によって再生可能なデータ形式で、その模範音声データのレベルIDとともに送信(出力)する(ステップS9)。カラオケ装置2の制御部21は、受信した模範音声データとレベルIDとを記憶部22に記憶するとともに、受信した模範音声データを再生する(ステップS10)。つまり、制御部21は、模範音声データを音声処理部26に供給し、音声処理部26がその模範音声データをアナログ信号に変換し、スピーカ27から放音させる。このとき、制御部21は、「あなたが最初に目指す歌唱先生はこの人です」というメッセージを表示部23に表示させる。これにより、練習者は、自らの歌唱に合った模範者の歌唱音声を聴くことができ、それを模範とすることで自身の歌唱の上達を図ることが可能となる。
【0029】
以上説明したように本実施形態においては、サーバ装置3に記憶されている模範音声データの中から、練習者の歌唱テクニックのレベルが近く、かつ練習者よりもレベルの高い模範音声データが選択されるから、これにより、練習者にあったレベルの模範者の歌唱音声を練習者に模範として提供することができる。練習者がその歌唱を模範として聴き、その歌い方を次のレベルアップのためのお手本とすることで、練習者の歌唱が上達しやすくなる。
【0030】
<A−2−2:レベルアップ動作>
次に、図7に示すシーケンス図を参照しながら本実施形態のレベルアップ動作について説明する。なお、図7において、図6に示した処理と同様の処理については、同じ符号を付して適宜その説明を省略する。
練習者は、再生される模範音声を参考にして、歌唱の練習を繰り返し行う。カラオケ装置2の制御部21は、図6のステップS1〜ステップS5に示す処理と同様の処理を行って、収音された練習者の歌唱音声から練習者特徴データを生成する。次いで、制御部21は、生成した練習者特徴データと楽曲IDと記憶部22に記憶されたレベルIDとを、サーバ装置3に送信する(ステップS26)。このとき送信されるレベルIDは、前述のレベル判定動作においてサーバ装置3からカラオケ装置2が受信したレベルIDであり、練習者の歌唱レベルを示すレベル情報である。
【0031】
サーバ装置3の制御部31は、受信した練習者特徴データと模範特徴データ記憶領域32aに記憶された模範特徴データとを比較して両者の類似度を算出し、受信したレベルIDの示す(指定された)レベルに対して予め定められた範囲内に、算出した類似度が含まれるか否かを判定し、含まれる場合には、関連データ記憶領域32bに記憶された複数の模範音声データのなかから、受信したレベルIDにより示されるレベルの次に高いレベルの模範音声データを選択する(ステップS27)。
【0032】
模範音声データの選択処理の具体例について以下に説明する。
サーバ装置3の制御部31は、練習者特徴データ、楽曲ID及びレベルIDを、カラオケ装置2から受信すると、受信された練習者特徴データが表す各技法の程度と模範特徴データ記憶領域32aに記憶された模範特徴データが表す各技法の程度との差分を累算する。この累算処理は、上述したレベル指定処理で行う(数1)を用いた累算処理と同様である。
次いで、サーバ装置3は、受信したレベルIDに対応する「類似度」の情報と算出した累積値との差値が予め定められた閾値以下であるか否かを判定することによって、練習者特徴データと模範特徴データとの類似度がレベル毎に予め定められた閾値以上であるか否かを判定する。閾値以下であると判定された場合には、制御部31は、受信したレベル情報の示すレベルの次に高いレベルの模範音声データを選択する。
【0033】
受信したレベルIDの示す(指定された)レベルに対して予め定められた範囲内に、算出した類似度が含まれると判定された場合には、制御部31は、選択した模範音声データとその模範音声データに対応するレベルIDとを、判定結果を示す情報としてカラオケ装置2に送信(出力)する。一方、それ以外の場合には、制御部31は、受信したレベルと同一のレベルを示す情報を、その判定結果を示す情報としてカラオケ装置2に送信する(ステップS28)。
【0034】
カラオケ装置2の制御部21は、判定結果を示す情報を受信すると、その判定結果が、同一レベルを示すものである場合には、制御部21は、記憶部22に記憶されている模範音声データ、すなわち前回再生したものと同一の模範音声データを再生する。一方、受信したレベル情報が前回と異なるものであった場合には、制御部21は、受信した模範音声データを記憶部22に記憶するとともに、受信した模範音声データを再生する(ステップS20)。つまり、制御部21は、受信した模範音声データを音声処理部26に供給し、音声処理部26がその模範音声データをアナログ信号に変換し、スピーカ27から放音させる。このとき、制御部21は、「レベル1をクリアしました。次のレベルの歌唱先生を目指してがんばって下さい」というメッセージを表示部23に表示させる。
【0035】
練習者は、ある楽曲を繰り返し歌唱して歌唱練習を行い、楽曲練習支援システム1は、図7に示す動作を繰り返し行う。練習者の歌唱が上達してその歌唱レベルが模範音声の歌唱レベルに近くなってくると、次に高いレベルの模範音声データが練習者に提供され、練習者は新しい模範音声を目指して練習に励むことになる。このように模範音声が段階的にレベルアップしてゆき、最終的には目標模範者(オリジナルの歌手)の歌唱テクニックに到達すれば、その曲はマスターしたと判定され、練習者は、満足を得られると共に、次の曲に挑戦することになる。
【0036】
<B:第2実施形態>
次に、この発明の第2の実施形態について説明する。
この実施形態に係る楽曲練習支援システムが、上述した第1実施形態に係る楽曲練習支援システム1と異なる点は、サーバ装置の記憶部に記憶されている関連データの内容が異なる点であり、他の構成は、上述した第1実施形態において示したそれと同様である。そのため、以下の説明においては、上述した第1実施形態と同様の構成要素については同じ符号を付して適宜その説明を省略する。なお、以下の説明においては、この実施形態に係るサーバ装置を「サーバ装置3A」として説明し、この実施形態に係るカラオケ装置を「カラオケ装置2A」として説明する。
【0037】
図8は、この実施形態に係るサーバ装置3Aの関連データ記憶領域32bに記憶されている関連データの内容の一例を示す図である。なお、この図は、上述した第1実施形態において図5に対応するものである。
図8に示す関連データの内容が図5に示す関連データの内容と異なる点は、「類似度」及び「模範音声データ」に加えて、模範音声データの示す音声の特徴を表す「模範特徴データ」が「レベルID」に関連付けて記憶されている点である。なお、この模範特徴データの内容は、図4に示したものと同様であり、ここではその説明を省略する。
【0038】
次に、この実施形態の動作について、図9に示すシーケンス図を参照しつつ説明する。なお、図9において、図6に示した処理と同様の処理については、同じ符号を付してその説明を省略する。
サーバ装置3Aの制御部31は、レベルIDと模範音声データとに加えて、指定したレベルに対応する模範特徴データを関連データ記憶領域32bから読み出してカラオケ装置2に送信する(ステップS39)。
【0039】
カラオケ装置2Aの制御部21は、サーバ装置3Aから受信した模範特徴データと、記憶部22に記憶された練習者特徴データとのそれぞれの技法の態様を、両者を比較可能な態様で表示部23に表示させることによって報知する(ステップS40)。
図10は、カラオケ装置2Aの表示部23に表示される画面の一例を示す図である。図において、制御部21は、各技法毎に、各技法のレベルを示すレベルメータA11〜A14と、受信された模範特徴データに含まれる技法の態様を前記レベルメータ上の表示位置で示すドットA21〜A24と、記憶部22に記憶された練習者特徴データに含まれる技法の態様を前記レベルメータ上の表示位置で示すドットA31〜A34とを、表示部23に表示させる。図10に示す例においては、「ビブラート」の技法の速度の程度についてのレベルメータA11と、模範特徴データの「ビブラート」の速度の程度をレベルメータA11上の表示位置で示すドットA21と、練習者特徴データの「ビブラート」の速度の程度をレベルメータA11上の表示位置で示すドットA31とを表示部23が表示した場合の画面の一例を示している。
なお、これらの各技法の程度を示すレベルメータ、ドットは、制御部21が、各技法のそれぞれについて、平均値を算出してその平均値をドットで示すようにしてもよく、または、技法が検出された区間毎に、レベルメータやドットを表示するようにしてもよい。
なお、本実施形態においては、レベルメータとドットを表示することによって、技法の態様を報知するようにしたが、報知方法はこれに限らず、例えば音声メッセージを出力するようにしてもよく、または、電子メール形式で送信することによって報知するようにしてもよい。要するに、模範特徴データと練習者特徴データとのそれぞれの技法の態様を、両者を比較可能な態様で報知するようにすればよい。
【0040】
このように本実施形態においては、レベルメータを表示することによって、模範音声と練習者音声とを比較可能な態様で報知するから、練習者は、自分がどれくらいうまくなったかを客観的に把握することができ、練習者の練習意欲の向上を図ることができる。
【0041】
<C:変形例>
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されることなく、他の様々な形態で実施可能である。以下にその一例を示す。
(1)上述した実施形態においては、練習者の歌唱音声のレベルに合った模範者の歌唱音声を検索する場合を例に挙げて説明したが、これに限らず、練習者の楽器の演奏音に合った模範者の演奏音を検索するようにしてもよい。この場合、上述した模範者の歌唱音声に代えて模範者の演奏音を表す模範演奏音データが用いられ、練習者音声データに代えて練習者の演奏音を表す練習者演奏音データが用いられる。また、伴奏・歌詞データ記憶領域22aには、楽譜に演奏音として規定された楽譜音データが記憶される。サーバ装置3の制御部31は、これらのデータに基づき、上記と同様の処理を経て練習者演奏音データのレベルにあった模範演奏音データを検索する。
【0042】
(2)上述した実施形態においては、練習者特徴データは、カラオケ装置2の制御部21によって生成されるようになっていたが、これに代えて、サーバ装置3の制御部31によって生成されるようにしてもよい。また、カラオケ装置2の制御部21が練習者特徴データの入力を促し、練習者が予め用意しておいた練習者特徴データを入力するようにしてもよい。この場合、例えば、制御部21が、練習者特徴データの入力を促す画面を表示部23に表示させ、練習者は、例えばUSB(Universal Serial Bus)等のインタフェースを介してカラオケ装置2に練習者特徴データを入力するようにすればよい。この場合、事前にパーソナルコンピュータ等の装置で練習者特徴データを生成するようにしておけばよい。この際も、上述した実施形態と同様に、パーソナルコンピュータが、マイクロフォンで練習者の音声を収音して、収音した音声を分析して練習者特徴データを生成する。また、カラオケ装置2にRFIDリーダを設けて、練習者特徴データが書き込まれたRFIDをカラオケ装置2のRFIDリーダが読み取るようにしてもよい。
【0043】
(3)なお、上述した実施形態においては、練習者特徴データとして、「ビブラート」、「つっこみ」、「ため」などの技法とその程度を示すデータを用いたが、上述した実施形態で用いた技法を全て用いる必要はなく、いずれか一つを用いるようにしてもよく、複数を用いるようにしてもよい。また、練習者特徴データは、技法を示すデータに限らず、他のデータであってもよい。例えば、歌唱音声又は演奏音のピッチ、タイミング、スペクトル、パワーを示すデータであってもよい。要するに、模範特徴データ及び練習者特徴データは、歌唱音声又は演奏音のピッチ、タイミング、スペクトル、パワー及び歌唱又は演奏に用いられる技法のうち、少なくともいずれか一つを示すデータであることが好ましい。
例えば、ピッチを特徴データとして用いる場合には、制御部31は、練習者特徴データが表すピッチと模範特徴データが表すピッチとの差分を歌唱の開始から終了までの全域にわたって積分し、その積分値をレベル毎に予め算出された値と比較することによってレベルを特定するようにしてもよい。
【0044】
(4)上述した実施形態においては、サーバ装置3は模範特徴データを予め記憶しておくようにしたが、これに代えて、サーバ装置3が模範音声データだけを記憶しておき、検索を行う必要がある度に模範音声データから模範特徴データを抽出するようにしてもよい。なお、模範音声データや練習者音声データはWAVE形式やMP3形式のデータとしたが、データの形式はこれに限定されるものではなく、音声を示すデータであればどのような形式のデータであってもよい。
【0045】
(5)上述した実施形態においては、サーバ装置3の制御部31が練習者特徴データに基づいてレベルを特定するようにしたが、例えばカラオケ装置2の操作部24を操作によってレベルが入力されるようにしてもよい。また、ある楽曲についてレベル判定が行われた場合に、カラオケ装置2の記憶部に、レベルを示す情報を記憶させておき、他の楽曲が選択された場合に、記憶されたレベルを用いるようにしてもよい。例えば、ある楽曲についてレベルを判定した場合は、2曲目を歌うときからは、既に練習者の歌唱レベルがわかっているから、歌う前にその練習者の歌唱テクニックに近い模範音声データをシステムで自動的に選択することが可能である。
【0046】
(6)上述した実施形態においては、複数の技法について、練習者特徴データが表す各技法の態様を示す数値と模範特徴データが表す各技法の態様を示す数値との差分を累算し、その累算値からレベルを特定するようにした。レベルの特定方法はこれに限定されるものではなく、例えば、1つの技法についてのみ差分を累算して、その累算値からレベルを特定するようにしてもよい。または、技法毎に重み付けを行って、累算するようにしてもよい。この場合に用いる式の一例を以下に示す。
【数2】
なお、上述の式において、α1、α2、α3、α4・・・は重み付け係数である。なお、この係数は、練習者がカラオケ装置2の操作部などを用いてその値を設定できるようにしてもよい。例えば、練習者がビブラートを練習したい場合には、ビブラートの係数を“1”に設定し、他の技法の係数を“0”に設定すればよい。このようにすれば、サーバ装置3の制御部31は、ビブラートの類似度によってレベルを特定するから、練習者は、ビブラートに集中して歌唱練習を行うことができる。
【0047】
また、レベルの特定方法の他の例として、例えば、次のようにして算出してもよい。制御部31は、練習者特徴データが表す各技法の区間情報によって表される区間と、各模範特徴データが表す各技法の区間情報によって表される区間との差分を積分する。そして、制御部31は、上記のようにして得られた積分値を模範特徴データごとに累算し、その累算値が最も小さい模範特徴データを、練習者音声データとの類似度が最も高いものとして選択する。
要するに、練習者特徴データと模範特徴データとを比較し、その類似度に応じてレベルを特定するようにすればよい。
【0048】
(7)上述した第2の実施形態においては、練習者が楽曲を歌唱し終えた後に、練習者特徴データと模範特徴データとを比較可能な態様で報知するようにしたが、歌唱の最中にリアルタイムで解析処理を行って、その結果を報知するようにしてもよい。この場合は、「しゃくり」ポイントや「ビブラート」ポイントで目標模範者(オリジナル歌手)との比較を行い、その類似度をリアルタイムで画面にレベルメータとして表示するようにしてもよい。
【0049】
(8)上述した実施形態では、カラオケ装置2とサーバ装置3とがネットワーク4で接続された楽曲練習支援システム1が、本実施形態に係る機能の全てを実現するようになっている。これに対し、ネットワークで接続された3以上の装置が上記機能を分担するようにし、それら複数の装置を備えるシステムが同実施形態のシステムを実現するようにしてもよい。または、ひとつの装置が上記機能のすべてを実現するようにしてもよい。
【0050】
(9)上述した実施形態におけるカラオケ装置2の制御部21又はサーバ装置3の制御部31によって実行されるプログラムは、磁気テープ、磁気ディスク、フレキシブルディスク、光記録媒体、光磁気記録媒体、CD(Compact Disk)−ROM、DVD(Digital Versatile Disk)、RAMなどの記録媒体に記憶した状態で提供し得る。また、インターネットのようなネットワーク経由でカラオケ装置2又はサーバ装置3にダウンロードさせることも可能である。
【図面の簡単な説明】
【0051】
【図1】楽曲練習システムの全体構成を示すブロック図である。
【図2】カラオケ装置の構成を示すブロック図である。
【図3】サーバ装置の構成を示すブロック図である。
【図4】サーバ装置によって記憶される模範特徴データの一例を示す図である。
【図5】サーバ装置によって記憶される関連データの一例を示す図である。
【図6】実施形態の動作を示すシーケンス図である。
【図7】実施形態の動作を示すシーケンス図である。
【図8】サーバ装置によって記憶される関連データの一例を示す図である。
【図9】実施形態の動作を示すシーケンス図である。
【図10】サーバ装置によって表示される画面の一例を示す図である。
【符号の説明】
【0052】
1…楽曲練習システム、2,2a,2b,2c…カラオケ装置、3…サーバ装置、4…ネットワーク、21…制御部、22…記憶部、23…表示部、24…操作部、25…マイクロフォン、26…音声処理部、27…スピーカ、28…通信部、31…制御部、33…通信部。
【技術分野】
【0001】
本発明は、歌唱練習又は演奏練習を支援するための技術に関する。
【背景技術】
【0002】
歌唱を練習する者が、カラオケ装置によって再生される楽曲の伴奏に合わせて歌唱を行う場合、その楽曲を持ち歌としている歌手の歌い方を真似て歌うことが多い。ところが、歌唱の素人である練習者と、歌唱に熟練した歌手とでは、声質や歌唱技術に相当の開きがあるので、練習者はうまく真似することができないのが普通である。また、練習者の歌唱技術があまりにも低いと、無理に真似をして歌ったとしても、歌唱技術を上達させるのは難しい。練習者の歌唱技術を効率よく上達させるためには、その練習者の声質や歌唱技術のレベルに見合った適切な模範が必要である。これは楽曲の歌唱に限らず、楽器の演奏についても同様である。
【0003】
発話練習を支援するためのシステムとして、例えば特許文献1には、模範者(先生)の発話音声を練習者(生徒)の音声に変換して聴かせるシステムが提案されている。また、特許文献2には、練習者自身の発話音声についてスペクトル・エンベロープを修正するなどの音声処理を施して再生するシステムが提案されている。
【特許文献1】特開2002−244547号公報
【特許文献2】特開2004−133409号公報
【発明の開示】
【発明が解決しようとする課題】
【0004】
しかしながら、特許文献1に記載のシステムにおいては、どの模範音声で練習するかを練習者自身が選択する必要があり、練習者にとって煩雑である。また、特許文献2に記載のシステムでは、練習者の発話音声に音声処理を施すので、不自然な発音になってしまうことがある。
本発明は上述した背景の下になされたものであり、歌唱練習又は演奏練習において、練習者にとって適切な模範を検索するための手法を提供することを目的とする。
【課題を解決するための手段】
【0005】
上記課題を解決するため、本発明は、歌唱のレベルを示すレベル情報と歌唱音声を表す音声データとが関連付けられた関連データ又は演奏のレベルを示すレベル情報と演奏音を表す音声データとが関連付けられた関連データが複数記憶された関連データ記憶手段と、レベルを指定するレベル指定手段と、前記レベル指定手段により指定されたレベルに応じたレベル情報に関連付けられた関連データに含まれる音声データを前記関連データ記憶手段から読み出す選択手段と、前記選択手段により読み出された音声データを出力する出力手段とを具備することを特徴とする楽曲練習支援装置を提供する。
本発明の好ましい態様においては、模範となる歌唱音声又は模範となる演奏音の特徴を表す模範特徴データを記憶する模範特徴データ記憶手段と、練習者の歌唱音声又は演奏音の特徴を表す練習者特徴データを取得する練習者特徴データ取得手段とを備え、前記レベル指定手段は、前記模範特徴データ記憶手段に記憶された模範特徴データと前記練習者特徴データ取得手段により取得された練習者特徴データとを比較して両者の類似度を算出し、算出した類似度に応じてレベルを指定することを特徴とする。
本発明の別の好ましい態様においては、模範となる歌唱音声又は模範となる演奏音の特徴を表す模範特徴データを記憶する模範特徴データ記憶手段と、練習者の歌唱音声又は演奏音の特徴を表す練習者特徴データを取得する練習者特徴データ取得手段とを備え、前記模範特徴データ記憶手段に記憶された模範特徴データと前記練習者特徴データ取得手段により取得された練習者特徴データとを比較して両者の類似度を算出し、前記レベル指定手段によって指定されたレベルに対して予め定められた範囲内に、算出した類似度が含まれる場合には、前記関連データ記憶手段に記憶された複数の音声データのなかから、前記レベル指定手段により指定されたレベルよりも高いレベルの音声データを選択する第2の選択手段と、前記第2の選択手段により選択された音声データを出力する第2の出力手段とを備えることを特徴とする。
本発明の更に好ましい態様においては、前記模範特徴データ及び前記練習者特徴データは、歌唱音声又は演奏音のピッチ、タイミング、スペクトル、パワー及び歌唱又は演奏に用いられる技法のうち、少なくともいずれか一つを示すデータであることを特徴とする。
【0006】
また、本発明の更に好ましい態様においては、前記関連データ記憶手段は、前記レベル情報を、前記音声データと当該音声データが示す音声の特徴を表す特徴データとに関連付けて複数記憶し、前記練習者の歌唱音声又は演奏音の特徴を表す練習者特徴データを取得する練習者特徴データ取得手段と、前記レベル指定手段により指定されたレベルの特徴データを前記関連データ記憶手段から読み出し、読み出した特徴データと前記練習者特徴データ取得手段により取得された練習者特徴データとを比較可能な態様で報知する報知手段とを備えることを特徴とする。
また、本発明の更に好ましい態様においては、練習者の歌唱音声又は演奏音を表す練習者音声データを取得する練習者音声データ取得手段と、前記練習者音声データ取得手段により取得された練習者音声データから前記練習者特徴データを生成する練習者特徴データ生成手段とを備え、前記練習者特徴データ取得手段は、前記練習者特徴データ生成手段により生成された練習者特徴データを取得することを特徴とする。
本発明の更に好ましい態様においては、収音手段及び再生手段を備えた通信装置との間で、ネットワークを介して通信を行う通信手段を備え、前記練習者音声データ取得手段は、前記通信装置の収音手段によって収音された前記練習者音声データを前記通信手段によって受信し、前記出力手段は、前記通信装置の再生手段によって再生可能なデータ形式の前記音声データを前記通信手段から前記通信装置に送信することを特徴とする。
【発明の効果】
【0007】
本発明によれば、歌唱練習又は演奏練習において、練習者にとって適切な模範データを検索することができる。
【発明を実施するための最良の形態】
【0008】
次に、この発明の実施の形態を説明する。
以下の説明では、歌唱を練習する者を「練習者」と呼び、その練習者にとって模範となるような歌唱を行う者を「模範者」と呼ぶ。また、特に、ある楽曲についてその楽曲を持ち歌としている歌手など、練習者が最終的に真似て歌いたい対象である模範者を「目標模範者」と呼ぶ。
【0009】
<A:第1実施形態>
<A−1:構成>
図1は、本実施形態に係る楽曲練習支援システム1の全体構成を示すブロック図である。この楽曲練習支援システム1は、複数のカラオケ装置2a,2b,2cと、サーバ装置3と、これらを接続するネットワーク4とを備えている。カラオケ装置2a,2b,2cは、一般家庭や、カラオケボックス又は飲食店などの各種店舗に備えられており、ネットワーク4を介して通信を行う通信装置として機能する。サーバ装置3は、多数の模範者の歌唱音声を記憶しており、これらの中から「練習者」にとって適切であろうと思われる歌唱音声を選択する楽曲練習支援装置として機能する。ネットワーク4は、例えばISDN(Integrated Services Digital Network)や、インターネットであり、有線区間又は無線区間を含んでいる。なお、図1には3つのカラオケ装置2a,2b,2cを例示しているが、この楽曲練習支援システム1に含まれるカラオケ装置の数は3に限定されるものではなく、これより多くても少なくてもよい。また、以下の説明においては、カラオケ装置2a,2b,2cを各々区別する必要がない場合には、単に「カラオケ装置2」として説明する。
【0010】
図2は、カラオケ装置2の構成を示したブロック図である。図2において、制御部21は例えばCPUであり、記憶部22に記憶されているコンピュータプログラムを読み出して実行することにより、カラオケ装置2の各部を制御する。表示部23は、例えば液晶ディスプレイであり、制御部21の制御の下、カラオケ装置2を操作するためのメニュー画面や、背景画像に歌詞テロップが重ねられたカラオケ画面などの各種画面を表示する。操作部24は、各種のキーを備えており、押下されたキーに対応した信号を制御部21へ出力する。マイクロフォン25は、練習者が発声した音声を収音する。音声処理部26は、マイクロフォン25によって収音された音声(アナログデータ)をデジタルデータに変換して制御部21に出力する。スピーカ27は、音声処理部26から出力される音声を放音する。通信部28は、制御部21の制御の下、ネットワーク4を介してサーバ装置3とデータ通信を行う。
【0011】
記憶部22は、例えばハードディスクなどの大容量の記憶手段であり、前述したコンピュータプログラムを記憶するほか、伴奏・歌詞データ記憶領域22aと、練習者音声データ記憶領域22bと、楽譜音データ記憶領域22cとを有している。伴奏・歌詞データ記憶領域22aには、楽曲の伴奏を行う各種楽器の演奏音が楽曲の進行に伴って記された伴奏データと、楽曲の歌詞を示す歌詞データとが、楽曲に割り当てられた楽曲IDに対応付けられて記憶されている。伴奏データは、例えばMIDI(Musical Instruments Digital Interface)形式などのデータ形式であり、練習者がカラオケ歌唱する際に再生される。歌詞データは、そのカラオケ歌唱の際に歌詞テロップとして表示部23に表示される。練習者音声データ記憶領域22bには、マイクロフォン25から音声処理部26を経てA/D変換された音声データが練習者音声データとして記憶される。この練習者音声データは、例えばWAVE形式やMP3(MPEG Audio Layer-3)形式である。楽譜音データ記憶領域22cには、楽曲の楽譜によって規定された歌唱音を表す楽譜音データが楽曲IDに対応付けられて記憶されている。この楽譜音データは、例えばMIDI形式などのデータ形式であり、歌唱音のピッチとその発音タイミングとを含んでいる。
【0012】
次に、図3は、サーバ装置3の構成を示したブロック図である。図3において、制御部31は例えばCPUであり、記憶部32に記憶されているコンピュータプログラムを読み出して実行することにより、サーバ装置3の各部を制御する。記憶部32は、例えばハードディスクなどの大容量の記憶手段である。通信部33は、制御部31による制御の下で、ネットワーク4を介してカラオケ装置2とデータ通信を行う。
【0013】
記憶部32は、前述したコンピュータプログラムを記憶するほか、図示のように、模範特徴データ記憶領域32aと、関連データ記憶領域32bとを有している。
模範特徴データ記憶領域32aには、目標模範者の歌唱に用いられている技法の種類、区間及び態様を示す模範特徴データが、楽曲IDに対応付けて記憶されている。
図4は、模範特徴データ記憶領域32aに記憶されている模範特徴データの内容の一例を示す図である。模範特徴データは、図示のように、「技法種別」と「区間」と「態様」との各項目が互いに関連付けて記憶されている。これらの項目のうち、「技法種別」の項目には、例えば「ビブラート」、「しゃくり」、「こぶし」、「ファルセット」、「つっこみ」、「ため」、「息継ぎ」などの歌唱の技法を識別する識別情報が記憶される。「ビブラート」は、音の高さをほんのわずかに連続的に上下させ、震えるような音色を出すという技法である。「しゃくり」は、目的の音より低い音から発音し、音程を滑らかに目的の音に近づけていくという技法である。「こぶし」は、装飾的に加えるうねるような節回しを行うという技法である。「ファルセット」は、いわゆる「裏声」で歌うという技法である。「つっこみ」は、歌い出しを本来のタイミングよりも早いタイミングにするという技法である。「ため」は、歌い出しを本来のタイミングよりも遅いタイミングにするという技法である。「息継ぎ」は、練習者が息継ぎをするタイミングを意味する。
次に、「区間」の項目には、その技法が用いられている区間を示す情報が記憶される。「態様」の項目には、その技法の態様を示す情報が記憶される。図4に示す例においては、技法の程度を10段階で示す数値が記憶されている。例えば、「ビブラート」の場合には、ビブラートの「深さ」や「長さ」の程度を10段階で示す数値が記憶され、「しゃくり」の場合は、しゃくりの「傾斜度」や「長さ」の程度を10段階で示す数値が記憶され、「つっこみ」、「ため」の場合は、「タイミング」を10段階で示す値が記憶され、「ファルセット」、「息継ぎ」、「こぶし」は、それぞれの技法が用いられた時間の長さが10段階の数値で示されている。例えば、図4に示す例においては、「t1〜t2」の区間で、「ビブラート」の技法が、「深さ」が「3」、「長さ」が「4」の程度で用いられた場合のデータが記憶されている。
なお、本実施形態においては、技法の態様を10段階の数値で表すようにしたが、これに限定されるものではなく、技法の態様を示す情報であればどのような情報を用いてもよい。
【0014】
図5は、関連データ記憶領域32bに記憶されている関連データの内容の一例を示す図である。図5に示すように、この領域には、「レベルID」と「模範音声データ」と「類似度」との各項目が互いに関連付けられて構成された「関連データ」が、「楽曲ID」に関連付けて複数記憶されている。これらの項目のうち、「楽曲ID」の項目には、例えば曲名やカラオケ曲ナンバーなどの、楽曲に割り当てられた識別情報が記憶される。「レベルID」の項目には、歌唱のレベルを示すレベル情報が記憶される。図5に示す例においては、レベルが最も低いのは「1」であり、レベル情報の値が大きくなるほどレベルが高くなっている。次に、「模範音声データ」の項目には、楽曲IDの示す楽曲を模範者が歌唱した際の歌唱音声を表す模範音声データであって、レベルIDの示すレベルに対応する模範音声データが記憶される。模範音声データは予め録音されたものであり、サーバ装置3からカラオケ装置2へと送信されてカラオケ装置2によって練習者に対する模範音声として再生される。なお、本実施形態においては、各楽曲についてレベルが最も高い模範音声データは、目標模範者の歌唱音声を表す音声データである。次に、「類似度」の項目には、目標模範者の模範音声データと、そのレベルの模範音声データとの類似度を示す情報が記憶される。この類似度は、予め算出されたものであり、サーバ装置3の制御部31が練習者の歌唱のレベルを判定する際に用いる情報である。なお、本実施形態においては、この類似度は、目標模範者の音声データとそのレベルの模範音声データとの差分の程度を示す差分情報を類似度として用い、差分情報の値が小さいほど類似度が高く、逆に、値が大きいほど類似度が低いことを示す。
【0015】
<A−2:動作>
次に、この実施形態の動作について、以下に説明する。
<A−2−1:レベル判定動作>
図6のシーケンス図において、練習者は、カラオケ装置2の操作部24を操作して、歌唱したい曲の楽曲IDを選択し、カラオケ伴奏の再生を指示する。制御部21は、この操作に応じて、カラオケ伴奏を開始する(ステップS1)。即ち、制御部21は、伴奏・歌詞データ記憶領域22aから、指定された楽曲IDに対応する伴奏データを読み出して音声処理部26に供給し、音声処理部26は、伴奏データをアナログ信号に変換し、スピーカ27から放音させる。同時に、制御部21は、伴奏・歌詞データ記憶領域22aから歌詞データを読み出して歌詞テロップを表示部23に表示させる。練習者は、表示された歌詞テロップを参照しつつ、スピーカ27から放音される伴奏に合わせて歌唱を行う。このとき、練習者の音声はマイクロフォン25によって収音されて音声信号に変換され、音声処理部26へと出力される。音声処理部26によってA/D変換された練習者音声データは、伴奏開始からの経過時間を表す情報と共に、記憶部22に記憶されていく(ステップS2)。
【0016】
伴奏データの再生が終了すると、制御部21は練習者の歌唱音声を録音する処理を終了する。そして、制御部21は、練習者音声データ記憶領域22bに記憶された練習者音声データを、所定時間長のフレーム単位に分離し、フレーム単位でピッチ、パワー及びスペクトルを算出する(ステップS3)。スペクトルの算出には例えばFFT(Fast Fourier Transform)を用いればよい。
【0017】
次いで、制御部21は、練習者音声データから技法とその技法の態様とを抽出する(ステップS4)。例えば「ビブラート」及び「しゃくり」については、練習者音声データのピッチに基づいて検出することができる。また、「こぶし」及び「ファルセット」については、練習者音声データのスペクトルに基づいて検出することができる。また、「ため」及び「つっこみ」については、練習者音声データのピッチと、楽譜音データ記憶領域22cに記憶されている楽譜音データとに基づいて検出することができる。また、「息継ぎ」については、練習者音声データのパワーと、楽譜音データ記憶領域22cに記憶されている楽譜音データとに基づいて検出することができる。
【0018】
具体的な検出方法は以下のとおりである。
制御部21は、練習者音声データと楽譜音データ記憶領域22cに記憶された楽譜音データとの対応関係と、練習者音声データから算出されたピッチとに基づいて、練習者音声データに含まれる音の開始時刻と当該音に対応する楽譜音データの音の開始時刻とが異なる区間を特定する。ここで、制御部21は、練習者音声データのピッチの変化タイミングが楽譜音データのピッチの変化タイミングよりも早く現れている区間、すなわち練習者音声データに含まれる音の開始時刻が当該音に対応する楽譜音データの音の開始時刻よりも早い区間については、この区間を「つっこみ」の技法が用いられている区間であると特定する。制御部21は、このようにして特定した区間の区間情報を、「つっこみ」を示す識別情報と関連付ける。また、制御部21は、練習者音声データのピッチの変化タイミングと楽譜音データのピッチの変化タイミングとの時間差を算出し、算出した値を、この技法の態様として10段階の数値で示される値に変換する。
【0019】
逆に、制御部21は、練習者音声データと楽譜音データとの対応関係と、練習者音声データから算出されたピッチとに基づいて、練習者音声データのピッチの変化発音タイミングが楽譜音データのピッチの変化発音タイミングよりも遅れて現れている区間、すなわち練習者音声データに含まれる音の開始時刻が当該音に対応する楽譜音データの音の開始時刻よりも遅い区間を検出し、検出した区間を「ため」の技法が用いられている区間であると特定する。また、制御部21は、練習者音声データのピッチの変化タイミングと楽譜音データのピッチの変化タイミングとの時間差を算出し、算出した値を、この技法の態様として10段階の数値で示される値に変換する。
【0020】
また、制御部21は、練習者音声データから算出したピッチの時間的な変化のパターンを解析して、中心となる周波数の上下に所定の範囲内でピッチが連続的に変動している区間を検出し、検出した区間を「ビブラート」の技法が用いられている区間であると特定する。また、制御部21は、検出した区間におけるピッチの変動範囲を算出し、算出した値を、この技法の「深さ」の程度として10段階の数値で示される値に変換する。また、制御部21は、検出した区間の時間長を、この技法の「長さ」の程度として10段階の数値で示される値に変換する。
【0021】
また、制御部21は、練習者音声データから算出したピッチの時間的な変化のパターンを解析して、低いピッチから高いピッチに連続的にピッチが変化する区間を検出し、検出した区間を「しゃくり」の技法が用いられている区間であると特定する。なお、この処理は、楽譜音データとの対応関係に基づいて行うようにしてもよい。すなわち、制御部21は、練習者音声データと楽譜音データとの対応関係に基づいて、練習者音声データのピッチが、低いピッチから連続的に楽譜音データのピッチに近づいている区間を検出すればよい。また、制御部21は、検出した区間の時間長を、この技法の「長さ」の程度として10段階の数値で示される値に変換する。また、制御部21は、検出した区間のピッチの変化量を区間で除算して傾斜度を算出し、算出した値を、この技法の「傾斜度」の程度として10段階の数値で示される値に変換する。
【0022】
また、制御部21は、練習者音声データと楽譜音データとの対応関係と、練習者音声データから算出されたパワーとに基づいて、楽譜音データが有音である区間であって練習者音声データのパワー値が所定の閾値よりも小さい区間を検出し、検出した区間を「息継ぎ」の区間であると特定する。また、制御部21は、検出した区間の時間長を、この技法の「長さ」の程度として10段階の数値で示される値に変換する。
【0023】
また、制御部21は、練習者音声データから算出されたスペクトルの時間的な変化パターンを解析して、スペクトル特性が予め決められた変化状態に急激に遷移している区間を検出し、検出した区間を「ファルセット」の技法が用いられている区間であると特定する。ここで、予め決められた変化状態とは、スペクトル特性の高調波成分が極端に少なくなる状態である。例えば地声の場合は沢山の高調波成分が含まれるが、ファルセットになると高調波成分の大きさが極端に小さくなる。なお、この場合、制御部21は、ピッチが大幅に上方に変化したかどうかも参照してよい。ファルセットは地声と同一のピッチを発声する場合でも用いられることもあるが、一般には地声では発声できない高音を発声するときに使われる技法だからである。したがって、練習者音声データのピッチが所定音高以上の場合に限って「ファルセット」の検出をするように構成してもよい。また、男声と女声とでは一般にファルセットを用いる音高の領域が異なるので、練習者音声データの音域や、練習者音声データから検出されるフォルマントによって性別検出を行い、この結果を踏まえてファルセット検出の音高領域を設定してもよい。
また、制御部21は、検出した区間の時間長を、この技法の「長さ」の程度として10段階の数値で示される値に変換する。
【0024】
また、制御部21は、スペクトル特性の変化の態様が短時間に多様に切り替わる区間を検出し、検出した区間を「こぶし」の技法が用いられている区間であると特定する。「こぶし」の場合は、短い区間において声色や発声方法を変化させて唸るような味わいを付加する技法であるため、この技法が用いられている区間においてはスペクトル特性が多様に変化するからである。また、制御部21は、検出した区間の時間長を、この技法の「長さ」の程度として10段階の数値で示される値に変換する。
【0025】
以上のようにして、制御部21は、練習者音声データから技法が用いられている区間と技法の態様とを検出し、検出した区間を示す区間情報をその技法を示す種別情報と技法の態様を示す情報とに関連付ける。そして、制御部21は、ステップS3にて算出したピッチ、スペクトル及びパワーと、ステップS4にて生成した区間情報及び種別情報とを含む練習者特徴データを生成する(ステップS5)。ここで生成される練習者特徴データは、図4に示した模範特徴データと同様の構成である。次いで、制御部21は、生成した練習者特徴データを楽曲IDとともに通信部28からサーバ装置3に送信する(ステップS6)。
【0026】
サーバ装置3の制御部31は、練習者特徴データ及び楽曲IDを受信すると、受信した練習者特徴データと、模範特徴データ記憶領域32aにおいて上記楽曲IDと対応付けて記憶されている模範特徴データとを比較し、練習者特徴データのレベルを特定(指定)する(ステップS7)。
【0027】
レベルの特定処理の具体例について以下に説明する。制御部31は、練習者特徴データが表す各技法の態様を示す情報(10段階の数値)と模範特徴データ記憶領域32aに記憶された模範特徴データが表す各技法の態様を示す情報との差分を累算する。一例として、例えば、練習者特徴データに含まれる「ビブラート」の技法の「深さ」の程度を示す情報をEA1,EA2,・・・EAk、「長さ」の程度を示す情報をEB1,EB2,・・・EBl、「つっこみ」の「傾斜度」の程度を示す情報をEC1,EC2,・・・ECm、「つっこみ」の「長さ」の程度を示す情報をED1,ED2,・・・EDnとし、また、模範特徴データに含まれる「ビブラート」の技法の「深さ」の程度を示す情報をMA1,MA2,・・・MAk、「長さ」の程度を示す情報をMB1,MB2,・・・MBl、「つっこみ」の「傾斜度」の程度を示す情報をMC1,MC2,・・・MCm、「つっこみ」の「長さ」の程度を示す情報をMD1,MD2,・・・MDnとすると、制御部21は、その累算値pを次式で求める。
【数1】
なおこの式においては、ビブラート、つっこみの技法のみを示し、他の「ため」、「しゃくり」などの技法について省略しているが、制御部21は、他の技法についても、ビブラートやつっこみと同様にして、程度の差分を累算する。算出された累積値は、差分の累算結果であるから、その値が大きいほど目標模範者の歌唱音声との類似度が低く、逆に、その値が小さいほど目標模範者の歌唱音声との類似度が高いことを示す。
次いで、制御部31は、関連データ記憶領域32bに記憶された関連データの「類似度」の項目に記憶されている差分情報と、算出した累積値とを比較して、算出された累積値の示す類似度(以下、「練習者類似度」)よりも類似度が高い差分情報のなかから、練習者類似度に最も近い類似度である差分情報に対応するレベルを、練習者特徴データのレベルとして特定する。具体的には、制御部31は、関連データ記憶領域32bの「類似度」の項目に記憶されている複数の情報のうち、算出された累積値から減算した値が予め定められた閾値以上である差分情報を抽出し、抽出した差分情報のなかでその値が最も大きいもの、すなわち抽出した差分情報のうちの最もレベルの低いものを特定する。例えば、算出された累積値が「60」であって、関連データ記憶領域32bに記憶されたデータが図5に示すものであり、予め定められた閾値が「10」である場合には、制御部21は、「類似度」が「50」であるレベル、すなわち「2」のレベルを練習者特徴データのレベルとして特定する。
【0028】
次いで、制御部31は、特定(指定)したレベルに応じたレベル情報に関連付けられた関連データに含まれる模範音声データを記憶部32から読み出し(ステップS8)、読み出した模範音声データを、カラオケ装置2によって再生可能なデータ形式で、その模範音声データのレベルIDとともに送信(出力)する(ステップS9)。カラオケ装置2の制御部21は、受信した模範音声データとレベルIDとを記憶部22に記憶するとともに、受信した模範音声データを再生する(ステップS10)。つまり、制御部21は、模範音声データを音声処理部26に供給し、音声処理部26がその模範音声データをアナログ信号に変換し、スピーカ27から放音させる。このとき、制御部21は、「あなたが最初に目指す歌唱先生はこの人です」というメッセージを表示部23に表示させる。これにより、練習者は、自らの歌唱に合った模範者の歌唱音声を聴くことができ、それを模範とすることで自身の歌唱の上達を図ることが可能となる。
【0029】
以上説明したように本実施形態においては、サーバ装置3に記憶されている模範音声データの中から、練習者の歌唱テクニックのレベルが近く、かつ練習者よりもレベルの高い模範音声データが選択されるから、これにより、練習者にあったレベルの模範者の歌唱音声を練習者に模範として提供することができる。練習者がその歌唱を模範として聴き、その歌い方を次のレベルアップのためのお手本とすることで、練習者の歌唱が上達しやすくなる。
【0030】
<A−2−2:レベルアップ動作>
次に、図7に示すシーケンス図を参照しながら本実施形態のレベルアップ動作について説明する。なお、図7において、図6に示した処理と同様の処理については、同じ符号を付して適宜その説明を省略する。
練習者は、再生される模範音声を参考にして、歌唱の練習を繰り返し行う。カラオケ装置2の制御部21は、図6のステップS1〜ステップS5に示す処理と同様の処理を行って、収音された練習者の歌唱音声から練習者特徴データを生成する。次いで、制御部21は、生成した練習者特徴データと楽曲IDと記憶部22に記憶されたレベルIDとを、サーバ装置3に送信する(ステップS26)。このとき送信されるレベルIDは、前述のレベル判定動作においてサーバ装置3からカラオケ装置2が受信したレベルIDであり、練習者の歌唱レベルを示すレベル情報である。
【0031】
サーバ装置3の制御部31は、受信した練習者特徴データと模範特徴データ記憶領域32aに記憶された模範特徴データとを比較して両者の類似度を算出し、受信したレベルIDの示す(指定された)レベルに対して予め定められた範囲内に、算出した類似度が含まれるか否かを判定し、含まれる場合には、関連データ記憶領域32bに記憶された複数の模範音声データのなかから、受信したレベルIDにより示されるレベルの次に高いレベルの模範音声データを選択する(ステップS27)。
【0032】
模範音声データの選択処理の具体例について以下に説明する。
サーバ装置3の制御部31は、練習者特徴データ、楽曲ID及びレベルIDを、カラオケ装置2から受信すると、受信された練習者特徴データが表す各技法の程度と模範特徴データ記憶領域32aに記憶された模範特徴データが表す各技法の程度との差分を累算する。この累算処理は、上述したレベル指定処理で行う(数1)を用いた累算処理と同様である。
次いで、サーバ装置3は、受信したレベルIDに対応する「類似度」の情報と算出した累積値との差値が予め定められた閾値以下であるか否かを判定することによって、練習者特徴データと模範特徴データとの類似度がレベル毎に予め定められた閾値以上であるか否かを判定する。閾値以下であると判定された場合には、制御部31は、受信したレベル情報の示すレベルの次に高いレベルの模範音声データを選択する。
【0033】
受信したレベルIDの示す(指定された)レベルに対して予め定められた範囲内に、算出した類似度が含まれると判定された場合には、制御部31は、選択した模範音声データとその模範音声データに対応するレベルIDとを、判定結果を示す情報としてカラオケ装置2に送信(出力)する。一方、それ以外の場合には、制御部31は、受信したレベルと同一のレベルを示す情報を、その判定結果を示す情報としてカラオケ装置2に送信する(ステップS28)。
【0034】
カラオケ装置2の制御部21は、判定結果を示す情報を受信すると、その判定結果が、同一レベルを示すものである場合には、制御部21は、記憶部22に記憶されている模範音声データ、すなわち前回再生したものと同一の模範音声データを再生する。一方、受信したレベル情報が前回と異なるものであった場合には、制御部21は、受信した模範音声データを記憶部22に記憶するとともに、受信した模範音声データを再生する(ステップS20)。つまり、制御部21は、受信した模範音声データを音声処理部26に供給し、音声処理部26がその模範音声データをアナログ信号に変換し、スピーカ27から放音させる。このとき、制御部21は、「レベル1をクリアしました。次のレベルの歌唱先生を目指してがんばって下さい」というメッセージを表示部23に表示させる。
【0035】
練習者は、ある楽曲を繰り返し歌唱して歌唱練習を行い、楽曲練習支援システム1は、図7に示す動作を繰り返し行う。練習者の歌唱が上達してその歌唱レベルが模範音声の歌唱レベルに近くなってくると、次に高いレベルの模範音声データが練習者に提供され、練習者は新しい模範音声を目指して練習に励むことになる。このように模範音声が段階的にレベルアップしてゆき、最終的には目標模範者(オリジナルの歌手)の歌唱テクニックに到達すれば、その曲はマスターしたと判定され、練習者は、満足を得られると共に、次の曲に挑戦することになる。
【0036】
<B:第2実施形態>
次に、この発明の第2の実施形態について説明する。
この実施形態に係る楽曲練習支援システムが、上述した第1実施形態に係る楽曲練習支援システム1と異なる点は、サーバ装置の記憶部に記憶されている関連データの内容が異なる点であり、他の構成は、上述した第1実施形態において示したそれと同様である。そのため、以下の説明においては、上述した第1実施形態と同様の構成要素については同じ符号を付して適宜その説明を省略する。なお、以下の説明においては、この実施形態に係るサーバ装置を「サーバ装置3A」として説明し、この実施形態に係るカラオケ装置を「カラオケ装置2A」として説明する。
【0037】
図8は、この実施形態に係るサーバ装置3Aの関連データ記憶領域32bに記憶されている関連データの内容の一例を示す図である。なお、この図は、上述した第1実施形態において図5に対応するものである。
図8に示す関連データの内容が図5に示す関連データの内容と異なる点は、「類似度」及び「模範音声データ」に加えて、模範音声データの示す音声の特徴を表す「模範特徴データ」が「レベルID」に関連付けて記憶されている点である。なお、この模範特徴データの内容は、図4に示したものと同様であり、ここではその説明を省略する。
【0038】
次に、この実施形態の動作について、図9に示すシーケンス図を参照しつつ説明する。なお、図9において、図6に示した処理と同様の処理については、同じ符号を付してその説明を省略する。
サーバ装置3Aの制御部31は、レベルIDと模範音声データとに加えて、指定したレベルに対応する模範特徴データを関連データ記憶領域32bから読み出してカラオケ装置2に送信する(ステップS39)。
【0039】
カラオケ装置2Aの制御部21は、サーバ装置3Aから受信した模範特徴データと、記憶部22に記憶された練習者特徴データとのそれぞれの技法の態様を、両者を比較可能な態様で表示部23に表示させることによって報知する(ステップS40)。
図10は、カラオケ装置2Aの表示部23に表示される画面の一例を示す図である。図において、制御部21は、各技法毎に、各技法のレベルを示すレベルメータA11〜A14と、受信された模範特徴データに含まれる技法の態様を前記レベルメータ上の表示位置で示すドットA21〜A24と、記憶部22に記憶された練習者特徴データに含まれる技法の態様を前記レベルメータ上の表示位置で示すドットA31〜A34とを、表示部23に表示させる。図10に示す例においては、「ビブラート」の技法の速度の程度についてのレベルメータA11と、模範特徴データの「ビブラート」の速度の程度をレベルメータA11上の表示位置で示すドットA21と、練習者特徴データの「ビブラート」の速度の程度をレベルメータA11上の表示位置で示すドットA31とを表示部23が表示した場合の画面の一例を示している。
なお、これらの各技法の程度を示すレベルメータ、ドットは、制御部21が、各技法のそれぞれについて、平均値を算出してその平均値をドットで示すようにしてもよく、または、技法が検出された区間毎に、レベルメータやドットを表示するようにしてもよい。
なお、本実施形態においては、レベルメータとドットを表示することによって、技法の態様を報知するようにしたが、報知方法はこれに限らず、例えば音声メッセージを出力するようにしてもよく、または、電子メール形式で送信することによって報知するようにしてもよい。要するに、模範特徴データと練習者特徴データとのそれぞれの技法の態様を、両者を比較可能な態様で報知するようにすればよい。
【0040】
このように本実施形態においては、レベルメータを表示することによって、模範音声と練習者音声とを比較可能な態様で報知するから、練習者は、自分がどれくらいうまくなったかを客観的に把握することができ、練習者の練習意欲の向上を図ることができる。
【0041】
<C:変形例>
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されることなく、他の様々な形態で実施可能である。以下にその一例を示す。
(1)上述した実施形態においては、練習者の歌唱音声のレベルに合った模範者の歌唱音声を検索する場合を例に挙げて説明したが、これに限らず、練習者の楽器の演奏音に合った模範者の演奏音を検索するようにしてもよい。この場合、上述した模範者の歌唱音声に代えて模範者の演奏音を表す模範演奏音データが用いられ、練習者音声データに代えて練習者の演奏音を表す練習者演奏音データが用いられる。また、伴奏・歌詞データ記憶領域22aには、楽譜に演奏音として規定された楽譜音データが記憶される。サーバ装置3の制御部31は、これらのデータに基づき、上記と同様の処理を経て練習者演奏音データのレベルにあった模範演奏音データを検索する。
【0042】
(2)上述した実施形態においては、練習者特徴データは、カラオケ装置2の制御部21によって生成されるようになっていたが、これに代えて、サーバ装置3の制御部31によって生成されるようにしてもよい。また、カラオケ装置2の制御部21が練習者特徴データの入力を促し、練習者が予め用意しておいた練習者特徴データを入力するようにしてもよい。この場合、例えば、制御部21が、練習者特徴データの入力を促す画面を表示部23に表示させ、練習者は、例えばUSB(Universal Serial Bus)等のインタフェースを介してカラオケ装置2に練習者特徴データを入力するようにすればよい。この場合、事前にパーソナルコンピュータ等の装置で練習者特徴データを生成するようにしておけばよい。この際も、上述した実施形態と同様に、パーソナルコンピュータが、マイクロフォンで練習者の音声を収音して、収音した音声を分析して練習者特徴データを生成する。また、カラオケ装置2にRFIDリーダを設けて、練習者特徴データが書き込まれたRFIDをカラオケ装置2のRFIDリーダが読み取るようにしてもよい。
【0043】
(3)なお、上述した実施形態においては、練習者特徴データとして、「ビブラート」、「つっこみ」、「ため」などの技法とその程度を示すデータを用いたが、上述した実施形態で用いた技法を全て用いる必要はなく、いずれか一つを用いるようにしてもよく、複数を用いるようにしてもよい。また、練習者特徴データは、技法を示すデータに限らず、他のデータであってもよい。例えば、歌唱音声又は演奏音のピッチ、タイミング、スペクトル、パワーを示すデータであってもよい。要するに、模範特徴データ及び練習者特徴データは、歌唱音声又は演奏音のピッチ、タイミング、スペクトル、パワー及び歌唱又は演奏に用いられる技法のうち、少なくともいずれか一つを示すデータであることが好ましい。
例えば、ピッチを特徴データとして用いる場合には、制御部31は、練習者特徴データが表すピッチと模範特徴データが表すピッチとの差分を歌唱の開始から終了までの全域にわたって積分し、その積分値をレベル毎に予め算出された値と比較することによってレベルを特定するようにしてもよい。
【0044】
(4)上述した実施形態においては、サーバ装置3は模範特徴データを予め記憶しておくようにしたが、これに代えて、サーバ装置3が模範音声データだけを記憶しておき、検索を行う必要がある度に模範音声データから模範特徴データを抽出するようにしてもよい。なお、模範音声データや練習者音声データはWAVE形式やMP3形式のデータとしたが、データの形式はこれに限定されるものではなく、音声を示すデータであればどのような形式のデータであってもよい。
【0045】
(5)上述した実施形態においては、サーバ装置3の制御部31が練習者特徴データに基づいてレベルを特定するようにしたが、例えばカラオケ装置2の操作部24を操作によってレベルが入力されるようにしてもよい。また、ある楽曲についてレベル判定が行われた場合に、カラオケ装置2の記憶部に、レベルを示す情報を記憶させておき、他の楽曲が選択された場合に、記憶されたレベルを用いるようにしてもよい。例えば、ある楽曲についてレベルを判定した場合は、2曲目を歌うときからは、既に練習者の歌唱レベルがわかっているから、歌う前にその練習者の歌唱テクニックに近い模範音声データをシステムで自動的に選択することが可能である。
【0046】
(6)上述した実施形態においては、複数の技法について、練習者特徴データが表す各技法の態様を示す数値と模範特徴データが表す各技法の態様を示す数値との差分を累算し、その累算値からレベルを特定するようにした。レベルの特定方法はこれに限定されるものではなく、例えば、1つの技法についてのみ差分を累算して、その累算値からレベルを特定するようにしてもよい。または、技法毎に重み付けを行って、累算するようにしてもよい。この場合に用いる式の一例を以下に示す。
【数2】
なお、上述の式において、α1、α2、α3、α4・・・は重み付け係数である。なお、この係数は、練習者がカラオケ装置2の操作部などを用いてその値を設定できるようにしてもよい。例えば、練習者がビブラートを練習したい場合には、ビブラートの係数を“1”に設定し、他の技法の係数を“0”に設定すればよい。このようにすれば、サーバ装置3の制御部31は、ビブラートの類似度によってレベルを特定するから、練習者は、ビブラートに集中して歌唱練習を行うことができる。
【0047】
また、レベルの特定方法の他の例として、例えば、次のようにして算出してもよい。制御部31は、練習者特徴データが表す各技法の区間情報によって表される区間と、各模範特徴データが表す各技法の区間情報によって表される区間との差分を積分する。そして、制御部31は、上記のようにして得られた積分値を模範特徴データごとに累算し、その累算値が最も小さい模範特徴データを、練習者音声データとの類似度が最も高いものとして選択する。
要するに、練習者特徴データと模範特徴データとを比較し、その類似度に応じてレベルを特定するようにすればよい。
【0048】
(7)上述した第2の実施形態においては、練習者が楽曲を歌唱し終えた後に、練習者特徴データと模範特徴データとを比較可能な態様で報知するようにしたが、歌唱の最中にリアルタイムで解析処理を行って、その結果を報知するようにしてもよい。この場合は、「しゃくり」ポイントや「ビブラート」ポイントで目標模範者(オリジナル歌手)との比較を行い、その類似度をリアルタイムで画面にレベルメータとして表示するようにしてもよい。
【0049】
(8)上述した実施形態では、カラオケ装置2とサーバ装置3とがネットワーク4で接続された楽曲練習支援システム1が、本実施形態に係る機能の全てを実現するようになっている。これに対し、ネットワークで接続された3以上の装置が上記機能を分担するようにし、それら複数の装置を備えるシステムが同実施形態のシステムを実現するようにしてもよい。または、ひとつの装置が上記機能のすべてを実現するようにしてもよい。
【0050】
(9)上述した実施形態におけるカラオケ装置2の制御部21又はサーバ装置3の制御部31によって実行されるプログラムは、磁気テープ、磁気ディスク、フレキシブルディスク、光記録媒体、光磁気記録媒体、CD(Compact Disk)−ROM、DVD(Digital Versatile Disk)、RAMなどの記録媒体に記憶した状態で提供し得る。また、インターネットのようなネットワーク経由でカラオケ装置2又はサーバ装置3にダウンロードさせることも可能である。
【図面の簡単な説明】
【0051】
【図1】楽曲練習システムの全体構成を示すブロック図である。
【図2】カラオケ装置の構成を示すブロック図である。
【図3】サーバ装置の構成を示すブロック図である。
【図4】サーバ装置によって記憶される模範特徴データの一例を示す図である。
【図5】サーバ装置によって記憶される関連データの一例を示す図である。
【図6】実施形態の動作を示すシーケンス図である。
【図7】実施形態の動作を示すシーケンス図である。
【図8】サーバ装置によって記憶される関連データの一例を示す図である。
【図9】実施形態の動作を示すシーケンス図である。
【図10】サーバ装置によって表示される画面の一例を示す図である。
【符号の説明】
【0052】
1…楽曲練習システム、2,2a,2b,2c…カラオケ装置、3…サーバ装置、4…ネットワーク、21…制御部、22…記憶部、23…表示部、24…操作部、25…マイクロフォン、26…音声処理部、27…スピーカ、28…通信部、31…制御部、33…通信部。
【特許請求の範囲】
【請求項1】
歌唱のレベルを示すレベル情報と歌唱音声を表す音声データとが関連付けられた関連データ又は演奏のレベルを示すレベル情報と演奏音を表す音声データとが関連付けられた関連データが複数記憶された関連データ記憶手段と、
レベルを指定するレベル指定手段と、
前記レベル指定手段により指定されたレベルに応じたレベル情報に関連付けられた関連データに含まれる音声データを前記関連データ記憶手段から読み出す選択手段と、
前記選択手段により読み出された音声データを出力する出力手段と
を具備することを特徴とする楽曲練習支援装置。
【請求項2】
模範となる歌唱音声又は模範となる演奏音の特徴を表す模範特徴データを記憶する模範特徴データ記憶手段と、
練習者の歌唱音声又は演奏音の特徴を表す練習者特徴データを取得する練習者特徴データ取得手段と
を備え、
前記レベル指定手段は、前記模範特徴データ記憶手段に記憶された模範特徴データと前記練習者特徴データ取得手段により取得された練習者特徴データとを比較して両者の類似度を算出し、算出した類似度に応じてレベルを指定する
ことを特徴とする請求項1に記載の楽曲練習支援装置。
【請求項3】
模範となる歌唱音声又は模範となる演奏音の特徴を表す模範特徴データを記憶する模範特徴データ記憶手段と、
練習者の歌唱音声又は演奏音の特徴を表す練習者特徴データを取得する練習者特徴データ取得手段と
を備え、
前記模範特徴データ記憶手段に記憶された模範特徴データと前記練習者特徴データ取得手段により取得された練習者特徴データとを比較して両者の類似度を算出し、前記レベル指定手段によって指定されたレベルに対して予め定められた範囲内に、算出した類似度が含まれる場合には、前記関連データ記憶手段に記憶された複数の音声データのなかから、前記レベル指定手段により指定されたレベルよりも高いレベルの音声データを選択する第2の選択手段と、
前記第2の選択手段により選択された音声データを出力する第2の出力手段と
を備えることを特徴とする請求項1に記載の楽曲練習支援装置。
【請求項4】
前記模範特徴データ及び前記練習者特徴データは、歌唱音声又は演奏音のピッチ、タイミング、スペクトル、パワー及び歌唱又は演奏に用いられる技法のうち、少なくともいずれか一つを示すデータであることを特徴とする請求項2乃至3のいずれかに記載の楽曲練習支援装置。
【請求項5】
前記関連データ記憶手段は、前記レベル情報を、前記音声データと当該音声データが示す音声の特徴を表す特徴データとに関連付けて複数記憶し、
前記練習者の歌唱音声又は演奏音の特徴を表す練習者特徴データを取得する練習者特徴データ取得手段と、
前記レベル指定手段により指定されたレベルの特徴データを前記関連データ記憶手段から読み出し、読み出した特徴データと前記練習者特徴データ取得手段により取得された練習者特徴データとを比較可能な態様で報知する報知手段と
を備えることを特徴とする請求項1に記載の楽曲練習支援装置。
【請求項6】
練習者の歌唱音声又は演奏音を表す練習者音声データを取得する練習者音声データ取得手段と、
前記練習者音声データ取得手段により取得された練習者音声データから前記練習者特徴データを生成する練習者特徴データ生成手段とを備え、
前記練習者特徴データ取得手段は、前記練習者特徴データ生成手段により生成された練習者特徴データを取得する
ことを特徴とする請求項2乃至5のいずれかに記載の楽曲練習支援装置。
【請求項7】
収音手段及び再生手段を備えた通信装置との間で、ネットワークを介して通信を行う通信手段を備え、
前記練習者音声データ取得手段は、前記通信装置の収音手段によって収音された前記練習者音声データを前記通信手段によって受信し、
前記出力手段は、前記通信装置の再生手段によって再生可能なデータ形式の前記音声データを前記通信手段から前記通信装置に送信する
ことを特徴とする請求項6に記載の楽曲練習支援装置。
【請求項8】
制御手段を備えた楽曲練習支援装置の制御方法であって、
前記制御手段が、レベルを指定するステップと、
前記制御手段が、歌唱のレベルを示すレベル情報と歌唱音声を表す音声データとが関連付けられた関連データ又は演奏のレベルを示すレベル情報と演奏音を表す音声データとが関連付けられた関連データが複数記憶された記憶手段から、指定したレベルに応じたレベル情報に関連付けられた関連データに含まれる音声データを読み出すステップと、
読み出した音声データを出力するステップと
を備えることを特徴とする制御方法。
【請求項9】
コンピュータに、
レベルを指定する指定機能と、
歌唱のレベルを示すレベル情報と歌唱音声を表す音声データとが関連付けられた関連データ又は演奏のレベルを示すレベル情報と演奏音を表す音声データとが関連付けられた関連データが複数記憶された記憶手段から、前記指定機能により指定されたレベルに応じたレベル情報に関連付けられた関連データに含まれる音声データを読み出す選択機能と、
前記選択機能により読み出された音声データを出力する出力機能と
を実現させるプログラム。
【請求項1】
歌唱のレベルを示すレベル情報と歌唱音声を表す音声データとが関連付けられた関連データ又は演奏のレベルを示すレベル情報と演奏音を表す音声データとが関連付けられた関連データが複数記憶された関連データ記憶手段と、
レベルを指定するレベル指定手段と、
前記レベル指定手段により指定されたレベルに応じたレベル情報に関連付けられた関連データに含まれる音声データを前記関連データ記憶手段から読み出す選択手段と、
前記選択手段により読み出された音声データを出力する出力手段と
を具備することを特徴とする楽曲練習支援装置。
【請求項2】
模範となる歌唱音声又は模範となる演奏音の特徴を表す模範特徴データを記憶する模範特徴データ記憶手段と、
練習者の歌唱音声又は演奏音の特徴を表す練習者特徴データを取得する練習者特徴データ取得手段と
を備え、
前記レベル指定手段は、前記模範特徴データ記憶手段に記憶された模範特徴データと前記練習者特徴データ取得手段により取得された練習者特徴データとを比較して両者の類似度を算出し、算出した類似度に応じてレベルを指定する
ことを特徴とする請求項1に記載の楽曲練習支援装置。
【請求項3】
模範となる歌唱音声又は模範となる演奏音の特徴を表す模範特徴データを記憶する模範特徴データ記憶手段と、
練習者の歌唱音声又は演奏音の特徴を表す練習者特徴データを取得する練習者特徴データ取得手段と
を備え、
前記模範特徴データ記憶手段に記憶された模範特徴データと前記練習者特徴データ取得手段により取得された練習者特徴データとを比較して両者の類似度を算出し、前記レベル指定手段によって指定されたレベルに対して予め定められた範囲内に、算出した類似度が含まれる場合には、前記関連データ記憶手段に記憶された複数の音声データのなかから、前記レベル指定手段により指定されたレベルよりも高いレベルの音声データを選択する第2の選択手段と、
前記第2の選択手段により選択された音声データを出力する第2の出力手段と
を備えることを特徴とする請求項1に記載の楽曲練習支援装置。
【請求項4】
前記模範特徴データ及び前記練習者特徴データは、歌唱音声又は演奏音のピッチ、タイミング、スペクトル、パワー及び歌唱又は演奏に用いられる技法のうち、少なくともいずれか一つを示すデータであることを特徴とする請求項2乃至3のいずれかに記載の楽曲練習支援装置。
【請求項5】
前記関連データ記憶手段は、前記レベル情報を、前記音声データと当該音声データが示す音声の特徴を表す特徴データとに関連付けて複数記憶し、
前記練習者の歌唱音声又は演奏音の特徴を表す練習者特徴データを取得する練習者特徴データ取得手段と、
前記レベル指定手段により指定されたレベルの特徴データを前記関連データ記憶手段から読み出し、読み出した特徴データと前記練習者特徴データ取得手段により取得された練習者特徴データとを比較可能な態様で報知する報知手段と
を備えることを特徴とする請求項1に記載の楽曲練習支援装置。
【請求項6】
練習者の歌唱音声又は演奏音を表す練習者音声データを取得する練習者音声データ取得手段と、
前記練習者音声データ取得手段により取得された練習者音声データから前記練習者特徴データを生成する練習者特徴データ生成手段とを備え、
前記練習者特徴データ取得手段は、前記練習者特徴データ生成手段により生成された練習者特徴データを取得する
ことを特徴とする請求項2乃至5のいずれかに記載の楽曲練習支援装置。
【請求項7】
収音手段及び再生手段を備えた通信装置との間で、ネットワークを介して通信を行う通信手段を備え、
前記練習者音声データ取得手段は、前記通信装置の収音手段によって収音された前記練習者音声データを前記通信手段によって受信し、
前記出力手段は、前記通信装置の再生手段によって再生可能なデータ形式の前記音声データを前記通信手段から前記通信装置に送信する
ことを特徴とする請求項6に記載の楽曲練習支援装置。
【請求項8】
制御手段を備えた楽曲練習支援装置の制御方法であって、
前記制御手段が、レベルを指定するステップと、
前記制御手段が、歌唱のレベルを示すレベル情報と歌唱音声を表す音声データとが関連付けられた関連データ又は演奏のレベルを示すレベル情報と演奏音を表す音声データとが関連付けられた関連データが複数記憶された記憶手段から、指定したレベルに応じたレベル情報に関連付けられた関連データに含まれる音声データを読み出すステップと、
読み出した音声データを出力するステップと
を備えることを特徴とする制御方法。
【請求項9】
コンピュータに、
レベルを指定する指定機能と、
歌唱のレベルを示すレベル情報と歌唱音声を表す音声データとが関連付けられた関連データ又は演奏のレベルを示すレベル情報と演奏音を表す音声データとが関連付けられた関連データが複数記憶された記憶手段から、前記指定機能により指定されたレベルに応じたレベル情報に関連付けられた関連データに含まれる音声データを読み出す選択機能と、
前記選択機能により読み出された音声データを出力する出力機能と
を実現させるプログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【公開番号】特開2007−304489(P2007−304489A)
【公開日】平成19年11月22日(2007.11.22)
【国際特許分類】
【出願番号】特願2006−135153(P2006−135153)
【出願日】平成18年5月15日(2006.5.15)
【出願人】(000004075)ヤマハ株式会社 (5,930)
【Fターム(参考)】
【公開日】平成19年11月22日(2007.11.22)
【国際特許分類】
【出願日】平成18年5月15日(2006.5.15)
【出願人】(000004075)ヤマハ株式会社 (5,930)
【Fターム(参考)】
[ Back to top ]