楽曲練習支援装置、制御方法及びプログラム

【課題】歌唱や演奏を練習する練習者にあったレベルの模範を検索する。
【解決手段】サーバ装置３の記憶部３２には、歌唱のレベルを示すレベル情報と歌唱音声を表す模範音声データとが関連付けて記憶されている。カラオケ装置２の制御部２１は、練習者の音声を収音して練習者音声データを生成し、練習者音声データから音声の特徴を表す練習者特徴データを生成し、サーバ装置３に送信する。サーバ装置３は、受信した練習者特徴データと記憶部２２に記憶された模範特徴データとを比較し、その類似度に応じて練習者音声のレベルを特定し、特定したレベルの模範音声データを記憶部３２から読み出してカラオケ装置２に送信する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、歌唱練習又は演奏練習を支援するための技術に関する。
【背景技術】
【０００２】
歌唱を練習する者が、カラオケ装置によって再生される楽曲の伴奏に合わせて歌唱を行う場合、その楽曲を持ち歌としている歌手の歌い方を真似て歌うことが多い。ところが、歌唱の素人である練習者と、歌唱に熟練した歌手とでは、声質や歌唱技術に相当の開きがあるので、練習者はうまく真似することができないのが普通である。また、練習者の歌唱技術があまりにも低いと、無理に真似をして歌ったとしても、歌唱技術を上達させるのは難しい。練習者の歌唱技術を効率よく上達させるためには、その練習者の声質や歌唱技術のレベルに見合った適切な模範が必要である。これは楽曲の歌唱に限らず、楽器の演奏についても同様である。
【０００３】
発話練習を支援するためのシステムとして、例えば特許文献１には、模範者（先生）の発話音声を練習者（生徒）の音声に変換して聴かせるシステムが提案されている。また、特許文献２には、練習者自身の発話音声についてスペクトル・エンベロープを修正するなどの音声処理を施して再生するシステムが提案されている。
【特許文献１】特開２００２−２４４５４７号公報
【特許文献２】特開２００４−１３３４０９号公報
【発明の開示】
【発明が解決しようとする課題】
【０００４】
しかしながら、特許文献１に記載のシステムにおいては、どの模範音声で練習するかを練習者自身が選択する必要があり、練習者にとって煩雑である。また、特許文献２に記載のシステムでは、練習者の発話音声に音声処理を施すので、不自然な発音になってしまうことがある。
本発明は上述した背景の下になされたものであり、歌唱練習又は演奏練習において、練習者にとって適切な模範を検索するための手法を提供することを目的とする。
【課題を解決するための手段】
【０００５】
上記課題を解決するため、本発明は、歌唱のレベルを示すレベル情報と歌唱音声を表す音声データとが関連付けられた関連データ又は演奏のレベルを示すレベル情報と演奏音を表す音声データとが関連付けられた関連データが複数記憶された関連データ記憶手段と、レベルを指定するレベル指定手段と、前記レベル指定手段により指定されたレベルに応じたレベル情報に関連付けられた関連データに含まれる音声データを前記関連データ記憶手段から読み出す選択手段と、前記選択手段により読み出された音声データを出力する出力手段とを具備することを特徴とする楽曲練習支援装置を提供する。
本発明の好ましい態様においては、模範となる歌唱音声又は模範となる演奏音の特徴を表す模範特徴データを記憶する模範特徴データ記憶手段と、練習者の歌唱音声又は演奏音の特徴を表す練習者特徴データを取得する練習者特徴データ取得手段とを備え、前記レベル指定手段は、前記模範特徴データ記憶手段に記憶された模範特徴データと前記練習者特徴データ取得手段により取得された練習者特徴データとを比較して両者の類似度を算出し、算出した類似度に応じてレベルを指定することを特徴とする。
本発明の別の好ましい態様においては、模範となる歌唱音声又は模範となる演奏音の特徴を表す模範特徴データを記憶する模範特徴データ記憶手段と、練習者の歌唱音声又は演奏音の特徴を表す練習者特徴データを取得する練習者特徴データ取得手段とを備え、前記模範特徴データ記憶手段に記憶された模範特徴データと前記練習者特徴データ取得手段により取得された練習者特徴データとを比較して両者の類似度を算出し、前記レベル指定手段によって指定されたレベルに対して予め定められた範囲内に、算出した類似度が含まれる場合には、前記関連データ記憶手段に記憶された複数の音声データのなかから、前記レベル指定手段により指定されたレベルよりも高いレベルの音声データを選択する第２の選択手段と、前記第２の選択手段により選択された音声データを出力する第２の出力手段とを備えることを特徴とする。
本発明の更に好ましい態様においては、前記模範特徴データ及び前記練習者特徴データは、歌唱音声又は演奏音のピッチ、タイミング、スペクトル、パワー及び歌唱又は演奏に用いられる技法のうち、少なくともいずれか一つを示すデータであることを特徴とする。
【０００６】
また、本発明の更に好ましい態様においては、前記関連データ記憶手段は、前記レベル情報を、前記音声データと当該音声データが示す音声の特徴を表す特徴データとに関連付けて複数記憶し、前記練習者の歌唱音声又は演奏音の特徴を表す練習者特徴データを取得する練習者特徴データ取得手段と、前記レベル指定手段により指定されたレベルの特徴データを前記関連データ記憶手段から読み出し、読み出した特徴データと前記練習者特徴データ取得手段により取得された練習者特徴データとを比較可能な態様で報知する報知手段とを備えることを特徴とする。
また、本発明の更に好ましい態様においては、練習者の歌唱音声又は演奏音を表す練習者音声データを取得する練習者音声データ取得手段と、前記練習者音声データ取得手段により取得された練習者音声データから前記練習者特徴データを生成する練習者特徴データ生成手段とを備え、前記練習者特徴データ取得手段は、前記練習者特徴データ生成手段により生成された練習者特徴データを取得することを特徴とする。
本発明の更に好ましい態様においては、収音手段及び再生手段を備えた通信装置との間で、ネットワークを介して通信を行う通信手段を備え、前記練習者音声データ取得手段は、前記通信装置の収音手段によって収音された前記練習者音声データを前記通信手段によって受信し、前記出力手段は、前記通信装置の再生手段によって再生可能なデータ形式の前記音声データを前記通信手段から前記通信装置に送信することを特徴とする。
【発明の効果】
【０００７】
本発明によれば、歌唱練習又は演奏練習において、練習者にとって適切な模範データを検索することができる。
【発明を実施するための最良の形態】
【０００８】
次に、この発明の実施の形態を説明する。
以下の説明では、歌唱を練習する者を「練習者」と呼び、その練習者にとって模範となるような歌唱を行う者を「模範者」と呼ぶ。また、特に、ある楽曲についてその楽曲を持ち歌としている歌手など、練習者が最終的に真似て歌いたい対象である模範者を「目標模範者」と呼ぶ。
【０００９】
＜Ａ：第１実施形態＞
＜Ａ−１：構成＞
図１は、本実施形態に係る楽曲練習支援システム１の全体構成を示すブロック図である。この楽曲練習支援システム１は、複数のカラオケ装置２ａ，２ｂ，２ｃと、サーバ装置３と、これらを接続するネットワーク４とを備えている。カラオケ装置２ａ，２ｂ，２ｃは、一般家庭や、カラオケボックス又は飲食店などの各種店舗に備えられており、ネットワーク４を介して通信を行う通信装置として機能する。サーバ装置３は、多数の模範者の歌唱音声を記憶しており、これらの中から「練習者」にとって適切であろうと思われる歌唱音声を選択する楽曲練習支援装置として機能する。ネットワーク４は、例えばＩＳＤＮ（Integrated Services Digital Network）や、インターネットであり、有線区間又は無線区間を含んでいる。なお、図１には３つのカラオケ装置２ａ，２ｂ，２ｃを例示しているが、この楽曲練習支援システム１に含まれるカラオケ装置の数は３に限定されるものではなく、これより多くても少なくてもよい。また、以下の説明においては、カラオケ装置２ａ，２ｂ，２ｃを各々区別する必要がない場合には、単に「カラオケ装置２」として説明する。
【００１０】
図２は、カラオケ装置２の構成を示したブロック図である。図２において、制御部２１は例えばＣＰＵであり、記憶部２２に記憶されているコンピュータプログラムを読み出して実行することにより、カラオケ装置２の各部を制御する。表示部２３は、例えば液晶ディスプレイであり、制御部２１の制御の下、カラオケ装置２を操作するためのメニュー画面や、背景画像に歌詞テロップが重ねられたカラオケ画面などの各種画面を表示する。操作部２４は、各種のキーを備えており、押下されたキーに対応した信号を制御部２１へ出力する。マイクロフォン２５は、練習者が発声した音声を収音する。音声処理部２６は、マイクロフォン２５によって収音された音声（アナログデータ）をデジタルデータに変換して制御部２１に出力する。スピーカ２７は、音声処理部２６から出力される音声を放音する。通信部２８は、制御部２１の制御の下、ネットワーク４を介してサーバ装置３とデータ通信を行う。
【００１１】
記憶部２２は、例えばハードディスクなどの大容量の記憶手段であり、前述したコンピュータプログラムを記憶するほか、伴奏・歌詞データ記憶領域２２ａと、練習者音声データ記憶領域２２ｂと、楽譜音データ記憶領域２２ｃとを有している。伴奏・歌詞データ記憶領域２２ａには、楽曲の伴奏を行う各種楽器の演奏音が楽曲の進行に伴って記された伴奏データと、楽曲の歌詞を示す歌詞データとが、楽曲に割り当てられた楽曲ＩＤに対応付けられて記憶されている。伴奏データは、例えばＭＩＤＩ（Musical Instruments Digital Interface）形式などのデータ形式であり、練習者がカラオケ歌唱する際に再生される。歌詞データは、そのカラオケ歌唱の際に歌詞テロップとして表示部２３に表示される。練習者音声データ記憶領域２２ｂには、マイクロフォン２５から音声処理部２６を経てＡ／Ｄ変換された音声データが練習者音声データとして記憶される。この練習者音声データは、例えばＷＡＶＥ形式やＭＰ３（MPEG Audio Layer-3）形式である。楽譜音データ記憶領域２２ｃには、楽曲の楽譜によって規定された歌唱音を表す楽譜音データが楽曲ＩＤに対応付けられて記憶されている。この楽譜音データは、例えばＭＩＤＩ形式などのデータ形式であり、歌唱音のピッチとその発音タイミングとを含んでいる。
【００１２】
次に、図３は、サーバ装置３の構成を示したブロック図である。図３において、制御部３１は例えばＣＰＵであり、記憶部３２に記憶されているコンピュータプログラムを読み出して実行することにより、サーバ装置３の各部を制御する。記憶部３２は、例えばハードディスクなどの大容量の記憶手段である。通信部３３は、制御部３１による制御の下で、ネットワーク４を介してカラオケ装置２とデータ通信を行う。
【００１３】
記憶部３２は、前述したコンピュータプログラムを記憶するほか、図示のように、模範特徴データ記憶領域３２ａと、関連データ記憶領域３２ｂとを有している。
模範特徴データ記憶領域３２ａには、目標模範者の歌唱に用いられている技法の種類、区間及び態様を示す模範特徴データが、楽曲ＩＤに対応付けて記憶されている。
図４は、模範特徴データ記憶領域３２ａに記憶されている模範特徴データの内容の一例を示す図である。模範特徴データは、図示のように、「技法種別」と「区間」と「態様」との各項目が互いに関連付けて記憶されている。これらの項目のうち、「技法種別」の項目には、例えば「ビブラート」、「しゃくり」、「こぶし」、「ファルセット」、「つっこみ」、「ため」、「息継ぎ」などの歌唱の技法を識別する識別情報が記憶される。「ビブラート」は、音の高さをほんのわずかに連続的に上下させ、震えるような音色を出すという技法である。「しゃくり」は、目的の音より低い音から発音し、音程を滑らかに目的の音に近づけていくという技法である。「こぶし」は、装飾的に加えるうねるような節回しを行うという技法である。「ファルセット」は、いわゆる「裏声」で歌うという技法である。「つっこみ」は、歌い出しを本来のタイミングよりも早いタイミングにするという技法である。「ため」は、歌い出しを本来のタイミングよりも遅いタイミングにするという技法である。「息継ぎ」は、練習者が息継ぎをするタイミングを意味する。
次に、「区間」の項目には、その技法が用いられている区間を示す情報が記憶される。「態様」の項目には、その技法の態様を示す情報が記憶される。図４に示す例においては、技法の程度を１０段階で示す数値が記憶されている。例えば、「ビブラート」の場合には、ビブラートの「深さ」や「長さ」の程度を１０段階で示す数値が記憶され、「しゃくり」の場合は、しゃくりの「傾斜度」や「長さ」の程度を１０段階で示す数値が記憶され、「つっこみ」、「ため」の場合は、「タイミング」を１０段階で示す値が記憶され、「ファルセット」、「息継ぎ」、「こぶし」は、それぞれの技法が用いられた時間の長さが１０段階の数値で示されている。例えば、図４に示す例においては、「ｔ１〜ｔ２」の区間で、「ビブラート」の技法が、「深さ」が「３」、「長さ」が「４」の程度で用いられた場合のデータが記憶されている。
なお、本実施形態においては、技法の態様を１０段階の数値で表すようにしたが、これに限定されるものではなく、技法の態様を示す情報であればどのような情報を用いてもよい。
【００１４】
図５は、関連データ記憶領域３２ｂに記憶されている関連データの内容の一例を示す図である。図５に示すように、この領域には、「レベルＩＤ」と「模範音声データ」と「類似度」との各項目が互いに関連付けられて構成された「関連データ」が、「楽曲ＩＤ」に関連付けて複数記憶されている。これらの項目のうち、「楽曲ＩＤ」の項目には、例えば曲名やカラオケ曲ナンバーなどの、楽曲に割り当てられた識別情報が記憶される。「レベルＩＤ」の項目には、歌唱のレベルを示すレベル情報が記憶される。図５に示す例においては、レベルが最も低いのは「１」であり、レベル情報の値が大きくなるほどレベルが高くなっている。次に、「模範音声データ」の項目には、楽曲ＩＤの示す楽曲を模範者が歌唱した際の歌唱音声を表す模範音声データであって、レベルＩＤの示すレベルに対応する模範音声データが記憶される。模範音声データは予め録音されたものであり、サーバ装置３からカラオケ装置２へと送信されてカラオケ装置２によって練習者に対する模範音声として再生される。なお、本実施形態においては、各楽曲についてレベルが最も高い模範音声データは、目標模範者の歌唱音声を表す音声データである。次に、「類似度」の項目には、目標模範者の模範音声データと、そのレベルの模範音声データとの類似度を示す情報が記憶される。この類似度は、予め算出されたものであり、サーバ装置３の制御部３１が練習者の歌唱のレベルを判定する際に用いる情報である。なお、本実施形態においては、この類似度は、目標模範者の音声データとそのレベルの模範音声データとの差分の程度を示す差分情報を類似度として用い、差分情報の値が小さいほど類似度が高く、逆に、値が大きいほど類似度が低いことを示す。
【００１５】
＜Ａ−２：動作＞
次に、この実施形態の動作について、以下に説明する。
＜Ａ−２−１：レベル判定動作＞
図６のシーケンス図において、練習者は、カラオケ装置２の操作部２４を操作して、歌唱したい曲の楽曲ＩＤを選択し、カラオケ伴奏の再生を指示する。制御部２１は、この操作に応じて、カラオケ伴奏を開始する（ステップＳ１）。即ち、制御部２１は、伴奏・歌詞データ記憶領域２２ａから、指定された楽曲ＩＤに対応する伴奏データを読み出して音声処理部２６に供給し、音声処理部２６は、伴奏データをアナログ信号に変換し、スピーカ２７から放音させる。同時に、制御部２１は、伴奏・歌詞データ記憶領域２２ａから歌詞データを読み出して歌詞テロップを表示部２３に表示させる。練習者は、表示された歌詞テロップを参照しつつ、スピーカ２７から放音される伴奏に合わせて歌唱を行う。このとき、練習者の音声はマイクロフォン２５によって収音されて音声信号に変換され、音声処理部２６へと出力される。音声処理部２６によってＡ／Ｄ変換された練習者音声データは、伴奏開始からの経過時間を表す情報と共に、記憶部２２に記憶されていく（ステップＳ２）。
【００１６】
伴奏データの再生が終了すると、制御部２１は練習者の歌唱音声を録音する処理を終了する。そして、制御部２１は、練習者音声データ記憶領域２２ｂに記憶された練習者音声データを、所定時間長のフレーム単位に分離し、フレーム単位でピッチ、パワー及びスペクトルを算出する（ステップＳ３）。スペクトルの算出には例えばＦＦＴ（Fast Fourier Transform）を用いればよい。
【００１７】
次いで、制御部２１は、練習者音声データから技法とその技法の態様とを抽出する（ステップＳ４）。例えば「ビブラート」及び「しゃくり」については、練習者音声データのピッチに基づいて検出することができる。また、「こぶし」及び「ファルセット」については、練習者音声データのスペクトルに基づいて検出することができる。また、「ため」及び「つっこみ」については、練習者音声データのピッチと、楽譜音データ記憶領域２２ｃに記憶されている楽譜音データとに基づいて検出することができる。また、「息継ぎ」については、練習者音声データのパワーと、楽譜音データ記憶領域２２ｃに記憶されている楽譜音データとに基づいて検出することができる。
【００１８】
具体的な検出方法は以下のとおりである。
制御部２１は、練習者音声データと楽譜音データ記憶領域２２ｃに記憶された楽譜音データとの対応関係と、練習者音声データから算出されたピッチとに基づいて、練習者音声データに含まれる音の開始時刻と当該音に対応する楽譜音データの音の開始時刻とが異なる区間を特定する。ここで、制御部２１は、練習者音声データのピッチの変化タイミングが楽譜音データのピッチの変化タイミングよりも早く現れている区間、すなわち練習者音声データに含まれる音の開始時刻が当該音に対応する楽譜音データの音の開始時刻よりも早い区間については、この区間を「つっこみ」の技法が用いられている区間であると特定する。制御部２１は、このようにして特定した区間の区間情報を、「つっこみ」を示す識別情報と関連付ける。また、制御部２１は、練習者音声データのピッチの変化タイミングと楽譜音データのピッチの変化タイミングとの時間差を算出し、算出した値を、この技法の態様として１０段階の数値で示される値に変換する。
【００１９】
逆に、制御部２１は、練習者音声データと楽譜音データとの対応関係と、練習者音声データから算出されたピッチとに基づいて、練習者音声データのピッチの変化発音タイミングが楽譜音データのピッチの変化発音タイミングよりも遅れて現れている区間、すなわち練習者音声データに含まれる音の開始時刻が当該音に対応する楽譜音データの音の開始時刻よりも遅い区間を検出し、検出した区間を「ため」の技法が用いられている区間であると特定する。また、制御部２１は、練習者音声データのピッチの変化タイミングと楽譜音データのピッチの変化タイミングとの時間差を算出し、算出した値を、この技法の態様として１０段階の数値で示される値に変換する。
【００２０】
また、制御部２１は、練習者音声データから算出したピッチの時間的な変化のパターンを解析して、中心となる周波数の上下に所定の範囲内でピッチが連続的に変動している区間を検出し、検出した区間を「ビブラート」の技法が用いられている区間であると特定する。また、制御部２１は、検出した区間におけるピッチの変動範囲を算出し、算出した値を、この技法の「深さ」の程度として１０段階の数値で示される値に変換する。また、制御部２１は、検出した区間の時間長を、この技法の「長さ」の程度として１０段階の数値で示される値に変換する。
【００２１】
また、制御部２１は、練習者音声データから算出したピッチの時間的な変化のパターンを解析して、低いピッチから高いピッチに連続的にピッチが変化する区間を検出し、検出した区間を「しゃくり」の技法が用いられている区間であると特定する。なお、この処理は、楽譜音データとの対応関係に基づいて行うようにしてもよい。すなわち、制御部２１は、練習者音声データと楽譜音データとの対応関係に基づいて、練習者音声データのピッチが、低いピッチから連続的に楽譜音データのピッチに近づいている区間を検出すればよい。また、制御部２１は、検出した区間の時間長を、この技法の「長さ」の程度として１０段階の数値で示される値に変換する。また、制御部２１は、検出した区間のピッチの変化量を区間で除算して傾斜度を算出し、算出した値を、この技法の「傾斜度」の程度として１０段階の数値で示される値に変換する。
【００２２】
また、制御部２１は、練習者音声データと楽譜音データとの対応関係と、練習者音声データから算出されたパワーとに基づいて、楽譜音データが有音である区間であって練習者音声データのパワー値が所定の閾値よりも小さい区間を検出し、検出した区間を「息継ぎ」の区間であると特定する。また、制御部２１は、検出した区間の時間長を、この技法の「長さ」の程度として１０段階の数値で示される値に変換する。
【００２３】
また、制御部２１は、練習者音声データから算出されたスペクトルの時間的な変化パターンを解析して、スペクトル特性が予め決められた変化状態に急激に遷移している区間を検出し、検出した区間を「ファルセット」の技法が用いられている区間であると特定する。ここで、予め決められた変化状態とは、スペクトル特性の高調波成分が極端に少なくなる状態である。例えば地声の場合は沢山の高調波成分が含まれるが、ファルセットになると高調波成分の大きさが極端に小さくなる。なお、この場合、制御部２１は、ピッチが大幅に上方に変化したかどうかも参照してよい。ファルセットは地声と同一のピッチを発声する場合でも用いられることもあるが、一般には地声では発声できない高音を発声するときに使われる技法だからである。したがって、練習者音声データのピッチが所定音高以上の場合に限って「ファルセット」の検出をするように構成してもよい。また、男声と女声とでは一般にファルセットを用いる音高の領域が異なるので、練習者音声データの音域や、練習者音声データから検出されるフォルマントによって性別検出を行い、この結果を踏まえてファルセット検出の音高領域を設定してもよい。
また、制御部２１は、検出した区間の時間長を、この技法の「長さ」の程度として１０段階の数値で示される値に変換する。
【００２４】
また、制御部２１は、スペクトル特性の変化の態様が短時間に多様に切り替わる区間を検出し、検出した区間を「こぶし」の技法が用いられている区間であると特定する。「こぶし」の場合は、短い区間において声色や発声方法を変化させて唸るような味わいを付加する技法であるため、この技法が用いられている区間においてはスペクトル特性が多様に変化するからである。また、制御部２１は、検出した区間の時間長を、この技法の「長さ」の程度として１０段階の数値で示される値に変換する。
【００２５】
以上のようにして、制御部２１は、練習者音声データから技法が用いられている区間と技法の態様とを検出し、検出した区間を示す区間情報をその技法を示す種別情報と技法の態様を示す情報とに関連付ける。そして、制御部２１は、ステップＳ３にて算出したピッチ、スペクトル及びパワーと、ステップＳ４にて生成した区間情報及び種別情報とを含む練習者特徴データを生成する（ステップＳ５）。ここで生成される練習者特徴データは、図４に示した模範特徴データと同様の構成である。次いで、制御部２１は、生成した練習者特徴データを楽曲ＩＤとともに通信部２８からサーバ装置３に送信する（ステップＳ６）。
【００２６】
サーバ装置３の制御部３１は、練習者特徴データ及び楽曲ＩＤを受信すると、受信した練習者特徴データと、模範特徴データ記憶領域３２ａにおいて上記楽曲ＩＤと対応付けて記憶されている模範特徴データとを比較し、練習者特徴データのレベルを特定（指定）する（ステップＳ７）。
【００２７】
レベルの特定処理の具体例について以下に説明する。制御部３１は、練習者特徴データが表す各技法の態様を示す情報（１０段階の数値）と模範特徴データ記憶領域３２ａに記憶された模範特徴データが表す各技法の態様を示す情報との差分を累算する。一例として、例えば、練習者特徴データに含まれる「ビブラート」の技法の「深さ」の程度を示す情報をEA₁,EA₂,・・・EA_k、「長さ」の程度を示す情報をEB₁,EB₂,・・・EB_l、「つっこみ」の「傾斜度」の程度を示す情報をEC₁,EC₂,・・・EC_m、「つっこみ」の「長さ」の程度を示す情報をED₁,ED₂,・・・ED_nとし、また、模範特徴データに含まれる「ビブラート」の技法の「深さ」の程度を示す情報をMA₁,MA₂,・・・MA_ｋ、「長さ」の程度を示す情報をMB₁,MB₂,・・・MB_l、「つっこみ」の「傾斜度」の程度を示す情報をMC₁,MC₂,・・・MC_m、「つっこみ」の「長さ」の程度を示す情報をMD₁,MD₂,・・・MD_nとすると、制御部２１は、その累算値ｐを次式で求める。
【数１】

なおこの式においては、ビブラート、つっこみの技法のみを示し、他の「ため」、「しゃくり」などの技法について省略しているが、制御部２１は、他の技法についても、ビブラートやつっこみと同様にして、程度の差分を累算する。算出された累積値は、差分の累算結果であるから、その値が大きいほど目標模範者の歌唱音声との類似度が低く、逆に、その値が小さいほど目標模範者の歌唱音声との類似度が高いことを示す。
次いで、制御部３１は、関連データ記憶領域３２ｂに記憶された関連データの「類似度」の項目に記憶されている差分情報と、算出した累積値とを比較して、算出された累積値の示す類似度（以下、「練習者類似度」）よりも類似度が高い差分情報のなかから、練習者類似度に最も近い類似度である差分情報に対応するレベルを、練習者特徴データのレベルとして特定する。具体的には、制御部３１は、関連データ記憶領域３２ｂの「類似度」の項目に記憶されている複数の情報のうち、算出された累積値から減算した値が予め定められた閾値以上である差分情報を抽出し、抽出した差分情報のなかでその値が最も大きいもの、すなわち抽出した差分情報のうちの最もレベルの低いものを特定する。例えば、算出された累積値が「６０」であって、関連データ記憶領域３２ｂに記憶されたデータが図５に示すものであり、予め定められた閾値が「１０」である場合には、制御部２１は、「類似度」が「５０」であるレベル、すなわち「２」のレベルを練習者特徴データのレベルとして特定する。
【００２８】
次いで、制御部３１は、特定（指定）したレベルに応じたレベル情報に関連付けられた関連データに含まれる模範音声データを記憶部３２から読み出し（ステップＳ８）、読み出した模範音声データを、カラオケ装置２によって再生可能なデータ形式で、その模範音声データのレベルＩＤとともに送信（出力）する（ステップＳ９）。カラオケ装置２の制御部２１は、受信した模範音声データとレベルＩＤとを記憶部２２に記憶するとともに、受信した模範音声データを再生する（ステップＳ１０）。つまり、制御部２１は、模範音声データを音声処理部２６に供給し、音声処理部２６がその模範音声データをアナログ信号に変換し、スピーカ２７から放音させる。このとき、制御部２１は、「あなたが最初に目指す歌唱先生はこの人です」というメッセージを表示部２３に表示させる。これにより、練習者は、自らの歌唱に合った模範者の歌唱音声を聴くことができ、それを模範とすることで自身の歌唱の上達を図ることが可能となる。
【００２９】
以上説明したように本実施形態においては、サーバ装置３に記憶されている模範音声データの中から、練習者の歌唱テクニックのレベルが近く、かつ練習者よりもレベルの高い模範音声データが選択されるから、これにより、練習者にあったレベルの模範者の歌唱音声を練習者に模範として提供することができる。練習者がその歌唱を模範として聴き、その歌い方を次のレベルアップのためのお手本とすることで、練習者の歌唱が上達しやすくなる。
【００３０】
＜Ａ−２−２：レベルアップ動作＞
次に、図７に示すシーケンス図を参照しながら本実施形態のレベルアップ動作について説明する。なお、図７において、図６に示した処理と同様の処理については、同じ符号を付して適宜その説明を省略する。
練習者は、再生される模範音声を参考にして、歌唱の練習を繰り返し行う。カラオケ装置２の制御部２１は、図６のステップＳ１〜ステップＳ５に示す処理と同様の処理を行って、収音された練習者の歌唱音声から練習者特徴データを生成する。次いで、制御部２１は、生成した練習者特徴データと楽曲ＩＤと記憶部２２に記憶されたレベルＩＤとを、サーバ装置３に送信する（ステップＳ２６）。このとき送信されるレベルＩＤは、前述のレベル判定動作においてサーバ装置３からカラオケ装置２が受信したレベルＩＤであり、練習者の歌唱レベルを示すレベル情報である。
【００３１】
サーバ装置３の制御部３１は、受信した練習者特徴データと模範特徴データ記憶領域３２ａに記憶された模範特徴データとを比較して両者の類似度を算出し、受信したレベルＩＤの示す（指定された）レベルに対して予め定められた範囲内に、算出した類似度が含まれるか否かを判定し、含まれる場合には、関連データ記憶領域３２ｂに記憶された複数の模範音声データのなかから、受信したレベルＩＤにより示されるレベルの次に高いレベルの模範音声データを選択する（ステップＳ２７）。
【００３２】
模範音声データの選択処理の具体例について以下に説明する。
サーバ装置３の制御部３１は、練習者特徴データ、楽曲ＩＤ及びレベルＩＤを、カラオケ装置２から受信すると、受信された練習者特徴データが表す各技法の程度と模範特徴データ記憶領域３２ａに記憶された模範特徴データが表す各技法の程度との差分を累算する。この累算処理は、上述したレベル指定処理で行う（数１）を用いた累算処理と同様である。
次いで、サーバ装置３は、受信したレベルＩＤに対応する「類似度」の情報と算出した累積値との差値が予め定められた閾値以下であるか否かを判定することによって、練習者特徴データと模範特徴データとの類似度がレベル毎に予め定められた閾値以上であるか否かを判定する。閾値以下であると判定された場合には、制御部３１は、受信したレベル情報の示すレベルの次に高いレベルの模範音声データを選択する。
【００３３】
受信したレベルＩＤの示す（指定された）レベルに対して予め定められた範囲内に、算出した類似度が含まれると判定された場合には、制御部３１は、選択した模範音声データとその模範音声データに対応するレベルＩＤとを、判定結果を示す情報としてカラオケ装置２に送信（出力）する。一方、それ以外の場合には、制御部３１は、受信したレベルと同一のレベルを示す情報を、その判定結果を示す情報としてカラオケ装置２に送信する（ステップＳ２８）。
【００３４】
カラオケ装置２の制御部２１は、判定結果を示す情報を受信すると、その判定結果が、同一レベルを示すものである場合には、制御部２１は、記憶部２２に記憶されている模範音声データ、すなわち前回再生したものと同一の模範音声データを再生する。一方、受信したレベル情報が前回と異なるものであった場合には、制御部２１は、受信した模範音声データを記憶部２２に記憶するとともに、受信した模範音声データを再生する（ステップＳ２０）。つまり、制御部２１は、受信した模範音声データを音声処理部２６に供給し、音声処理部２６がその模範音声データをアナログ信号に変換し、スピーカ２７から放音させる。このとき、制御部２１は、「レベル１をクリアしました。次のレベルの歌唱先生を目指してがんばって下さい」というメッセージを表示部２３に表示させる。
【００３５】
練習者は、ある楽曲を繰り返し歌唱して歌唱練習を行い、楽曲練習支援システム１は、図７に示す動作を繰り返し行う。練習者の歌唱が上達してその歌唱レベルが模範音声の歌唱レベルに近くなってくると、次に高いレベルの模範音声データが練習者に提供され、練習者は新しい模範音声を目指して練習に励むことになる。このように模範音声が段階的にレベルアップしてゆき、最終的には目標模範者（オリジナルの歌手）の歌唱テクニックに到達すれば、その曲はマスターしたと判定され、練習者は、満足を得られると共に、次の曲に挑戦することになる。
【００３６】
＜Ｂ：第２実施形態＞
次に、この発明の第２の実施形態について説明する。
この実施形態に係る楽曲練習支援システムが、上述した第１実施形態に係る楽曲練習支援システム１と異なる点は、サーバ装置の記憶部に記憶されている関連データの内容が異なる点であり、他の構成は、上述した第１実施形態において示したそれと同様である。そのため、以下の説明においては、上述した第１実施形態と同様の構成要素については同じ符号を付して適宜その説明を省略する。なお、以下の説明においては、この実施形態に係るサーバ装置を「サーバ装置３Ａ」として説明し、この実施形態に係るカラオケ装置を「カラオケ装置２Ａ」として説明する。
【００３７】
図８は、この実施形態に係るサーバ装置３Ａの関連データ記憶領域３２ｂに記憶されている関連データの内容の一例を示す図である。なお、この図は、上述した第１実施形態において図５に対応するものである。
図８に示す関連データの内容が図５に示す関連データの内容と異なる点は、「類似度」及び「模範音声データ」に加えて、模範音声データの示す音声の特徴を表す「模範特徴データ」が「レベルＩＤ」に関連付けて記憶されている点である。なお、この模範特徴データの内容は、図４に示したものと同様であり、ここではその説明を省略する。
【００３８】
次に、この実施形態の動作について、図９に示すシーケンス図を参照しつつ説明する。なお、図９において、図６に示した処理と同様の処理については、同じ符号を付してその説明を省略する。
サーバ装置３Ａの制御部３１は、レベルＩＤと模範音声データとに加えて、指定したレベルに対応する模範特徴データを関連データ記憶領域３２ｂから読み出してカラオケ装置２に送信する（ステップＳ３９）。
【００３９】
カラオケ装置２Ａの制御部２１は、サーバ装置３Ａから受信した模範特徴データと、記憶部２２に記憶された練習者特徴データとのそれぞれの技法の態様を、両者を比較可能な態様で表示部２３に表示させることによって報知する（ステップＳ４０）。
図１０は、カラオケ装置２Ａの表示部２３に表示される画面の一例を示す図である。図において、制御部２１は、各技法毎に、各技法のレベルを示すレベルメータＡ１１〜Ａ１４と、受信された模範特徴データに含まれる技法の態様を前記レベルメータ上の表示位置で示すドットＡ２１〜Ａ２４と、記憶部２２に記憶された練習者特徴データに含まれる技法の態様を前記レベルメータ上の表示位置で示すドットＡ３１〜Ａ３４とを、表示部２３に表示させる。図１０に示す例においては、「ビブラート」の技法の速度の程度についてのレベルメータＡ１１と、模範特徴データの「ビブラート」の速度の程度をレベルメータＡ１１上の表示位置で示すドットＡ２１と、練習者特徴データの「ビブラート」の速度の程度をレベルメータＡ１１上の表示位置で示すドットＡ３１とを表示部２３が表示した場合の画面の一例を示している。
なお、これらの各技法の程度を示すレベルメータ、ドットは、制御部２１が、各技法のそれぞれについて、平均値を算出してその平均値をドットで示すようにしてもよく、または、技法が検出された区間毎に、レベルメータやドットを表示するようにしてもよい。
なお、本実施形態においては、レベルメータとドットを表示することによって、技法の態様を報知するようにしたが、報知方法はこれに限らず、例えば音声メッセージを出力するようにしてもよく、または、電子メール形式で送信することによって報知するようにしてもよい。要するに、模範特徴データと練習者特徴データとのそれぞれの技法の態様を、両者を比較可能な態様で報知するようにすればよい。
【００４０】
このように本実施形態においては、レベルメータを表示することによって、模範音声と練習者音声とを比較可能な態様で報知するから、練習者は、自分がどれくらいうまくなったかを客観的に把握することができ、練習者の練習意欲の向上を図ることができる。
【００４１】
＜Ｃ：変形例＞
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されることなく、他の様々な形態で実施可能である。以下にその一例を示す。
（１）上述した実施形態においては、練習者の歌唱音声のレベルに合った模範者の歌唱音声を検索する場合を例に挙げて説明したが、これに限らず、練習者の楽器の演奏音に合った模範者の演奏音を検索するようにしてもよい。この場合、上述した模範者の歌唱音声に代えて模範者の演奏音を表す模範演奏音データが用いられ、練習者音声データに代えて練習者の演奏音を表す練習者演奏音データが用いられる。また、伴奏・歌詞データ記憶領域２２ａには、楽譜に演奏音として規定された楽譜音データが記憶される。サーバ装置３の制御部３１は、これらのデータに基づき、上記と同様の処理を経て練習者演奏音データのレベルにあった模範演奏音データを検索する。
【００４２】
（２）上述した実施形態においては、練習者特徴データは、カラオケ装置２の制御部２１によって生成されるようになっていたが、これに代えて、サーバ装置３の制御部３１によって生成されるようにしてもよい。また、カラオケ装置２の制御部２１が練習者特徴データの入力を促し、練習者が予め用意しておいた練習者特徴データを入力するようにしてもよい。この場合、例えば、制御部２１が、練習者特徴データの入力を促す画面を表示部２３に表示させ、練習者は、例えばＵＳＢ（Universal Serial Bus）等のインタフェースを介してカラオケ装置２に練習者特徴データを入力するようにすればよい。この場合、事前にパーソナルコンピュータ等の装置で練習者特徴データを生成するようにしておけばよい。この際も、上述した実施形態と同様に、パーソナルコンピュータが、マイクロフォンで練習者の音声を収音して、収音した音声を分析して練習者特徴データを生成する。また、カラオケ装置２にＲＦＩＤリーダを設けて、練習者特徴データが書き込まれたＲＦＩＤをカラオケ装置２のＲＦＩＤリーダが読み取るようにしてもよい。
【００４３】
（３）なお、上述した実施形態においては、練習者特徴データとして、「ビブラート」、「つっこみ」、「ため」などの技法とその程度を示すデータを用いたが、上述した実施形態で用いた技法を全て用いる必要はなく、いずれか一つを用いるようにしてもよく、複数を用いるようにしてもよい。また、練習者特徴データは、技法を示すデータに限らず、他のデータであってもよい。例えば、歌唱音声又は演奏音のピッチ、タイミング、スペクトル、パワーを示すデータであってもよい。要するに、模範特徴データ及び練習者特徴データは、歌唱音声又は演奏音のピッチ、タイミング、スペクトル、パワー及び歌唱又は演奏に用いられる技法のうち、少なくともいずれか一つを示すデータであることが好ましい。
例えば、ピッチを特徴データとして用いる場合には、制御部３１は、練習者特徴データが表すピッチと模範特徴データが表すピッチとの差分を歌唱の開始から終了までの全域にわたって積分し、その積分値をレベル毎に予め算出された値と比較することによってレベルを特定するようにしてもよい。
【００４４】
（４）上述した実施形態においては、サーバ装置３は模範特徴データを予め記憶しておくようにしたが、これに代えて、サーバ装置３が模範音声データだけを記憶しておき、検索を行う必要がある度に模範音声データから模範特徴データを抽出するようにしてもよい。なお、模範音声データや練習者音声データはＷＡＶＥ形式やＭＰ３形式のデータとしたが、データの形式はこれに限定されるものではなく、音声を示すデータであればどのような形式のデータであってもよい。
【００４５】
（５）上述した実施形態においては、サーバ装置３の制御部３１が練習者特徴データに基づいてレベルを特定するようにしたが、例えばカラオケ装置２の操作部２４を操作によってレベルが入力されるようにしてもよい。また、ある楽曲についてレベル判定が行われた場合に、カラオケ装置２の記憶部に、レベルを示す情報を記憶させておき、他の楽曲が選択された場合に、記憶されたレベルを用いるようにしてもよい。例えば、ある楽曲についてレベルを判定した場合は、２曲目を歌うときからは、既に練習者の歌唱レベルがわかっているから、歌う前にその練習者の歌唱テクニックに近い模範音声データをシステムで自動的に選択することが可能である。
【００４６】
（６）上述した実施形態においては、複数の技法について、練習者特徴データが表す各技法の態様を示す数値と模範特徴データが表す各技法の態様を示す数値との差分を累算し、その累算値からレベルを特定するようにした。レベルの特定方法はこれに限定されるものではなく、例えば、１つの技法についてのみ差分を累算して、その累算値からレベルを特定するようにしてもよい。または、技法毎に重み付けを行って、累算するようにしてもよい。この場合に用いる式の一例を以下に示す。
【数２】

なお、上述の式において、α₁、α₂、α₃、α₄・・・は重み付け係数である。なお、この係数は、練習者がカラオケ装置２の操作部などを用いてその値を設定できるようにしてもよい。例えば、練習者がビブラートを練習したい場合には、ビブラートの係数を“１”に設定し、他の技法の係数を“０”に設定すればよい。このようにすれば、サーバ装置３の制御部３１は、ビブラートの類似度によってレベルを特定するから、練習者は、ビブラートに集中して歌唱練習を行うことができる。
【００４７】
また、レベルの特定方法の他の例として、例えば、次のようにして算出してもよい。制御部３１は、練習者特徴データが表す各技法の区間情報によって表される区間と、各模範特徴データが表す各技法の区間情報によって表される区間との差分を積分する。そして、制御部３１は、上記のようにして得られた積分値を模範特徴データごとに累算し、その累算値が最も小さい模範特徴データを、練習者音声データとの類似度が最も高いものとして選択する。
要するに、練習者特徴データと模範特徴データとを比較し、その類似度に応じてレベルを特定するようにすればよい。
【００４８】
（７）上述した第２の実施形態においては、練習者が楽曲を歌唱し終えた後に、練習者特徴データと模範特徴データとを比較可能な態様で報知するようにしたが、歌唱の最中にリアルタイムで解析処理を行って、その結果を報知するようにしてもよい。この場合は、「しゃくり」ポイントや「ビブラート」ポイントで目標模範者（オリジナル歌手）との比較を行い、その類似度をリアルタイムで画面にレベルメータとして表示するようにしてもよい。
【００４９】
（８）上述した実施形態では、カラオケ装置２とサーバ装置３とがネットワーク４で接続された楽曲練習支援システム１が、本実施形態に係る機能の全てを実現するようになっている。これに対し、ネットワークで接続された３以上の装置が上記機能を分担するようにし、それら複数の装置を備えるシステムが同実施形態のシステムを実現するようにしてもよい。または、ひとつの装置が上記機能のすべてを実現するようにしてもよい。
【００５０】
（９）上述した実施形態におけるカラオケ装置２の制御部２１又はサーバ装置３の制御部３１によって実行されるプログラムは、磁気テープ、磁気ディスク、フレキシブルディスク、光記録媒体、光磁気記録媒体、ＣＤ（Compact Disk）−ＲＯＭ、ＤＶＤ（Digital Versatile Disk）、ＲＡＭなどの記録媒体に記憶した状態で提供し得る。また、インターネットのようなネットワーク経由でカラオケ装置２又はサーバ装置３にダウンロードさせることも可能である。
【図面の簡単な説明】
【００５１】
【図１】楽曲練習システムの全体構成を示すブロック図である。
【図２】カラオケ装置の構成を示すブロック図である。
【図３】サーバ装置の構成を示すブロック図である。
【図４】サーバ装置によって記憶される模範特徴データの一例を示す図である。
【図５】サーバ装置によって記憶される関連データの一例を示す図である。
【図６】実施形態の動作を示すシーケンス図である。
【図７】実施形態の動作を示すシーケンス図である。
【図８】サーバ装置によって記憶される関連データの一例を示す図である。
【図９】実施形態の動作を示すシーケンス図である。
【図１０】サーバ装置によって表示される画面の一例を示す図である。
【符号の説明】
【００５２】
１…楽曲練習システム、２，２ａ，２ｂ，２ｃ…カラオケ装置、３…サーバ装置、４…ネットワーク、２１…制御部、２２…記憶部、２３…表示部、２４…操作部、２５…マイクロフォン、２６…音声処理部、２７…スピーカ、２８…通信部、３１…制御部、３３…通信部。

【特許請求の範囲】
【請求項１】
歌唱のレベルを示すレベル情報と歌唱音声を表す音声データとが関連付けられた関連データ又は演奏のレベルを示すレベル情報と演奏音を表す音声データとが関連付けられた関連データが複数記憶された関連データ記憶手段と、
レベルを指定するレベル指定手段と、
前記レベル指定手段により指定されたレベルに応じたレベル情報に関連付けられた関連データに含まれる音声データを前記関連データ記憶手段から読み出す選択手段と、
前記選択手段により読み出された音声データを出力する出力手段と
を具備することを特徴とする楽曲練習支援装置。
【請求項２】
模範となる歌唱音声又は模範となる演奏音の特徴を表す模範特徴データを記憶する模範特徴データ記憶手段と、
練習者の歌唱音声又は演奏音の特徴を表す練習者特徴データを取得する練習者特徴データ取得手段と
を備え、
前記レベル指定手段は、前記模範特徴データ記憶手段に記憶された模範特徴データと前記練習者特徴データ取得手段により取得された練習者特徴データとを比較して両者の類似度を算出し、算出した類似度に応じてレベルを指定する
ことを特徴とする請求項１に記載の楽曲練習支援装置。
【請求項３】
模範となる歌唱音声又は模範となる演奏音の特徴を表す模範特徴データを記憶する模範特徴データ記憶手段と、
練習者の歌唱音声又は演奏音の特徴を表す練習者特徴データを取得する練習者特徴データ取得手段と
を備え、
前記模範特徴データ記憶手段に記憶された模範特徴データと前記練習者特徴データ取得手段により取得された練習者特徴データとを比較して両者の類似度を算出し、前記レベル指定手段によって指定されたレベルに対して予め定められた範囲内に、算出した類似度が含まれる場合には、前記関連データ記憶手段に記憶された複数の音声データのなかから、前記レベル指定手段により指定されたレベルよりも高いレベルの音声データを選択する第２の選択手段と、
前記第２の選択手段により選択された音声データを出力する第２の出力手段と
を備えることを特徴とする請求項１に記載の楽曲練習支援装置。
【請求項４】
前記模範特徴データ及び前記練習者特徴データは、歌唱音声又は演奏音のピッチ、タイミング、スペクトル、パワー及び歌唱又は演奏に用いられる技法のうち、少なくともいずれか一つを示すデータであることを特徴とする請求項２乃至３のいずれかに記載の楽曲練習支援装置。
【請求項５】
前記関連データ記憶手段は、前記レベル情報を、前記音声データと当該音声データが示す音声の特徴を表す特徴データとに関連付けて複数記憶し、
前記練習者の歌唱音声又は演奏音の特徴を表す練習者特徴データを取得する練習者特徴データ取得手段と、
前記レベル指定手段により指定されたレベルの特徴データを前記関連データ記憶手段から読み出し、読み出した特徴データと前記練習者特徴データ取得手段により取得された練習者特徴データとを比較可能な態様で報知する報知手段と
を備えることを特徴とする請求項１に記載の楽曲練習支援装置。
【請求項６】
練習者の歌唱音声又は演奏音を表す練習者音声データを取得する練習者音声データ取得手段と、
前記練習者音声データ取得手段により取得された練習者音声データから前記練習者特徴データを生成する練習者特徴データ生成手段とを備え、
前記練習者特徴データ取得手段は、前記練習者特徴データ生成手段により生成された練習者特徴データを取得する
ことを特徴とする請求項２乃至５のいずれかに記載の楽曲練習支援装置。
【請求項７】
収音手段及び再生手段を備えた通信装置との間で、ネットワークを介して通信を行う通信手段を備え、
前記練習者音声データ取得手段は、前記通信装置の収音手段によって収音された前記練習者音声データを前記通信手段によって受信し、
前記出力手段は、前記通信装置の再生手段によって再生可能なデータ形式の前記音声データを前記通信手段から前記通信装置に送信する
ことを特徴とする請求項６に記載の楽曲練習支援装置。
【請求項８】
制御手段を備えた楽曲練習支援装置の制御方法であって、
前記制御手段が、レベルを指定するステップと、
前記制御手段が、歌唱のレベルを示すレベル情報と歌唱音声を表す音声データとが関連付けられた関連データ又は演奏のレベルを示すレベル情報と演奏音を表す音声データとが関連付けられた関連データが複数記憶された記憶手段から、指定したレベルに応じたレベル情報に関連付けられた関連データに含まれる音声データを読み出すステップと、
読み出した音声データを出力するステップと
を備えることを特徴とする制御方法。
【請求項９】
コンピュータに、
レベルを指定する指定機能と、
歌唱のレベルを示すレベル情報と歌唱音声を表す音声データとが関連付けられた関連データ又は演奏のレベルを示すレベル情報と演奏音を表す音声データとが関連付けられた関連データが複数記憶された記憶手段から、前記指定機能により指定されたレベルに応じたレベル情報に関連付けられた関連データに含まれる音声データを読み出す選択機能と、
前記選択機能により読み出された音声データを出力する出力機能と
を実現させるプログラム。

【図１】