説明

評価基準判定装置、制御方法及びプログラム

【課題】聴取者の主観的な評価の基準を歌唱者に示す。
【解決手段】歌唱者音声の特徴と模範音声の特徴との差分(特徴差分データ)と、その歌唱者音声に対する評価データとを対応付けて記憶しておく。そして、高い評価を表す評価データに対応付けられて記憶されている特徴差分データによって表される特徴と、低い評価を表す評価データに対応付けられて記憶されている特徴差分データによって表される特徴とを分析し、その特徴と評価との関係を求めて出力する。このような歌唱者音声の特徴とその歌唱者音声に対する評価との関係を歌唱者に示すことによって、歌唱者は聴取者の評価基準を認識することができる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、歌唱や演奏に対する聴取者の評価基準の傾向を調べる技術に関する。
【背景技術】
【0002】
カラオケ装置においては、歌唱者の歌唱の巧拙を評価するための方法が種々提案されている。その評価方法の1つに、楽譜の音符を評価基準として歌唱音声を客観的に評価するものがある(例えば特許文献1参照)。このような客観的評価方法によれば、楽譜の内容に忠実な歌唱が高く評価されることになる。さらに、このような評価方法は歌唱だけではなく、楽器の演奏にも適用し得る。
【0003】
ところで、歌唱や演奏の評価は聴取者の主観に委ねられるという一面もある。例えば歌手のように熟練した歌唱者は、楽譜の内容に忠実に従って歌唱することはほとんどなく、その多くが、歌い始めや歌い終わりを意図的にずらしたり、声質や音量を変化させたり、或いはビブラートやこぶし等の各種歌唱技法を用いたりして、歌のなかに感情の盛り上がり(情感)を表現する。このような情感は歌唱者によって様々に表現される一方、その情感表現に対する評価も聴取者の主観によって様々である。そこで、複数の聴取者に歌唱を聴かせてから、その歌唱に対する主観的な評価結果を得るとともに、カラオケ装置による客観的な評価結果を加味して総合的な評価を行う、という手法が提案されている(特許文献2参照)。
【特許文献1】特開2005−107328号公報
【特許文献2】特開2003−233383号公報
【発明の開示】
【発明が解決しようとする課題】
【0004】
ところで、歌唱者にとっては、自らの歌唱や演奏に対する評価結果を正確に認識することが重要であるとともに、どのような歌唱技術や演奏技術が高く評価されるか、即ち評価基準の傾向を知っておくことも重要である。上述した特許文献1,2に記載の技術では、このような評価基準の傾向を捉えることはできない。
そこで、本発明の目的は、聴取者による評価基準を歌唱者に提供することにある。
【課題を解決するための手段】
【0005】
上記課題を解決するため、本発明は、歌唱音声又は演奏音の特徴を表す特徴データを取得する特徴データ取得手段と、前記歌唱音声又は前記演奏音に対する聴取者の評価を表す評価データを取得する評価データ取得手段と、前記特徴データ取得手段によって取得された歌唱音声又は演奏音の特徴データと、前記評価データ取得手段によって取得された当該歌唱音声又は当該演奏音に対する前記評価データとを対応付けて記憶する評価データ記憶手段と、高い評価を表す前記評価データに対応付けられて前記評価データ記憶手段に記憶されている複数の特徴データ、又は、低い評価を表す前記評価データに対応付けられて前記評価データ記憶手段に記憶されている複数の特徴データのうち少なくともいずれか一方によって表される特徴を分析し、その特徴と前記評価データが表す評価との関係を求める分析手段と、前記分析手段によって求められた結果を出力する出力手段とを備えることを特徴とする評価基準判定装置を提供する。
【0006】
また、本発明は、記憶手段と制御手段とを備えた評価基準判定装置の制御方法であって、前記制御手段が、歌唱音声又は演奏音の特徴を表す特徴データと、当該歌唱音声又は当該演奏音に対する聴取者の評価を表す評価データとを取得する第1のステップと、前記制御手段が、前記第1のステップにおいて取得された特徴データ及び評価データを互いに対応付けて前記記憶手段に記憶させる第2のステップと、前記制御手段が、高い評価を表す前記評価データに対応付けられて前記記憶手段に記憶されている複数の特徴データ、又は、低い評価を表す前記評価データに対応付けられて前記記憶手段に記憶されている複数の特徴データのうち少なくともいずれか一方によって表される特徴を分析し、その特徴と前記評価データが表す評価との関係を求める第3のステップと、前記制御手段が、前記第3のステップにおいて求められた結果を出力する第4のステップとを備えることを特徴とする制御方法を提供する。さらに、本発明は、コンピュータに対して機能を実現させるプログラムとしての形態も採り得る。
【発明の効果】
【0007】
本発明においては、歌唱音声又は演奏音の特徴データと、その歌唱音声又は演奏音に対する評価データとを対応付けて記憶しておき、高い評価を表す前記評価データに対応付けられて前記記憶手段に記憶されている複数の特徴データ、又は、低い評価を表す前記評価データに対応付けられて前記記憶手段に記憶されている複数の特徴データのうち少なくともいずれか一方によって表される特徴を分析し、その特徴と前記評価データが表す評価との関係を求めて出力する。このような歌唱音声又は演奏音の特徴と、その歌唱音声又は演奏に対する評価との関係を歌唱者に示すことによって、歌唱者は聴取者の評価基準を認識することができる。
【発明を実施するための最良の形態】
【0008】
次に、本発明を実施するための最良の形態を説明する。以下の説明では、歌唱を行う者を「歌唱者」と呼び、その歌唱者の歌唱を聴取して主観的に評価する者を「評価者(聴取者)」と呼ぶ。
[1.構成]
図1は、本実施形態に係る評価システム1の全体構成を示すブロック図である。この評価システム1は、複数のカラオケ装置2a,2b,2cと、サーバ装置3と、これらを接続するネットワーク4とを備えている。カラオケ装置2a,2b,2cは、一般家庭や、カラオケボックス又は飲食店などの各種店舗に備えられており、ネットワーク4を介して通信を行う通信装置として機能する。サーバ装置3は、カラオケ装置2a,2b,2cから収集した歌唱者の歌唱音声を表す歌唱者音声データと、その歌唱音声に対する評価を表す評価データとに基づいて、歌唱音声の特徴と評価との関係を求め、これを評価者の主観的な評価基準の傾向として出力する評価基準判定装置である。ネットワーク4は、例えばISDN(Integrated Services Digital Network)やインターネット或いは店舗内ネットワークであり、有線区間又は無線区間を含んでいる。図1には3つのカラオケ装置が例示されているが、この評価システム1に含まれるカラオケ装置の数は3に限定されるものではなく、これより多くても少なくてもよい。また、カラオケ装置2a,2b,2cはいずれも同じ構成及び動作であるから、これらを各々区別する必要がない場合には単に「カラオケ装置2」と呼ぶことにする。
【0009】
図2は、カラオケ装置2の構成を示したブロック図である。
図2において、制御部21は例えばCPUであり、記憶部22に記憶されているコンピュータプログラムを読み出して実行することにより、カラオケ装置2の各部を制御する。表示部23は、例えば液晶ディスプレイなどであり、制御部21による制御の下で、カラオケ装置2を操作するためのメニュー画面や、背景画像に歌詞テロップが重ねられたカラオケ画面などの各種画面を表示する。操作部24は、各種のキーを備えており、押下されたキーに対応した信号を制御部21へ出力する。マイクロフォン25は、歌唱者が発音した音声を収音する。音声処理部26は、マイクロフォン25によって収音された音声(アナログデータ)をデジタルデータに変換して制御部21に出力する。スピーカ27は、音声処理部26から出力される音声を放音する。通信部28は、制御部21による制御の下で、ネットワーク4を介してサーバ装置3とデータ通信を行う。記憶部22は、例えばハードディスクなどの大容量の記憶手段であり、前述したコンピュータプログラムを記憶するほか、伴奏・歌詞データ記憶領域22aを有している。この伴奏・歌詞データ記憶領域22aには、楽曲の伴奏を行う各種楽器の演奏音が楽曲の進行に伴って記された伴奏データと、楽曲の歌詞を示す歌詞データとが対応付けられて記憶されている。伴奏データは、例えばMIDI(Musical Instruments Digital Interface)形式などのデータ形式であり、歌唱者がカラオケ歌唱する際に再生される。歌詞データは、そのカラオケ歌唱の際に歌詞テロップとして表示部23に表示される。
【0010】
次に、図3は、サーバ装置3の構成を示したブロック図である。
図3において、制御部31は例えばCPUであり、記憶部32に記憶されているコンピュータプログラムを読み出して実行することにより、サーバ装置3の各部を制御する。記憶部32は、例えばハードディスクなどの大容量の記憶手段である。通信部33は、制御部31による制御の下で、ネットワーク4を介してカラオケ装置2とデータ通信を行う。
【0011】
記憶部32は、前述したコンピュータプログラムを記憶するほか、図示のように歌唱者データ記憶領域32aと、模範データ記憶領域32bと、歌唱楽譜音データ記憶領域32cと、評価データ記憶領域32dと、分析結果記憶領域32eとを有している。歌唱者データ記憶領域32aには、カラオケ装置2からネットワーク4経由で取得した歌唱者音声データと、その歌唱音声の特徴を表す歌唱者音声特徴データとが対応付けられて記憶されている。歌唱者音声データは、例えばWAVE形式やMP3(MPEG Audio Layer-3)形式などのデータ形式で記憶されている。歌唱音声の特徴とは、その歌唱音声のピッチ(音程)、発音タイミング、パワー(音量)、スペクトル(声質)、及び、歌唱に用いられる技法である。ここでいう技法としては、「ビブラート」、「しゃくり」、「こぶし」、「ファルセット」、「つっこみ」、「ため」、「息継ぎ」を想定している。これらのうち、「ビブラート」は、音の高さをほんのわずかに連続的に上下させ、震えるような音色を出す、という技法である。「しゃくり」は、目的の音より低い音から発音し、音程を滑らかに目的の音に近づけていく、という技法である。「こぶし」は、装飾的に加えるうねるような節回しを行う、という技法である。「ファルセット」は、いわゆる「裏声」で歌う、という技法である。「つっこみ」は、歌い出しを本来の発音タイミングよりも早い発音タイミングにする、という技法である。「ため」は、歌い出しを本来の発音タイミングよりも遅い発音タイミングにする、という技法である。「息継ぎ」は、歌唱者が息継ぎをする発音タイミングを意味する。
【0012】
次に、模範データ記憶領域32bには、歌唱者に対する模範として予め決められた歌唱音声(以下、模範音声という)を表す模範音声データと、その模範音声の特徴を表す模範音声特徴データとが楽曲毎に対応付けられて記憶されている。模範音声データは、例えばWAVE形式やMP3形式などのデータ形式で記憶されている。模範音声の特徴とは、前述した歌唱音声の特徴と同様である。これらの模範音声データ及び模範音声特徴データは、予めこの模範データ記憶領域32bに記憶されている。
【0013】
次に、歌唱楽譜音データ記憶領域32cには、楽曲の楽譜によって規定された歌唱部分の音程及びタイミングを表す楽譜音データ(例えばMIDI形式)が記憶されている。この楽譜音データは、歌唱者音声データや模範音声データから各種技法を抽出するために利用される。
【0014】
歌唱者データ記憶領域32aに記憶されている歌唱者音声データは、サーバ装置3からカラオケ装置2へと送信され、カラオケ装置2によって歌唱音声として再生される。評価者はこの歌唱音声を聴取し、その歌唱音声に対する評価をカラオケ装置2に入力する。この評価は、例えば「良い」、「やや良い」、「どちらとも言えない」、「やや悪い」、「悪い」といった5段階評価によってなされる。入力された評価結果は、カラオケ装置2からサーバ装置3へと送信され、評価データとして評価データ記憶領域32dに記憶される。
【0015】
ここで、図4は、評価データ記憶領域32dに記憶されている内容を例示した図である。評価データ記憶領域32dには、歌唱音声の特徴と模範音声の特徴との差分を表す特徴差分データと、その歌唱音声に対する評価を表す評価データとが対応付けられて記憶されている。図4では、楽曲ID(Identification:識別情報)「m01」が割り当てられた楽曲を、歌唱者ID「a01」が割り当てられた歌唱者が歌唱した場合の歌唱音声の特徴と模範音声の特徴との差分が例示されている。即ち、歌唱音声のピッチ(音程)は模範音声のピッチとほぼ同じであり、歌唱音声の発音タイミングは模範音声よりも早い発音タイミングであることが多く、歌唱音声のパワー(音量)は模範音声よりも強いことが多く、歌唱音声のスペクトルは模範音声よりも男性的な声質を表している。そして、技法に関しては、歌唱音声において「ビブラート」、「ファルセット」、「ため」及び「息継ぎ」が用いられている一方、「しゃくり」、「こぶし」及び「つっこみ」は用いられていない。
【0016】
このような特徴を有する歌唱音声に対して、評価者ID「p01」が割り当てられた評価者が評価した結果は、ピッチ(音程)については5段階評価のうちの「5」という評価レベルであり、発音タイミングについては「2」という評価レベルであり、パワー(音量)については「4」という評価レベルであり、スペクトル(声質)については「4」という評価レベルであり、技法については「3」という評価レベルである。なお、評価レベルの値は大きいほど高い評価を意味しており、評価レベル1が「悪い」に相当し、評価レベル2が「やや悪い」に相当し、評価レベル3が「どちらとも言えない」に相当し、評価レベル4が「やや良い」に相当し、評価レベル5が「良い」に相当する。そして、この評価者の属性である年齢は「18歳」で、性別は「男性」である。このような特徴差分データ及び評価データが楽曲及び歌唱者毎に評価データ記憶領域32dに記憶されている。
なお、上述した楽曲IDとしては、例えば曲名やカラオケ曲ナンバーなどの識別情報を用いればよい。また、歌唱者IDや評価者IDとしては、例えばカラオケボックスなどの店舗が発行した会員番号やユーザIDなどの識別情報を用いてもよいし、歌唱や評価が行われた場所(カラオケボックスの部屋番号や店舗の店番号)を用いてもよい。また、歌唱が行われた日時や評価がされた日時を、歌唱者IDや評価者IDとして用いることもできる。
【0017】
このように評価データ記憶領域32dには、特徴差分データと評価データの対が多数記憶されているので、これらを統計学的に分析すると、歌唱音声の特徴及び評価の高低の相互関係を特定することができる。つまり、歌唱音声のどのような特徴に対してどのように評価されるか、という評価基準の傾向が分かるのである。分析結果記憶領域32eには、このような分析結果が記憶されている。
【0018】
ここで、図5は、分析結果記憶領域32eに記憶されている内容を例示した図である。
図5では、楽曲ID「m01」が割り当てられた楽曲を歌唱した際の多数の歌唱音声に対して、高い評価を得ることができた歌唱音声の特徴(ここでは歌唱音声の特徴と模範音声の特徴との差分)と、低い評価にしかならなかった歌唱音声の特徴とが記憶されている。図示の例では、楽曲ID「m01」の楽曲を歌唱する場合、10代の男性から高い評価を得るには、ピッチ(音程)を模範音声のピッチとほぼ同じくし、発音タイミングを模範音声とほぼ同じくし、パワー(音量)を模範音声よりも強くし、スペクトル(声質)を模範音声よりも男性的な声質とし、さらに、技法として「ため」及び「息継ぎ」を用いるべきである、ということが分かる。分析結果記憶領域32eには、このほかにも20代、30代、40代、50代、60代以上及び全年代の男性の評価者による評価の傾向や、10代、20代、30代、40代、50代、60代以上及び全年代の女性の評価者による評価の傾向のほか、性別を問わない全年代の評価者による評価の傾向が記憶されている。
【0019】
[2.動作]
次に、本実施形態の動作説明を行う。
本実施形態においては、歌唱者の歌唱者音声データをサーバ装置3に登録する動作と、歌唱者音声に対する評価データをサーバ装置3に収集する動作と、評価基準の傾向を求めるために評価データを分析する動作と、その分析結果(評価基準の傾向)を歌唱者に提示する動作という、4つの動作に大別される。以下、これらを順番に説明する。
【0020】
[2−1.歌唱者音声データの登録]
まず、歌唱者の歌唱者音声データをサーバ装置3に登録する動作について説明する。
図6のシーケンスチャートにおいて、歌唱者は、カラオケ装置2の操作部24を操作して、自身の歌唱を歌唱者音声データとして登録することを指示し、さらに所望する曲の楽曲IDを指定して伴奏データの再生を指示する。このとき、歌唱者は自身の歌唱者IDを操作部24によって入力するか、又は、制御部21自身が歌唱者IDを生成する。そして、制御部21は、カラオケ伴奏を開始する(ステップS1)。即ち、制御部21は、伴奏・歌詞データ記憶領域22aから伴奏データを読み出して音声処理部26に供給し、音声処理部26は、伴奏データをアナログ信号に変換し、スピーカ27に供給して放音させる。同時に、制御部21は、「伴奏に合わせて歌唱してください」というような歌唱を促すメッセージを表示部23に表示させてから、伴奏・歌詞データ記憶領域22aから歌詞データを読み出して歌詞テロップを表示部23に表示させる。歌唱者は、表示された歌詞テロップを参照しつつ、スピーカ27から放音される伴奏に合わせて歌唱を行う。このとき、歌唱者の音声はマイクロフォン25によって収音されて音声信号に変換され、音声処理部26へと出力される。音声処理部26によってA/D変換された音声データは、伴奏開始からの経過時間を表す情報と共に、記憶部22に記憶(録音)されていく(ステップS2)。
【0021】
伴奏データの再生が終了すると、制御部21は歌唱者の音声を録音する処理を終了する。次に、制御部21は、記憶部22に記憶されている音声データを、上記の楽曲ID及び歌唱者IDと共に通信部28からサーバ装置3に送信する(ステップS3)。一方、サーバ装置3の制御部31は、通信部33によって音声データ、楽曲ID及び歌唱者IDが受信されたことを検知すると、音声データを歌唱者音声データとして記憶部32の歌唱者データ記憶領域32aに記憶させるとともに、その歌唱者音声データに対応付けて楽曲ID及び歌唱者IDを記憶する(ステップS4)。
【0022】
次に、制御部31は、記憶部32に記憶されている歌唱者音声データを所定時間長のフレーム単位に分離し、フレーム単位でピッチ、発音タイミング、パワー及びスペクトルを算出する(ステップS5)。発音タイミングの算出に関しては、或るピッチが次のピッチに変化するタイミングを発音タイミングとして考えればよい。また、スペクトルの算出には例えばFFT(Fast Fourier Transform)を用いればよい。
【0023】
次いで、制御部31は、歌唱者音声データから技法を抽出する(ステップS6)。制御部31は、まず、これらの各技法が用いられている区間を特定(検出)する。例えば「ビブラート」及び「しゃくり」については、歌唱者音声データのピッチに基づいて検出することができる。また、「こぶし」及び「ファルセット」については、歌唱者音声データのスペクトルに基づいて検出することができる。また、「ため」及び「つっこみ」については、歌唱者音声データのピッチと、歌唱楽譜音データ記憶領域32cに記憶されている楽譜音データとに基づいて検出することができる。また、「息継ぎ」については、歌唱者音声データのパワーと、歌唱楽譜音データ記憶領域32cに記憶されている楽譜音データとに基づいて検出することができる。
【0024】
具体的な区間の検出方法は以下のとおりである。
制御部31は、歌唱者音声データと楽譜音データとの対応関係と、歌唱者音声データから算出されたピッチとに基づいて、歌唱者音声データに含まれる音の開始時刻と当該音に対応する楽譜音データの音の開始時刻とが異なる区間を特定する。ここで、制御部31は、歌唱者音声データのピッチの変化発音タイミングが楽譜音データのピッチの変化発音タイミングよりも早く現れている区間、すなわち歌唱者音声データに含まれる音の開始時刻が当該音に対応する楽譜音データの音の開始時刻よりも早い区間については、この区間を「つっこみ」の歌唱技法が用いられている区間であると特定する。制御部31は、このようにして特定した区間の区間情報を、「つっこみ」を示す識別情報と関連付ける。
【0025】
逆に、制御部31は、歌唱者音声データと楽譜音データとの対応関係と、歌唱者音声データから算出されたピッチとに基づいて、歌唱者音声データのピッチの変化発音タイミングが楽譜音データのピッチの変化発音タイミングよりも遅れて現れている区間、すなわち歌唱者音声データに含まれる音の開始時刻が当該音に対応する楽譜音データの音の開始時刻よりも遅い区間を検出し、検出した区間を「ため」の歌唱技法が用いられている区間であると特定する。
【0026】
また、制御部31は、歌唱者音声データから算出したピッチの時間的な変化のパターンを解析して、中心となる周波数の上下に所定の範囲内でピッチが連続的に変動している区間を検出し、検出した区間を「ビブラート」の歌唱技法が用いられている区間であると特定する。
【0027】
また、制御部31は、歌唱者音声データから算出したピッチの時間的な変化のパターンを解析して、低いピッチから高いピッチに連続的にピッチが変化する区間を検出し、検出した区間を「しゃくり」の歌唱技法が用いられている区間であると特定する。なお、この処理は、楽譜音データとの対応関係に基づいて行うようにしてもよい。すなわち、制御部31は、歌唱者音声データと楽譜音データとの対応関係に基づいて、歌唱者音声データのピッチが、低いピッチから連続的に楽譜音データのピッチに近づいている区間を検出すればよい。
【0028】
また、制御部31は、歌唱者音声データと楽譜音データとの対応関係と、歌唱者音声データから算出されたパワーとに基づいて、楽譜音データが有音である区間であって歌唱者音声データのパワー値が所定の閾値よりも小さい区間を検出し、検出した箇所を「息継ぎ」の区間であると特定する。
【0029】
また、制御部31は、歌唱者音声データから算出されたスペクトルの時間的な変化パターンを解析して、スペクトル特性がその予め決められた変化状態に急激に遷移している区間を検出し、検出した区間を「ファルセット」の歌唱技法が用いられている区間であると特定する。ここで、予め決められた変化状態とは、スペクトル特性の高調波成分が極端に少なくなる状態である。例えば、地声の場合は沢山の高調波成分が含まれるが、ファルセットになると高調波成分の大きさが極端に小さくなる。なお、この場合、制御部31は、ピッチが大幅に上方に変化したかどうかも参照してもよい。ファルセットは地声と同一のピッチを発生する場合でも用いられることもあるが、一般には地声では発声できない高音を発声するときに使われる技法だからである。したがって、歌唱者音声データのピッチが所定音高以上の場合に限って「ファルセット」の検出をするように構成してもよい。また、男声と女声とでは一般にファルセットを用いる音高の領域が異なるので、歌唱者音声データの音域や、歌唱者音声データから検出されるフォルマントによって性別検出を行い、この結果を踏まえてファルセット検出の音高領域を設定してもよい。
【0030】
また、制御部31は、スペクトル特性の変化の態様が短時間に多様に切り替わる区間を検出し、検出した部分を「こぶし」の歌唱技法が用いられている部分であると特定する。「こぶし」の場合は、短い区間において声色や発声方法を変えて唸るような味わいを付加する歌唱技法であるため、この技法が用いられている区間においてはスペクトル特性が多様に変化するからである。
【0031】
以上のようにして、制御部31は、歌唱者音声データから各技法が用いられている区間を検出し、検出した区間を示す区間情報をその歌唱技法を示す種別情報と関連付ける。そして、制御部31は、ステップS5にて算出したピッチ、発音タイミング、スペクトル及びパワーと、ステップS6にて生成した区間情報及び種別情報とを含む歌唱者音声特徴データを生成する。そして、制御部21は、生成した歌唱者音声特徴データを、楽曲ID及び歌唱者IDと対応付けて歌唱者データ記憶領域32aに記憶する(ステップS7)。以上のような処理を経ることで、サーバ装置3の歌唱者データ記憶領域32aには、歌唱者音声データ、楽曲ID、歌唱者ID及び歌唱者音声特徴データが互いに対応付けて記憶されることになる。なお、模範音声データから模範音声特徴データを抽出するアルゴリズムは、上述した歌唱者音声データから歌唱者音声特徴データを抽出するアルゴリズムと同様である。よって、サーバ装置3の制御部31は、模範音声データから事前に模範音声特徴データを抽出しておき、これを模範データ記憶領域32bに記憶させておけばよい。
【0032】
次に、制御部31は、歌唱音声特徴データと模範音声特徴データとを比較し、その差分を表す特徴差分データを生成して評価データ記憶領域32dに記憶する(ステップS8)。ただし、この時点では、特徴差分データに対応する評価データはまだ記憶されていない(図4参照)。
【0033】
[2−2.評価データの収集]
次に、歌唱者音声データに対する評価データをサーバ装置3に収集する動作について説明する。
図7のシーケンスチャートにおいて、評価者は、カラオケ装置2の操作部24を操作し、楽曲IDを指定して歌唱の評価を行うことを指示する。制御部21は、指定された楽曲IDを通信部28からサーバ装置3に送信する(ステップS11)。サーバ装置3の制御部31は、楽曲IDを受信すると、歌唱者データ記憶領域32aにおいてその楽曲IDに対応付けられて記憶されている全ての歌唱者IDを読み出し、カラオケ装置2に送信する(ステップS12)。カラオケ装置2の制御部21は、受信した歌唱者IDを図8に示すように一覧形式で表示部23に表示させる(ステップS13)。評価者は、このようにして表示された歌唱者IDの中から、カラオケ装置2の操作部24を操作して所望の歌唱者IDを1つ指定し、「この歌唱者を評価する」というソフトボタンを選択する。制御部21は、この操作を受け付けると、指定された歌唱者IDをサーバ装置3に送信する(ステップS14)。
【0034】
サーバ装置3の制御部31は、受信した歌唱者IDに対応付けられた歌唱者音声データを歌唱者データ記憶領域32aから読み出し、カラオケ装置2に送信する(ステップS15)。カラオケ装置2の制御部21は、受信した歌唱者音声データに基づき、歌唱者の音声を再生する(ステップS16)。即ち、制御部21は、歌唱者音声データを音声処理部26に供給し、音声処理部26がその歌唱者音声データをアナログ信号に変換してスピーカ27から放音させる。
【0035】
歌唱者音声データの再生が終了すると、制御部21は、前述した図9に示すような評価画面を表示部23に表示させ、評価者に対して評価を行うよう促す(ステップS17)。そこで、評価者は、図示のような「音程」、「発音タイミング」、「音量」、「声質」及び「技巧」(つまり技法)の各評価項目について、評価レベル5(良い)〜評価レベル1(悪い)のいずれかを選択すると共に、自身の性別や年齢といった属性を入力する。このとき、制御部21が評価者IDを生成するか、又は、評価者が自身の評価者IDを操作部24によって入力する。そして、評価者が「この内容で評価する」というソフトボタンを選択すると、制御部21は、選択された各評価レベルと、入力された属性を表す属性データを、評価者IDと共に通信部28からサーバ装置3に送信する(ステップS18)。
【0036】
サーバ装置3の制御部31は、受信した評価レベル、属性データ及び評価者IDを、上記楽曲ID及び歌唱者IDを含む特徴差分データに対応付けて評価データ記憶領域32dに記憶する(ステップS19)。これにより、図4に示したような内容が評価データ記憶領域32dに記憶されることになる。
以上のように、評価者による評価が行われる度に、その評価結果がサーバ装置3に送信され、評価データとして記憶される。
【0037】
[2−3.評価データの分析]
次に、図10のフローチャートを参照しながら、サーバ装置3が評価データを分析して評価基準の傾向を求める動作を説明する。
制御部31は、例えば午前0時などの所定の時期が到来する度に、図10に示す処理を開始する。まず、制御部31は、評価者の属性(年代・性別)を基準として評価データをグルーピングする(ステップS21)。つまり、評価データが、10代・男性、20代・男性、30代・男性、40代・男性、50代・男性、60代以上・男性、全年代の男性、10代・女性、20代・女性、30代・女性、40代・女性、50代・女性、60代以上・女性、全年代の女性及び全年代の男性・女性、という各グループに区分される。
【0038】
次に、制御部31は、或る楽曲IDに対応する全ての評価データについて、ピッチ、発音タイミング、パワー、スペクトル及び技法といった各評価項目に対応する評価レベルをグループごとに抽出する。そして、制御部31は、各々のグループ単位で、抽出した評価項目毎に評価レベルの平均値を算出する(ステップS22)。
【0039】
次に、制御部31は、評価データ記憶領域32dから、各々のグループ単位で、その平均値よりも高い評価レベルの評価項目に対応する特徴差分データを全て抽出する(ステップS23)。例えば、楽曲ID「m01」に対応するピッチ、発音タイミング、パワー、スペクトル及び技法の評価レベルの平均値として、それぞれ「3.5」、「3.2」、「2.8」、「2.9」、「2.4」が算出された場合、図4に例示した評価データにおいては、ピッチ、パワー、スペクトル及び技法の評価レベルがその平均値よりも高い。よって、制御部31は、ピッチに対応する特徴差分データ「模範音声と同じピッチ」と、パワーに対応する特徴差分データ「模範音声よりも強い」と、スペクトルに対応する特徴差分データ「男性的な声質」の他、各々の技法の有無を抽出する。次に、制御部31は、各々のグループ単位で、平均値よりも低い評価レベルの評価項目に対応する特徴差分データを全て抽出する(ステップS24)。上記の例では、制御部31は、発音タイミングに対応する特徴差分データ「模範音声よりも早い発音タイミング」を抽出することになる。
【0040】
そして、制御部31は、高評価に対応する特徴差分データと、低評価に対応する特徴差分データとに基づいて統計学手法を用いた分析を行って、特徴差分データが表す歌唱音声の特徴と評価データが表す評価との関係を各々のグループ単位で求めていく(ステップS25)。これにより、高い評価を得ることができた歌唱音声の特徴の傾向と、低い評価にしかならなかった歌唱音声の特徴の傾向とがグループ毎に抽出されることになるので、制御部31は、これらを図5に示すような形式で分析結果記憶領域32eに記憶する(ステップS26)。
制御部31は、以上の処理を全ての楽曲に対して実行することで、各々の楽曲における評価基準の傾向を求め、分析結果記憶領域32eに記憶することとなる。
【0041】
[2−4.分析結果の提示]
次に、サーバ装置3が上記の分析結果(評価基準の傾向)を出力して歌唱者に提示する動作について説明する。
図11のシーケンスチャートにおいて、歌唱者は、カラオケ装置2の操作部24を操作し、所望の楽曲IDを指定して評価基準の傾向を要求すると、カラオケ装置2の制御部21はこの操作を受け付けて(ステップS31)、サーバ装置3に対して評価基準の傾向を要求する。サーバ装置3の制御部31は、この要求を受け付けると、評価者の属性を指定する属性指定画面をカラオケ装置2に送信する(ステップS32)。カラオケ装置2の制御部21は、受信した属性指定画面を図12に示すようにして表示部23に表示させる(ステップS33)。歌唱者は、このようにして表示された評価者の属性の中から、所望するものを1つ指定する。制御部21は、この操作を受け付けると(ステップS34)、指定された属性を表す属性データをサーバ装置3に送信する。
【0042】
サーバ装置3の制御部31は、指定された楽曲ID及び属性データに対応する分析結果を分析結果記憶領域32eから読み出し、カラオケ装置2に送信(出力)する(ステップS35)。カラオケ装置2の制御部21は、受信した分析結果を図13に示すような形態で、表示部23に表示させる(ステップS36)。図13に示す例では、図5に例示したように、楽曲ID「m01」が割り当てられた楽曲の歌唱音声に対して、高い評価を得ることができた歌唱音声の特徴と、低い評価にしかならなかった歌唱音声の特徴とが表示されている。歌唱者は、このような分析結果を参照することで、どのように歌唱すれば高く評価され、どのように歌唱すれば低く評価されるかということ、即ち評価基準の傾向を認識することができる。
以上説明したように、本実施形態によれば、評価者(聴取者)の主観的な評価の基準を歌唱者に提供することができる。
【0043】
[3.変形例]
上述した実施形態を次のように変形してもよい。
[3−1]上述した実施形態においては、歌唱者の歌唱評価を例に挙げて説明したが、これに限らず、楽器の演奏についての実施形態も実現可能である。この場合、上述した歌唱者音声データに代えて演奏者の演奏音データが用いられ、模範音声データに代えて模範となる演奏音データが用いられる。また、伴奏・歌詞データ記憶領域22aには、練習したい楽器(例えばギター)以外の楽器(例えばベースやドラム)の演奏音データが記憶され、歌唱楽譜音データ記憶領域32cには、楽譜に演奏音として規定された楽譜音データが記憶される。サーバ装置3の制御部31は、これらのデータに基づき、上記と同様の処理を経て評価基準の傾向を分析する。
【0044】
[3−2]上述した実施形態においては、歌唱者音声特徴データや模範音声特徴データとして、音声のピッチ、発音タイミング、パワー、スペクトル及び技法の全てを用いていたが、これらの特徴のうち少なくともいずれかを用いるだけでもよいし、これら以外の特徴を用いても良い。また、これらの特徴のうち、どれを用いるかを歌唱者が操作部24を用いて選択できるようにしてもよい。同様に、各種の技法のうちいずれかを歌唱者が選択できるようにしてもよい。
【0045】
[3−3]実施形態においては、サーバ装置3の制御部31が、歌唱者音声データから歌唱者音声特徴データを生成するようになっていたが、これに代えて、カラオケ装置2の制御部21が、歌唱者の音声を録音したときに歌唱者音声特徴データを生成するようにしてもよい。
また、カラオケ装置2の制御部21が、歌唱者音声データ及び歌唱者音声特徴データの入力を促し、歌唱者が予め用意しておいた歌唱者音声データ及び歌唱者音声特徴データをカラオケ装置2に入力するようにしてもよい。例えば、制御部21が、歌唱者音声データ及び歌唱者音声特徴データの入力を促す画面を表示部23に表示させ、歌唱者は、例えばUSB(Universal Serial Bus)等のインタフェースを介してカラオケ装置2に歌唱者音声データ及び歌唱者音声特徴データを入力するようにすればよい。この場合、歌唱者は自らの歌唱音声を事前にパーソナルコンピュータ等の装置に録音し、さらにこの装置に歌唱者音声特徴データを生成させておけばよい。また、カラオケ装置2にRFIDリーダを設けて、歌唱者音声データ及び歌唱者音声特徴データが書き込まれたRFIDをカラオケ装置2のRFIDリーダが読み取るようにしてもよい。
また、実施形態では、サーバ装置3が、歌唱者音声データ及び模範音声データを記憶していたが、これら歌唱者音声データ及び模範音声データを記憶部32に記憶させておく必要がない場合もある。例えば、歌唱者がカラオケ装置2で歌唱した際に、その歌唱者の周りで歌唱音声を聴いている人たちが評価者となって評価結果をカラオケ装置に入力するような場合には、カラオケ装置2は歌唱者音声データから歌唱者音声特徴データを生成した後は、歌唱者音声特徴データのみをサーバ装置3に送信し、歌唱者音声データを消去してもよい。更にこの場合、歌唱者の周りで歌唱音声を聴いている人が評価者になるのではなく、歌唱者の歌唱音声をカラオケ装置2aからネットワーク4経由でカラオケ装置2b,2cに送信し、そのカラオケ装置2b,2cから放音される歌唱音声に対する評価結果をそのカラオケ装置2b,2cの利用者が入力するようにしてもよい。つまり、歌唱者から遠隔の地にいる評価者によって評価するのである。
また、実施形態において、サーバ装置3は歌唱者音声データから歌唱者音声特徴データを抽出して事前に記憶しておいたが、そうではなくて、サーバ装置3が歌唱者音声データだけを記憶しておき、評価基準を分析する必要がある度に歌唱者音声データから歌唱者音声特徴データを抽出するようにしてもよい。なお、模範音声データや歌唱者音声データはWAVE形式やMP3形式のデータとしたが、データの形式はこれに限定されるものではなく、音声を示すデータであればどのような形式のデータであってもよい。
【0046】
[3−4]サーバ装置3による評価基準の分析結果を出力する形態は、カラオケ装置2による表示に限らず、音声メッセージを出力するような形態であってもよい。また、評価基準の分析結果を表すメッセージを電子メール形式で歌唱者のメール端末に送信するという形態であってもよい。また、そのメッセージを記憶媒体に出力して記憶させるようにしてもよく、この場合、歌唱者はコンピュータを用いてこの記憶媒体から分析結果を読み出させることで、それを参照することができる。
【0047】
[3−5]実施形態では、それぞれの評価者による評価をすべて均等に取り扱っていたが、これらの評価に重み付けを行ってもよい。
例えば、各々の評価者の評価能力を判定し、その評価能力に応じて評価データに重み付けを行って、その評価データが表す評価の高低を判断する。具体的には、サーバ装置3の制御部31は、事前に評価者に対して評価能力の試験を行い、その評価能力を複数のレベル値、例えば「0.6」,「0.7」,「0.8」,「0.9」,「1.0」,「1.1」,「1.2」,「1.3」,「1.4」,「1.5」の合計10個のレベル値に区分する。このレベル値は評価者IDに対応付けて記憶部32に記憶される。そして、制御部31は、評価者によって歌唱者音声に対する評価レベルが入力された場合、それぞれの評価レベルに対して上記の評価能力レベルのレベル値を乗算する。例えば、評価能力レベルのレベル値が「1.2」の場合、その評価者によって入力された評価レベル(例えば「3」)に「1.2」を乗算して評価レベル「3.6」とし、元々の評価レベル「3」よりも過大に扱うのである。
なお、実施形態では、平均よりも大きい評価レベルを高い評価とし、平均よりも小さい評価レベルを低い評価としていたが、評価の高低を判断する基準は、これに限らず、例えば評価レベル「5」と「4」を高い評価とし、評価レベル「2」と「1」を低い評価としてもよい。
【0048】
[3−6]実施形態では、歌唱音声の特徴を、模範音声の特徴との差分(特徴差分データ)で表現していたが、これは歌唱音声の特徴を模範音声の特徴との相対的な差として取り扱ったほうが、その特徴を把握しやすいからであって、必ずしもそうする必要はない。例えば歌唱音声の特徴そのものを絶対的に表現してもよいし、歌唱音声の特徴と歌唱楽譜音の特徴との差分で表現してもよい。
【0049】
[3−7]実施形態では、高い評価を表す評価データに対応付けられている特徴差分データと、低い評価を表す評価データに対応付けられて記憶されている特徴差分データの双方を用いて評価基準の傾向を求めていたが、いずれか一方によって表される特徴を分析して評価基準の傾向を求めるようにしてもよい。例えば、高く評価されるための評価基準を求めることができれば、大抵の場合、その傾向の逆が低い評価にしかならない。よって、いずれか一方を求めるだけでも、歌唱者にとっては評価基準の傾向を知る上で大いに参考になる。
【0050】
[3−8]上述した実施形態では、カラオケ装置2とサーバ装置3とが通信ネットワークで接続された評価システム1が、本実施形態に係る機能の全てを実現するようになっている。これに対し、通信ネットワークで接続された3以上の装置が上記機能を分担するようにし、それら複数の装置を備えるシステムが同実施形態のシステムを実現するようにしてもよい。または、ひとつの装置が上記機能のすべてを実現するようにしてもよい。
【0051】
[3−9]本発明においては評価者による多数の評価結果が必要である。そこで、評価者が歌唱者の歌唱を評価する行為に対して何らかの特典を与え、評価行為を促進するように工夫することが望ましい。具体的には、サーバ装置3の記憶部32に、評価者に対して特典として与えられる金額乃至ポイントと、その評価者の評価者IDとを対応付けて記憶しておき、制御部31が、図7のステップS19において、評価データと評価者IDとを記憶部32に記憶させた場合、その評価者IDに対応付けられて記憶されている金額乃至ポイントを増加させて更新する。この金額乃至ポイントは、例えば評価者がカラオケ装置2を用いてカラオケ歌唱を楽しむ場合に、その利用料金の支払いに充てることができる。
【0052】
[3−10]上述した実施形態におけるカラオケ装置2の制御部21またはサーバ装置3の制御部31によって実行されるプログラムは、磁気テープ、磁気ディスク、フレキシブルディスク、光記録媒体、光磁気記録媒体、CD(Compact Disk)−ROM、DVD(Digital Versatile Disk)、RAMなどの記録媒体に記憶した状態で提供し得る。また、インターネットのようなネットワーク経由でカラオケ装置2またはサーバ装置3にダウンロードさせることも可能である。
【図面の簡単な説明】
【0053】
【図1】本発明の一実施形態に係るシステム全体の構成を示すブロック図である。
【図2】カラオケ装置の構成を示すブロック図である。
【図3】サーバ装置の構成を示すブロック図である。
【図4】サーバ装置の評価データ記憶領域に記憶されるデータの一例を示す図である。
【図5】サーバ装置の分析結果記憶領域に記憶されるデータの一例を示す図である。
【図6】歌唱者の音声データを再生する動作を示すシーケンスチャートである。
【図7】歌唱者の音声データに対する評価者の評価結果を蓄積する動作を示すシーケンスチャートである。
【図8】カラオケ装置によって表示される画面の一例を示す図である。
【図9】カラオケ装置によって表示される評価画面の一例を示す図である。
【図10】サーバ装置が評価データを分析する動作を示すフローチャートである。
【図11】分析結果を出力する動作を示すシーケンスチャートである。
【図12】カラオケ装置によって表示される属性指定画面の一例を示す図である。
【図13】カラオケ装置によって表示される、評価基準の分析結果を表す画面の一例を示す図である。
【符号の説明】
【0054】
1…評価システム、2a,2b,2c…カラオケ装置、3…サーバ装置、4…ネットワーク、21…制御部、22…記憶部、23……表示部、24…操作部、25…マイクロフォン、26…音声処理部、27…スピーカ、28…通信部、31…制御部、32…記憶部、33…通信部。

【特許請求の範囲】
【請求項1】
歌唱音声又は演奏音の特徴を表す特徴データを取得する特徴データ取得手段と、
前記歌唱音声又は前記演奏音に対する聴取者の評価を表す評価データを取得する評価データ取得手段と、
前記特徴データ取得手段によって取得された歌唱音声又は演奏音の特徴データと、前記評価データ取得手段によって取得された当該歌唱音声又は当該演奏音に対する前記評価データとを対応付けて記憶する評価データ記憶手段と、
高い評価を表す前記評価データに対応付けられて前記評価データ記憶手段に記憶されている複数の特徴データ、又は、低い評価を表す前記評価データに対応付けられて前記評価データ記憶手段に記憶されている複数の特徴データのうち少なくともいずれか一方によって表される特徴を分析し、その特徴と前記評価データが表す評価との関係を求める分析手段と、
前記分析手段によって求められた結果を出力する出力手段と
を備えることを特徴とする評価基準判定装置。
【請求項2】
前記歌唱音声又は演奏音を表す音声データを記憶する音声データ記憶手段と、
複数の通信装置とネットワークを介してデータ通信を行う通信手段と、
前記音声データ記憶手段によって記憶された音声データを前記通信手段によって前記通信装置に配信する配信手段とを備え、
前記評価データ取得手段は、前記通信手段を用いて前記通信装置から前記評価データを取得する
ことを特徴とする請求項1記載の評価基準判定装置。
【請求項3】
前記評価データ取得手段は、前記評価データとともに、前記聴取者の属性を示す属性データを取得し、
前記評価データ記憶手段は、前記特徴データ及び前記評価データに対応付けて、前記属性データを記憶し、
前記分析手段は、前記属性データが表す聴取者の属性を基準としたグループ単位で前記特徴データが表す特徴と前記評価データが表す評価との関係を求め、
前記出力手段は、前記分析手段によって求められた結果を前記グループ単位で出力する
ことを特徴とする請求項1記載の評価基準判定装置。
【請求項4】
前記聴取者による歌唱音声又は演奏音に対する評価能力を判定する判定手段を備え、
前記分析手段は、前記判定手段によって判定された評価能力に応じて前記評価データに重み付けを行って、当該評価データが表す評価の高低を判断する
ことを特徴とする請求項1記載の評価基準判定装置。
【請求項5】
前記特徴データは、前記歌唱音声又は演奏音のピッチ、タイミング、スペクトル、パワー、及び、歌唱又は演奏に用いられる技法のうち、少なくともいずれか一つを示すデータであることを特徴とする請求項1に記載の評価基準判定装置。
【請求項6】
前記特徴データは、予め模範として決められた模範音声又は模範演奏音の特徴と、前記歌唱音声又は演奏音の特徴との差分によって表わされていることを特徴とする請求項1に記載の評価基準判定装置。
【請求項7】
記憶手段と制御手段とを備えた評価基準判定装置の制御方法であって、
前記制御手段が、歌唱音声又は演奏音の特徴を表す特徴データと、当該歌唱音声又は当該演奏音に対する聴取者の評価を表す評価データとを取得する第1のステップと、
前記制御手段が、前記第1のステップにおいて取得された特徴データ及び評価データを互いに対応付けて前記記憶手段に記憶させる第2のステップと、
前記制御手段が、高い評価を表す前記評価データに対応付けられて前記記憶手段に記憶されている複数の特徴データ、又は、低い評価を表す前記評価データに対応付けられて前記記憶手段に記憶されている複数の特徴データのうち少なくともいずれか一方によって表される特徴を分析し、その特徴と前記評価データが表す評価との関係を求める第3のステップと、
前記制御手段が、前記第3のステップにおいて求められた結果を出力する第4のステップと
を備えることを特徴とする制御方法。
【請求項8】
コンピュータに、
歌唱音声又は演奏音の特徴を表す特徴データを取得する特徴データ取得機能と、
前記歌唱音声又は前記演奏音に対する聴取者の評価を表す評価データを取得する評価データ取得機能と、
前記特徴データ取得機能によって取得された歌唱音声又は演奏音の特徴データと、前記評価データ取得機能によって取得された当該歌唱音声又は当該演奏音に対する前記評価データとを対応付けて記憶手段に記憶させる評価データ記憶機能と、
高い評価を表す前記評価データに対応付けられて前記記憶手段に記憶されている複数の特徴データ、又は、低い評価を表す前記評価データに対応付けられて前記記憶手段に記憶されている複数の特徴データのうち少なくともいずれか一方によって表される特徴を分析し、その特徴と前記評価データが表す評価との関係を求める分析機能と、
前記分析機能によって求められた結果を出力する抽出機能と
を実現させるプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate