説明

評価装置

【課題】歌唱評価を行う評価装置において、曲中のいろいろな部分に対しその部分に適した視点で評価することのできる技術を提供する。
【解決手段】カラオケ装置1のCPU11は、模範音声データ記憶領域142に記憶された区切りデータを参照して区間を認識しながら模範音声データを読み出し、読み出した模範音声データの各区間に対して、マイクロフォン17で収音した練習者の音声を表す練習者音声データを対応付ける。次いで、制御部11は、区間種別データ記憶領域149に記憶された区間種別データに対応する評価態様を区間毎に選択し、選択した評価態様に基づいて、対応付けられた模範音声データと練習者音声データを比較し、比較結果に応じて練習者音声データを評価する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、評価装置に関する。
【背景技術】
【0002】
カラオケ装置においては、歌唱者の歌唱の巧拙を採点するための方法が種々提案されている。例えば、特許文献1においては、歌唱とそのお手本となるリファレンスを比較するにあたって、歌唱のタイミングとリファレンスのタイミングがずれている場合には、歌唱音声データとリファレンスデータを時間軸方向にずらして相互相関を求め、相互相関の最も高い位置で各音符について採点する方法が提案されている。この方法によれば、歌唱者が「ため」や「ルバート」の歌唱技法を用いて歌唱した場合でも、歌唱タイミングをリファレンスのタイミングに合わせて比較して採点することができる。
【特許文献1】特開2005−107330号公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
しかしながら、従来の技術では、歌唱者の歌唱の巧拙を採点することができるものの、曲によって、又は曲中の部分によって、違った視点で評価したい場合(例えば、ある部分はピッチ重視、ある部分はリズム重視、など)に対応できない。この問題は、歌唱を練習する場合に限らず、模範演奏を真似て楽器の演奏を練習する場合であっても同様に発生する。
【0004】
本発明は上述した背景に鑑みてなされたものであり、その目的は、いろいろな曲、あるいは曲中のいろいろな部分に対しその部分に適した視点で評価することのできる技術を提供することである。
【課題を解決するための手段】
【0005】
本発明の好適な態様である評価装置は、時系列に沿って進行する音に対応する第1の音データ、前記時系列の区間の区切りを示す区切りデータ、および前記各区間の種別を表す区間種別データを記憶する記憶手段と、前記記憶手段内の前記区切りデータを参照して区間を認識しながら前記第1の音データを読み出し、読み出した前記第1の音データの各区間に対して、収音手段から供給される第2の音データを対応付ける対応付け手段と、区間の種別毎に評価態様が予め設定され、前記記憶手段に記憶された区間種別データに対応する評価態様を区間毎に選択し、選択した評価態様に基づいて、前記対応付け手段によって対応付けられた第1の音データと第2の音データを比較し、比較結果に応じて該第2の音データを評価する評価手段と、前記評価手段による評価結果を表す情報を出力する出力手段とを備える。
【0006】
また、本発明の好適な態様である評価装置は、時系列に沿って進行する音に対応する第1の音データを記憶するとともに、音の属性に関する所定項目毎の評価の態様を表す評価態様データを記憶する記憶手段と、前記記憶手段に記憶された第1の音データと収音手段から供給される第2の音データの対応する時間部分の属性を前記項目毎に解析するとともに、解析結果に対し前記記憶手段に記憶された前記項目毎の評価態様データに基づく比較をし、比較結果に基づいて該第2の音データを評価する評価手段と、前記評価手段による評価結果を表す情報を出力する出力手段とを備える。
【0007】
この態様において、前記記憶手段は、前記第1の音データに代えて、時系列に沿って進行する音に対応する音の属性を示すパラメータを属性の項目毎に記憶し、前記評価手段は、前記収音手段から供給される第2の音データの属性を前記項目毎に解析するとともに、解析結果と前記記憶手段に記憶されたパラメータとに対し前記記憶手段に記憶された前記項目毎の評価態様データに基づく比較をし、比較結果に応じて該第2の音データを評価してもよい。
【0008】
また、本発明の好適な態様である評価装置は、時系列に沿って進行する音に対応する第1の音データ、前記時系列の区間の区切りを示す区切りデータ、前記各区間の種別を表す区間種別データ、および音の属性に関する所定項目毎および前記区間毎の評価の態様を表す評価態様データを記憶する記憶手段と、前記記憶手段内の前記区切りデータを参照して区間を認識しながら前記第1の音データを読み出し、読み出した前記第1の音データの各区間に対して、収音手段から供給される第2の音データを対応付ける対応付け手段と、前記対応付け手段によって対応付けられた第1の音データと第2の音データとの対応する時間部分の属性を前記項目毎及び前記区間毎に解析し、解析結果に対し前記記憶手段に記憶された前記項目毎及び前記区間毎の評価態様データに基づく比較をし、比較結果に基づいて該第2の音データを評価する評価手段と、前記評価手段による評価結果を表す情報を出力する出力手段とを備える。
【0009】
上述の態様において、前記項目は、音のピッチ、タイミング、強さ、歌詞及び技法の少なくともいずれかひとつを示してもよい。
上述の態様において、前記第1の音データは、発音タイミングが時系列に連なる複数の音素を表すデータであり、前記第1の音データと前記第2の音データとを所定時間長のフレーム単位で対応付け、対応付けたフレームを表す対応箇所データを生成する対応箇所検出手段を備え、前記評価手段は、前記第2の音データが表す音素の発音タイミングを、前記第1の音データが表す音素の発音タイミングと前記対応箇所データとに基づいて特定し、該第1の音データが表す音素の発音タイミングと該第2の音データが表す音素の発音タイミングとの差分が閾値を超えるか否かを判断し、該判断結果に応じて該第2の音データを評価してもよい。
【0010】
上述の態様において、前記第1の音データの表す音において特定の技法が用いられている区間を示す第1の技法データを記憶する第1の技法データ記憶手段と、前記第2の音データの表す音のピッチ、スペクトル及びパワーの少なくともいずれか一つを検出し、検出結果を示す分析データを生成する検出手段と、前記検出手段により生成された分析データの表す内容の時間的な変化のパターンを解析して、この解析結果が予め定められたパターンに対応するか否かを判定し、対応する場合には当該パターンに対応する区間を特定の技法が用いられている区間として特定する技法区間特定手段と、前記技法区間特定手段により特定された区間を示す第2の技法データを生成する第2の技法データ生成手段とを備え、前記評価手段は、前記第2の技法データ生成手段により生成された第2の技法データと前記第1の技法データ記憶手段に記憶された第1の技法データとを比較し、該比較結果に応じて該第2の音データを評価してもよい。
上述の態様において、前記出力手段は、前記評価手段による評価結果を報知してもよい。
【発明の効果】
【0011】
本発明によれば、曲中のいろいろな部分に対しその部分に適した視点で評価することができる。
【発明を実施するための最良の形態】
【0012】
次に、本発明を実施するための最良の形態を説明する。
<A:第1実施形態>
<A−1:構成>
図1は、この発明の一実施形態に係る評価装置としてのカラオケ装置1のハードウェア構成を例示したブロック図である。CPU(Central Processing Unit)11は、ROM(Read Only Memory)12又は記憶部14に記憶されているコンピュータプログラムを読み出してRAM(Random Access Memory)13にロードし、これを実行することにより、カラオケ装置1の各部を制御する。記憶部14は、例えばハードディスクなどの大容量の記憶手段である。表示部15は、例えば液晶ディスプレイなどであり、CPU11の制御の下で、カラオケ装置1を操作するためのメニュー画面や、背景画像に歌詞テロップを重ねたカラオケ画面などの各種画面を表示する。操作部16は、各種のキーを備えており、押下されたキーに対応した信号をCPU11へ出力する。マイクロフォン17は、歌唱者が発音した音声を収音する収音手段である。音声処理部18は、マイクロフォン17によって収音された音声(アナログデータ)をデジタルデータに変換してCPU11に供給する。スピーカ19は、音声処理部18に接続されており、音声処理部18から出力される音声を放音する。
【0013】
記憶部14は、図示のように、伴奏データ記憶領域141と、模範音声データ記憶領域142と、歌詞データ記憶領域143と、練習者音声データ記憶領域144と、背景画データ記憶領域145と、コメントテーブル記憶領域146と、模範技法データ記憶領域147と、練習者技法データ記憶領域148と、区間種別データ記憶領域149とを有している。伴奏データ記憶領域141には、例えばMIDI(Musical Instruments Digital Interface)形式などの伴奏データであって、各曲の伴奏を行う各種楽器の音階(ピッチ)を示す情報が楽曲の進行に伴って記された伴奏データが記憶されている。この伴奏データの中には、楽曲のメロディの音階を示すメロディデータが含まれている。歌詞データ記憶領域143には、模範音声データと対応する歌詞を示す歌詞データが記憶されている。また、背景画データ記憶領域145には、伴奏データと対応する動画像を示す背景画データが記憶されている。
【0014】
模範音声データ記憶領域142には、例えばWAVE形式やMP3(MPEG1 Audio Layer-3)形式などの音声データであって、伴奏データによって表される伴奏に沿って歌唱者が発音した音声(以下、模範音声という)を表す音声データ(以下、模範音声データ)が記憶されている。この模範音声データは、時系列に沿って進行する音に対応するデータである。また、この模範音声データ記憶領域142には、模範音声データに対する時系列の時間の区切りを示す区切りデータが記憶されている。
【0015】
ここで、図2は、模範音声データと歌詞データとの対応関係を説明する図である。図示のように、歌詞データは、歌詞を構成するそれぞれの語(音素)と、これらの音素を発音すべき時間を表す発音タイミングとを含んでいる。そして、模範音声データと、歌詞を構成するそれぞれの語(音素)と、これらの各音素の発音タイミングとが互いに対応付けられている。図2に示す例では、「すぎさりしひびのゆめを・・」の「す」は発音タイミングT1で発音を開始し、「ぎ」は発音タイミングT2で発音を開始し、「さ」は発音タイミングT3で発音を開始し・・・(以下同様)ということを示している。この発音タイミングは、伴奏データに基づく伴奏が開始された時点からの経過時間によって表されている。
【0016】
再び図1の説明に戻る。
練習者音声データ記憶領域144には、マイクロフォン17から音声処理部18を経てA/D変換された音声データが、例えばWAVE形式やMP3形式で時系列に記憶される。この音声データは、練習者の音声(以下、練習者音声)を表す音声データであるから、以下では、練習者音声データという。CPU11は、この練習者音声データと前述した模範音声データとを比較することで、発音タイミングや発音内容の相違箇所を検出し、その相違箇所を表示部15に表示するなどして練習者に報知する。練習者は、その報知内容を参照することで、自身の発音タイミングがずれている箇所や発音が間違っている箇所を認識することができる。なお、以下の説明においては、説明の便宜上、「模範音声データ」と「練習者音声データ」とを各々区別する必要がない場合には、これらを「音声データ」と総称する。
【0017】
次に、記憶部14のコメントテーブル記憶領域146には、歌唱に対する指摘コメント文と歌唱に対する指導コメント文とをそれぞれ複数記憶するコメントテーブルが記憶されている。
図3は、コメントテーブルの内容の一例を示す図である。図示のように、コメントテーブルは、「指摘種別」と「指摘コメント」と「指導コメント」との各項目が互いに関連付けて記憶されている。これらの項目のうち、「指摘種別」の項目には、「歌詞ずれ(早い)」や「歌詞間違い」といった、模範音声と練習者音声との隔たりの態様を識別する情報が記憶されている。「指摘コメント」の項目には、例えば、「歌詞ずれです・・・」や「歌詞間違いです・・・」等、歌唱に対する指摘コメント文を示すテキストデータが記憶されている。「指導コメント」の項目には、例えば、「注意して歌いましょう」といった、歌唱に対する指導コメント文を示すテキストデータが記憶されている。
【0018】
模範技法データ記憶領域147には、模範音声データ記憶領域142に記憶された模範音声の表す模範となる歌唱に用いられている歌唱技法の種類、区間及び態様を示す模範技法データが、楽曲IDに対応付けて記憶されている。
図4は、模範技法データ記憶領域147に記憶されている模範技法データの内容の一例を示す図である。模範技法データは、図示のように、「技法種別」と「区間」と「態様」との各項目が互いに関連付けて記憶されている。これらの項目のうち、「技法種別」の項目には、例えば「ビブラート」、「しゃくり」、「こぶし」、「ファルセット」、「つっこみ」、「ため」、「息継ぎ」などの歌唱の技法を識別する識別情報が記憶される。「ビブラート」は、音の高さをほんのわずかに連続的に上下させ、震えるような音色を出すという技法である。「しゃくり」は、目的の音より低い音から発音し、音程を滑らかに目的の音に近づけていくという技法である。「こぶし」は、装飾的に加えるうねるような節回しを行うという技法である。「ファルセット」は、いわゆる「裏声」で歌うという技法である。「つっこみ」は、歌い出しを本来のタイミングよりも早いタイミングにするという技法である。「ため」は、歌い出しを本来のタイミングよりも遅いタイミングにするという技法である。「息継ぎ」は、練習者が息継ぎをするタイミングを意味する。
【0019】
次に、「区間」の項目には、その技法が用いられている区間(時間部分)を示す情報が記憶される。「態様」の項目には、その技法の態様を示す情報が記憶される。図4に示す例においては、技法の程度を10段階で示す数値が記憶されている。例えば、「ビブラート」の場合には、ビブラートの「深さ」、「周期」、「長さ」の程度を10段階で示す数値が記憶される。
【0020】
図5(a)は、ビブラート技法についての技法の態様を説明するための図である。図において、曲線W1は、音声のピッチを表す曲線であり、縦軸はピッチ(音高)を、横軸は時刻を示している。この実施形態においては、曲線W1においてビブラート技法が用いられている区間における振幅yが「深さ」を示し、周期λが「周期」を示す。また、ビブラート技法が用いられている区間の区間長L1が「長さ」を示す。
【0021】
また、「しゃくり」の場合は、しゃくりの「ピッチ幅」や「長さ」の程度を10段階で示す数値が記憶される。
図5(b)は、しゃくり技法についての技法の態様を説明するための図である。図において、曲線W2はしゃくりが用いられている音声のピッチを表す曲線であり、縦軸はピッチ(音高)を、横軸は時刻を示している。この実施形態においては、曲線W2においてしゃくり技法が用いられている区間における区間の開始時刻におけるピッチと終了時刻におけるピッチとの差p1が「ピッチ幅」として用いられ、その時間長L2が「長さ」として用いられる。
【0022】
「つっこみ」、「ため」の場合は、「タイミング」を10段階で示す値が記憶され、「ファルセット」、「息継ぎ」、「こぶし」は、それぞれの技法が用いられた時間の長さが10段階の数値で示されている。例えば、図4に示す例においては、「t1〜t2」の区間で、「ビブラート」の技法が、「深さ」が「3」、「長さ」が「4」の程度で用いられた場合のデータが記憶されている。
なお、本実施形態においては、技法の態様を10段階の数値で表すようにしたが、これに限定されるものではなく、技法の態様を示す情報であればどのような情報を用いてもよい。
【0023】
また、練習者技法データ記憶領域148には、練習者音声データで用いられている歌唱技法を示すデータ(以下、「練習者技法データ」)が記憶される。この練習者技法データの構成は、上述した模範技法データの構成と同様であり、「技法種別」と「区間」と「態様」との各項目が互いに関連付けられて構成されている。
【0024】
次に、区間種別データ記憶領域149には、各楽曲に含まれる各区間の種別を表す区間種別データが記憶されている。
図6は、区間種別データ記憶領域149に記憶されたデータの内容の一例を示す図である。図示のように、この記憶領域には、「楽曲ID」と「ジャンル種別」と「区間種別データ」と「区切りデータ」と「区間毎評価態様データ」との各項目が互いに関連付けて記憶されている。これらの項目のうち、「楽曲ID」の項目には、楽曲を識別する識別情報が記憶されている。「ジャンル種別」の項目には、たとえば「ラップ」など、その楽曲のジャンルを識別する識別情報が記憶される。「区間種別データ」の項目には、その楽曲においてサビの区間を示す「サビ区間」や、その楽曲においてセリフの区間を示す「セリフ区間」といった、区間の種別を示す区間種別データが記憶される。「区切りデータ」の項目には、時系列の区間の区切りを示す区切りデータが記憶される。「区間毎評価態様データ」の項目には、例えば、「歌詞のみ評価」、「ピッチは評価しない」といったような、その区間についての評価の態様を表すデータが記憶されている。このように、この実施形態においては、区間の種別毎に評価態様が予め設定されており、CPU11は、区間種別データに対応する評価態様を区間毎に選択し、選択した評価態様に基づいて練習者音声データを評価する。
【0025】
次に、図7に示すブロック図を参照しながら、カラオケ装置1のソフトウェア構成について説明する。図7に示した基礎分析部111、対応箇所検出部112、発音内容比較部113、発音タイミング比較部114、報知部115、技法分析部116及び技法比較部117は、CPU11がROM12又は記憶部14に記憶されたコンピュータプログラムを実行することによって実現される。なお、図中の矢印は、データの流れを概略的に示したものである。
図7において、基礎分析部111は、模範音声データ記憶領域142に記憶された区切りデータを参照して区間を認識しながら模範音声データを読み出し、読み出した模範音声データの各区間に対して、練習者音声データ記憶領域144に記憶された練習者音声データを対応付ける。この対応付けは、練習者音声データを単純に時間区間毎に区切っていくという、単なる時間的な対応付けを行うものである。更に、基礎分析部111は、模範音声データ記憶領域142から読み出された模範音声データと、練習者音声データ記憶領域144から読み出された練習者音声データとを、それぞれ所定時間長のフレーム単位で、ピッチ、パワー(音量)、スペクトルを検出する処理を行う。スペクトルの検出にはFFT(Fast Fourier Transform)が用いられる。
【0026】
対応箇所検出部112は、基礎分析部111によって算出された各音声データのスペクトルに基づいて、模範音声データに含まれる音素(語)と練習者音声データに含まれる音素(語)との対応関係(対応箇所)を求める。これら練習者音声及び模範音声の対応箇所は、対応箇所検出部112から発音内容比較部113及び発音タイミング比較部114に供給される。
【0027】
ところで、模範音声と練習者音声とは、時間的にずれている可能性がある。そこで、対応箇所検出部112は、両者の音声データの時間軸を伸縮させて時間正規化(DTW;Dynamic Time Warping)を行う必要がある。本実施形態ではこのDTWを行うための手法としてDP(Dynamic Programming:動的計画法)マッチングを用いる。具体的には以下のような処理となる。
【0028】
対応箇所検出部112は、図8に示すような座標平面(以下、DPプレーンという)をRAM13に形成する。このDPプレーンの縦軸は、模範音声データの各フレームのスペクトルの絶対値の対数に逆フーリエ変換をかけて得られるパラメータに対応しており、横軸は、練習者音声データの各フレームから得たスペクトルの絶対値の対数に逆フーリエ変換をかけて得られるパラメータ(ケプストラム)に対応している。図8において、a1、a2、a3・・・anは、模範音声データの各フレームを時間軸に従って並べたものであり、b1、b2、b3・・・bnは、練習者音声データの各フレームを時間軸に従って並べたものである。縦軸のa1、a2、a3・・・anの間隔と横軸のb1、b2、b3・・・bnの間隔は、いずれもフレームの時間長と対応している。このDPプレーンにおける各格子点の各々には、a1、a2、a3・・・の各パラメータと、b1、b2、b3・・・の各パラメータのユークリッド距離を夫々示す値であるDPマッチングスコアが対応付けられている。例えば、a1とb1とにより位置決めされる格子点には、模範音声データの一連のフレームのうち最初のフレームから得たパラメータと練習者音声データの一連のフレームのうち最初のフレームから得たパラメータのユークリッド距離を示す値が対応付けられることになる。対応箇所検出部112は、このような構造を成すDPプレーンを形成した後、a1とb1とにより位置決めされる格子点(始端)からanとbnとにより位置決めされる格子点(終端)に至る全経路を探索し、探索した各経路毎に、その始端から終端までの間に辿る各格子点のDPマッチングスコアを累算して行き、最小の累算値を求める。このDPマッチングスコアの累算値が最も小さくなる経路は、練習者音声データの各フレームの時間軸を模範音声データの時間軸に合わせて伸縮する際における伸縮の尺度として参酌される。
【0029】
そして、対応箇所検出部112は、DPマッチングスコアの累算値が最小となる経路をDPプレーン上から特定し、特定した経路の内容に応じて練習者音声データの時間軸を伸縮する処理であるアライメント処理を行う。具体的には、DPプレーン上から特定された経路上の各格子点のDPマッチングスコアが時間軸上の位置を同じくするフレームから得たパラメータのユークリッド距離を表すものとなるように、練習者音声データの各フレームのタイムスタンプの内容を書き換えた上で、時間軸上の位置を同じくする各フレームを組として順次対応付けていく。例えば、図8に示すDPプレーン上に記された経路においては、a1とb1により位置決めされる始点からその右上のa2とb2により位置決めされる格子点に進んでいることが分かる。この場合、a2とb2のフレームの時間軸上の位置は当初から同じであるので、b2のフレームのタイムスタンプの内容を書き換える必要はない。更に、この経路においては、a2とb2により位置決めされる格子点からその右のa2とb3により位置決めされる格子点に進んでいることが分かる。この場合、b2のフレームだけでなくb3のフレームもa2のフレームと時間軸上の位置を同じくする必要があるので、b3のフレームと対を成していたタイムスタンプをフレーム一つ分だけ早いものと置き換える。この結果、a2のフレームとb2及びb3のフレームが時間軸上の位置を同じくするフレームの組として対応付けられることになる。このようなタイムスタンプの置き換えとフレームの対応付けがb1からbnに至る全フレーム区間について行われる。これにより、例えば図9(a)に示すように、練習者音声の発音タイミングが模範音声の発音タイミングよりも遅れていたとしても、図9(b)に示すように、一方の音データの時間軸を他方の音データの時間軸に合わせて伸縮し、その伸縮によって合わせられた時間軸上の位置を同じくするフレーム(音素)どうしを対応付けることができる。
以上がDPマッチングの仕組みである。
【0030】
図7の説明に戻る。
発音内容比較部113は、互いに対応する模範音声の発音内容と練習者音声の発音内容とを比較し、これら音声そのものの相違箇所を検出する処理を行う。具体的にはまず、発音内容比較部113は、練習者音声データが表す音声と、その音声に対応付けられた模範音声データが表す音声とを比較し、両者のスペクトルの差分を算出する。異なる人が同じ語を発音した場合、多少の個人差はあるものの、その音声波形はおおよそ類似したものとなる。よって、スペクトルが類似しているか否かによって、模範音声と練習者音声とが相違しているか否かを判断することができる。更に正確な方法としては、基礎分析部111で求めた音声データのスペクトルに対してフォルマント分析を行うことによって、模範音声と練習者音声の相違箇所を検出する方法がある。このフォルマントとは、特定周波数に偏ったスペクトルの山の部分のことであり、例え声質が異なっていても、同じ語を発音するとその語(音声)に固有のフォルマントが出現する。よって、このフォルマントの出現状態を解析すれば発音の内容を識別することができる。発音内容比較部113は、このように模範音声と練習者音声との間で、そのスペクトルやフォルマントの差分をとり、その差分が閾値を超える場合には、模範音声の発音内容と練習者音声の発音内容の相違箇所と判断する。なお、このとき用いる閾値としては、人が同じ語を発音したものと認められる程度の差分の上限値を予め決めておき、これを閾値として記憶部14に記憶させておけばよい。 また、このとき、発音内容比較部113は、区間種別データ記憶領域149に記憶された区間種別データに対応する区間毎評価態様データを読み出すことによって、区間種別データに対応する評価態様を各区間毎に選択し、選択した評価態様に基づいて比較を行う。具体的には、例えば、発音内容比較部113は、「サビ区間」においては、比較処理の際に用いる閾値の値を小さくして、両者の差分が小さい箇所についても相違箇所として検出し、一方、ある区間では、比較処理や相違箇所の検出処理を行わず、両者が大きくずれている場合であっても相違箇所を検出しない。このようにすることで、「サビ区間」においては厳しく評価を行う一方、それ以外の区間では低い水準で評価を行うといったように、それぞれの区間に適した評価を行うことができる。
【0031】
発音タイミング比較部114は、互いに対応する模範音声の発音タイミングと練習者音声の発音タイミングとを比較して、両者の相違箇所を検出する処理を行う。また、発音タイミング比較部114は、区間種別データ記憶領域149に記憶された区間種別データに対応する区間毎評価態様データを読み出すことによって、区間種別データに対応する評価態様を各区間毎に選択し、選択した評価態様に基づいて、基礎分析部111によって対応付けられた模範音声データと練習者音声データとの発音タイミングを比較し、比較結果に応じて練習者音声データを評価する。具体的には、例えば、発音タイミング比較部114は、「サビ区間」においては、比較処理の際に用いる閾値の値を小さくして、両者の差分が小さい箇所についても相違箇所として検出し、一方、ある区間では、比較処理や相違箇所の検出処理を行わず、両者が大きくずれている場合であっても相違箇所を検出しない。このようにすることで、「サビ区間」においては厳しく評価を行う一方、それ以外の区間では低い水準で評価を行うといったように、それぞれの区間に適した評価を行うことができる。
【0032】
技法分析部116は、基礎分析部111によって検出されたピッチ、パワーおよびスペクトルの時間的な変化のパターンを解析して、この解析結果が予め定められたパターンに対応するか否かを判定し、対応する場合には当該パターンに対応する区間を特定の歌唱技法が用いられている区間として特定し、特定した区間を示す技法データ(模範技法データまたは練習者技法データ)を生成する処理を行う。
【0033】
技法比較部117は、模範技法データと練習者技法データとのタイミングを比較して、それらが所定量以上隔たっていた場合に、予め決められた評価区間毎に相違箇所として特定する処理を行う。また、技法比較部117は、区間種別データ記憶領域149に記憶された区間種別データに対応する区間毎評価態様データを読み出すことによって、区間種別データに対応する評価態様を各区間毎に選択し、選択した評価態様に基づいて、基礎分析部111によって対応付けられた模範音声データと練習者音声データと各々で用いられている技法を比較し、比較結果に応じて練習者音声データを評価する。具体的には、例えば、技法比較部117は、「サビ区間」においては、比較処理の際に用いる閾値の値を小さくして、両者の差分が小さい箇所についても相違箇所として検出し、一方、ある区間では、比較処理や相違箇所の検出処理を行わず、両者が大きくずれている場合であっても相違箇所を検出しない。このようにすることで、「サビ区間」においては厳しく評価を行う一方、それ以外の区間では低い水準で評価を行うといったように、それぞれの区間に適した評価を行うことができる。
【0034】
報知部115は、発音内容比較部113、発音タイミング比較部114及び技法比較部117によって検出された相違箇所を特定する情報や各種メッセージなど、評価結果を示す情報を生成し、これらを表示部15に出力して表示部15に表示させるなどして、練習者に報知する。
【0035】
<A−2:動作>
次に、図10に示すフローチャートを参照しつつ、カラオケ装置1の動作を説明する。
練習者は、カラオケ装置1の操作部16を操作して歌唱したい曲を選定し、伴奏データの再生を指示する。CPU11は、この指示に応じて図10に示す処理を開始する。CPU11は、まず、指定された曲の伴奏データを伴奏データ記憶領域141から読み出し、音声処理部18に供給する。音声処理部18は、供給された伴奏データをアナログ音声信号に変換してスピーカ19に供給して放音させる(ステップS1)。このとき、CPU11は表示部15を制御して、歌詞データ記憶領域143から読み出した歌詞を表示するとともに、「伴奏に合わせて歌唱してください」というような歌唱を促すメッセージを表示し、さらに、その歌詞を伴奏の進行に合わせて順番に色変わりさせるようにしてもよい。練習者は、スピーカ19から放音される伴奏に合わせて歌唱を行う。このとき、練習者の音声はマイクロフォン17によって収音されて音声信号に変換され、音声処理部18へと供給される。そして、音声処理部18によってA/D変換された練習者音声データは、演奏開始から発音タイミングまでの経過時間を表す情報と共に、記憶部14の練習者音声データ記憶領域144に時系列に記憶されていく(ステップS2)。
【0036】
伴奏データの再生が終了すると(ステップS3;YES)、CPU11は、前述した基礎分析部111の処理、即ち模範音声データ記憶領域142に記憶された区切りデータを参照して区間を認識しながら模範音声データを読み出し、読み出した模範音声データの各区間に対して、練習者音声データ記憶領域144に記憶された練習者音声データを対応付けるとともに、模範音声データ記憶領域142から読み出した模範音声データと、練習者音声データ記憶領域144から読み出した練習者音声データとから、それぞれ所定時間長のフレーム単位で、ピッチ、パワー及びスペクトルを算出する(ステップS4)。次に、CPU11は、前述した対応箇所検出部112の処理、つまりDPマッチングによって両者の音声データの時間軸を合わせ、合わせられた時間軸上の位置を同じくするフレームどうしを対応付け、対応付けたフレームを表す対応箇所データを生成する(ステップS5)。
【0037】
続けて、CPU11は、前述した発音タイミング比較部114の処理、つまり、互いに対応する模範音声の発音タイミングと練習者音声の発音タイミングとを比較し、発音タイミングが相違する箇所を検出する処理を行う(ステップS6)。具体的には、CPU11は、練習者音声データと、ステップS5の処理によって得られた対応箇所データとに基づいて、練習者音声の発音タイミングを特定する。そのため、CPU11はまず、図9(b)に示すように同一の時間軸における模範音声と練習者音声の対応関係を参照して両者の対応箇所を特定する。両者の対応関係が特定されると、CPU11は、図9(a)に示すような練習者音声の時間軸上において、ある音素(例えば「す」)とその次に発音された音素(例えば「ぎ」)との境界(切れ目)を特定することができる。練習者音声データは、前述したように、演奏開始から発音タイミングまでの経過時間を表す情報と共に記憶されているから、CPU11は、音と音の境界に相当する経過時間を特定することができる。この経過時間が、練習者音声に含まれる各音の発音タイミングとなる。
【0038】
次に、CPU11は、その練習者音声に対応付けられた模範音声データの音の発音タイミングを歌詞データ記憶領域143から読み出す。次いで、CPU11は、練習者音声の発音タイミングと、その練習者音声に対応する模範音声の発音タイミングとの差分を算出する。そして、CPU11は、その差分が予め決められた閾値を超えるか否かを判断する。このときの閾値は、発音のタイミングがずれていると判断される最小の時間間隔であり、記憶部14に予め記憶されている。この差分が閾値を超えると判断された箇所の音声(音素)が、模範音声の発音タイミングと練習者音声の発音タイミングとの相違箇所となる。
【0039】
このとき、CPU11は、区間種別データ記憶領域149に記憶された区間種別データに対応する区間毎評価態様データを読み出すことによって、区間種別データに対応する評価態様を各区間毎に選択し、選択した評価態様に基づいて、模範音声データと練習者音声データとの発音タイミングを比較する。具体的には、例えば、CPU11は、「サビ区間」においては上述の比較処理の際に用いる閾値の値を小さくすることで厳しい評価を行い、一方、サビの区間以外の区間においては閾値の値を大きくすることで甘い評価を行う。このように、区間毎に異なる態様で比較や評価を行うことで、区間毎に重み付けした評価を行うことができる。
【0040】
次に、CPU11は、前述した発音内容比較部113の処理、つまり、互いに対応する模範音声と練習者音声とを比較し、これら音声そのものの相違箇所を検出する処理を行う(ステップS7)。具体的にはまず、CPU11は、練習者音声データが表す音声と、その音声に対応付けられた模範音声データが表す音声とを比較し、両者のスペクトルの差分を算出する。異なる人が同じ語を発音した場合、多少の個人差はあるものの、その音声波形はおおよそ類似したものとなる。よって、スペクトルが類似しているか否かによって、模範音声と練習者音声とが相違しているか否かを判断することができる。更に正確な方法としては、ステップS4で求めた音声データのスペクトルに対してフォルマント分析を行うことによって、模範音声と練習者音声の相違箇所を検出する方法がある。このフォルマントとは、特定周波数に偏ったスペクトルの山の部分のことであり、例えば声質が異なっていても、同じ語を発音するとその語(音声)に固有のフォルマントが出現する。よって、このフォルマントの出現状態を解析すれば発音の内容を識別することができる。CPU11は、このように模範音声と練習者音声との間で、そのスペクトルやフォルマントの差分をとり、その差分が閾値を超える場合には、模範音声の発音内容と練習者音声の発音内容の相違箇所と判断する。なお、このとき用いる閾値としては、人が同じ語を発音したものと認められる程度の差分の上限値を予め決めておき、これを閾値として記憶部14に記憶させておけばよい。
【0041】
このとき、CPU11は、区間種別データ記憶領域149に記憶された区間種別データに対応する区間毎評価態様データを読み出すことによって、区間種別データに対応する評価態様を各区間毎に選択し、選択した評価態様に基づいて、模範音声データと練習者音声データとの発音内容を区間毎に比較する。具体的には、例えば、CPU11は、「サビ区間」においては上述の比較処理の際に用いる閾値の値を小さくすることで厳しい評価を行い、一方、サビの区間以外の区間においては閾値の値を大きくすることで甘い評価を行う。このように、区間毎に異なる態様で評価を行うことで、区間毎に重み付けした評価を行うことができる。
【0042】
次いで、CPU11は、伴奏データ記憶領域141に記憶された伴奏データに含まれるメロディデータと模範音声データ記憶領域142に記憶された模範音声データとを所定のフレーム単位で解析し、模範音声データとメロディデータとの時間的な対応関係を検出する(ステップS8)。次に、CPU11は、模範音声データから算出されたピッチ、パワーおよびスペクトルの時間的な変化のパターンを解析して、この解析結果が予め定められたパターンに対応するか否かを判定する技法分析を行い、対応する場合には当該パターンに対応する区間を特定の歌唱技法が用いられている区間として特定する(ステップS9)。そして、CPU11は、特定した区間の区間情報を、その歌唱技法を示す種別情報と関連付けて記憶部14の模範技法データ記憶領域147に記憶する。
【0043】
ここで、ステップS9に示す技法分析処理について以下に説明する。本実施形態においては、CPU11は、「ビブラート」、「しゃくり」、「こぶし」、「ファルセット」、「つっこみ」、「ため」および「息継ぎ」の各歌唱技法が用いられている区間を特定する。これらのうち、「ビブラート」および「しゃくり」は模範音声データから算出されたピッチに基づいて特定する。また、「こぶし」および「ファルセット」は模範音声データから算出されたスペクトルに基づいて特定する。また、「ため」および「つっこみ」は、模範音声データから算出されたピッチとメロディデータとに基づいて特定する。また、「息継ぎ」は、模範音声データから算出されたパワーとメロディデータとに基づいて特定する。
【0044】
CPU11は、模範音声データとメロディデータとの対応関係と、模範音声データから算出されたピッチとに基づいて、模範音声データに含まれる音の開始時刻と当該音に対応するメロディデータの音の開始時刻とが異なる区間を特定する。ここで、CPU11は、模範音声データのピッチの変化タイミングがメロディデータのピッチの変化タイミングよりも早く現れている区間、すなわち模範音声データに含まれる音の開始時刻が当該音に対応するメロディデータの音の開始時刻よりも早い区間については、この区間を「つっこみ」の歌唱技法が用いられている区間であると特定する。CPU11は、特定した区間の区間情報を、「つっこみ」を示す識別情報と関連付けて模範技法データ記憶領域147に記憶する。また、CPU11は、練習者音声データのピッチの変化タイミングと楽譜音データのピッチの変化タイミングとの時間差を算出し、算出した値を、この技法の態様として10段階の数値で示される値に変換する。
【0045】
逆に、CPU11は、模範音声データとメロディデータとの対応関係と、模範音声データから算出されたピッチとに基づいて、模範音声データのピッチの変化タイミングがメロディデータのピッチの変化タイミングよりも遅れて現れている区間、すなわち模範音声データに含まれる音の開始時刻が当該音に対応するメロディデータの音の開始時刻よりも遅い区間を、「ため」の歌唱技法が用いられている区間であると特定する。また、CPU11は、練習者音声データのピッチの変化タイミングと楽譜音データのピッチの変化タイミングとの時間差を算出し、算出した値を、この技法の態様として10段階の数値で示される値に変換する。
【0046】
また、CPU11は、模範音声データから算出したピッチの時間的な変化のパターンを解析して、中心となる周波数の上下に所定の範囲内でピッチが連続的に変動している区間を、「ビブラート」の歌唱技法が用いられている区間であると特定する。また、CPU11は、特定した区間におけるピッチの変動範囲を算出し、算出した値を、この技法の「深さ」の程度として10段階の数値で示される値に変換する。また、CPU11は、特定した区間の時間長を、この技法の「長さ」の程度として10段階の数値で示される値に変換する。
【0047】
また、CPU11は、模範音声データから算出したピッチの時間的な変化のパターンを解析して、低いピッチから高いピッチに連続的にピッチが変化する区間を、「しゃくり」の歌唱技法が用いられている区間であると特定する。なお、この処理は、メロディデータとの対応関係に基づいて行うようにしてもよい。すなわち、CPU11は、模範音声データとメロディデータとの対応関係に基づいて、模範音声データのピッチが、低いピッチから連続的にメロディデータのピッチに近づいている区間を特定すればよい。また、CPU11は、特定した区間の時間長を、この技法の「長さ」の程度として10段階の数値で示される値に変換する。また、CPU11は、特定した区間のピッチ幅を算出し、算出した値を、この技法の「ピッチ幅」の程度として10段階の数値で示される値に変換する。
【0048】
また、CPU11は、模範音声データとメロディデータとの対応関係と、模範音声データから算出されたパワーとに基づいて、メロディデータが有音である区間であって模範音声データのパワー値が所定の閾値よりも小さい区間を、「息継ぎ」の区間であると特定する。また、CPU11は、特定した区間の時間長を、この技法の「長さ」の程度として10段階の数値で示される値に変換する。
【0049】
また、CPU11は、模範音声データから算出されたスペクトルの時間的な変化パターンを解析して、スペクトル特性がその予め決められた変化状態に急激に遷移している区間を、「ファルセット」の歌唱技法が用いられている区間であると特定する。ここで、予め決められた変化状態とは、スペクトル特性の高調波成分が極端に少なくなる状態である。例えば、図11に示すように、地声の場合は沢山の高調波成分が含まれるが(同図(a)参照)、ファルセットになると高調波成分の大きさが極端に小さくなる(同図(b)参照)。なお、この場合、CPU11は、ピッチが大幅に上方に変化したかどうかも参照してもよい。ファルセットは地声と同一のピッチを発生する場合でも用いられることもあるが、一般には地声では発声できない高音を発声するときに使われる技法だからである。したがって、音声データのピッチが所定音高以上の場合に限って「ファルセット」の特定をするように構成してもよい。また、男声と女声とでは一般にファルセットを用いる音高の領域が異なるので、音声データの音域や、音声データから検出されるフォルマントによって性別検出を行い、この結果を踏まえてファルセット特定の音高領域を設定してもよい。
また、CPU11は、特定した区間の時間長を、この技法の「長さ」の程度として10
段階の数値で示される値に変換する。
【0050】
また、CPU11は、スペクトル特性の変化の態様が短時間に多様に切り替わる区間を、「こぶし」の歌唱技法が用いられている部分であると特定する。「こぶし」の場合は、短い区間において声色や発声方法を変えて唸るような味わいを付加する歌唱技法であるため、この技法が用いられている区間においてはスペクトル特性が多様に変化するからである。
以上のようにして、CPU11は、模範音声データから各歌唱技法が用いられている区間と技法の態様とを特定し、特定した区間を示す区間情報をその歌唱技法を示す種別情報と関連付けて模範技法データ記憶領域147に記憶する。
また、CPU11は、特定した区間の時間長を、この技法の「長さ」の程度として10
段階の数値で示される値に変換する。
【0051】
模範技法データの生成を終えると、CPU11は、伴奏データ記憶領域141に記憶された伴奏データに含まれるメロディデータと練習者音声データ記憶領域144に記憶された練習者音声データとを所定のフレーム単位で解析し、練習者音声データとメロディデータとの時間的な対応関係を検出する(ステップS10)。続けて、CPU11は、練習者音声データから練習者技法データを生成する(ステップS11)。これらのステップS10,S11に示す処理と、上述したステップS8,S9に示した処理が異なる点は、処理対象となる音声データが異なる点である。すなわち、ステップS8,S9では模範音声データに対して処理を行い、ステップS10,S11では練習者音声データに対して処理が行われるものの、その処理内容については同様である。そのため、ステップS10,S11についてはその詳細な説明を省略する。
【0052】
次いで、CPU11は、模範技法データ記憶領域147に記憶された模範技法データと、練習者音声データから生成された練習者技法データとを比較し、練習者技法データが模範技法データに対して予め定められた閾値(所定量)以上の隔たりがある場合は、練習者技法データの該当箇所を相違箇所として検出する(ステップS12)。具体的には、例えば、CPU11は、模範技法データ記憶領域147に記憶された模範技法データをひとつずつ読み出して、読み出した模範技法データと対応する練習者技法データを練習者技法データ記憶領域148から検索し、歌詞の文字単位毎の区間を評価区間として、模範技法データの区間情報と練習者技法データの区間情報とが所定量以上隔たっている評価区間を相違箇所として検出する。
【0053】
このとき、CPU11は、区間種別データ記憶領域149に記憶された区間種別データに対応する区間毎評価態様データを読み出すことによって、区間種別データに対応する評価態様を各区間毎に選択し、選択した評価態様に基づいて、模範音声データと練習者音声データとで用いられている技法を区間毎に比較する。具体的には、例えば、CPU11は、「サビ区間」においては閾値の値を小さくすることで厳しい評価を行い、一方、サビの区間以外の区間においては閾値の値を大きくすることで甘い評価を行う。このように、区間毎に異なる態様で評価を行うことで、区間毎に重み付けした評価を行うことができる。
【0054】
次に、CPU11は、ステップS6,S7,S12における比較によって相違箇所が検出されたか否かを判断する(ステップS13)。相違箇所が検出されない場合には(ステップS13;NO)、CPU11は、「あなたはうまく歌えています」などといったメッセージを表示部15に表示して処理を終了する。一方、相違箇所が検出された場合には(ステップS13;YES)、CPU11は、その相違箇所に相当する練習者音声(音素)又は模範音声(音素)を特定する情報を生成し、それを表示部15に表示させるなどの報知処理を行う(ステップS14)。このとき、CPU11は、相違箇所における練習者音声データの模範音声データに対する隔たりの対応に応じて、コメントテーブル記憶領域146に記憶されたコメントテーブルからコメント文を読み出し、読み出したコメント文を表示部15に表示させることによって報知する。
具体的には、CPU11は、検出した相違箇所に対応する歌詞にアンダーラインを施して表示したり、その歌詞(文字)の色や太さをその他の文字の表示態様と異ならせて表示する。また、CPU11は、例えば発音タイミングがずれている箇所については、発音タイミングがどのようにずれているとか、発音がどのように間違っているかといったメッセージを併せて表示する。
【0055】
ここで、ステップS6,S7,S12の処理によって検出される相違箇所には、図12の(a)〜(d)に示すような4つの態様がある。
まず1つ目の態様は、図12の(a)に示すように、「すぎさりしひびのゆめを・・・」という歌詞のうち「しひびのゆめ」という一連の歌詞が、模範音声よりも早いタイミングで発音されている場合である。CPU11は、このように練習者音声の発音タイミングが所定数以上(ここでは2つの語以上)連続して模範音声の発音タイミングよりもずれている場合には、練習者の歌唱は「歌詞ずれ」であると判断する。この場合、CPU11は、図13(a)に示すように、「すぎさりしひびのゆめを・・・」という歌詞のうち「しひびのゆめ」にアンダーラインを施して表示するとともに、模範音声ないし伴奏よりも早いタイミングで発音される歌詞ずれが発生していることを練習者に報知するためのメッセージを表示する。
【0056】
次に、2つ目の態様は、図12の(b)に示すように、「すぎさりしひびのゆめを・・・」という練習者音声のうち「の」だけが模範音声よりも早いタイミングで発音されている場合である。CPU11は、このように練習者音声の発音タイミングが所定数未満(ここでは2つの語未満)の模範音声の発音タイミングよりもずれている場合には、練習者の歌唱が「タイミングずれ」であると判断する。この場合、CPU11は、図13(b)に示すように、「すぎさりしひびのゆめを・・・」という歌詞のうち「の」だけにアンダーラインを施して表示するとともに、模範音声ないし伴奏よりも早いタイミングで発音されていることを練習者に報知するためのメッセージを表示する。
このように、CPU11は、発音タイミングがずれている場合には、そのずれている音素(語)が所定数以上連続するか否かを判断し、所定数以上連続すると判断した場合と所定数以上連続しないと判断された場合とで、それぞれ異なるメッセージを表示部15に表示する。
【0057】
次に、3つ目の態様は、図12の(c)に示すように、「すぎさりしひびのゆめを・・・」の「すぎさりし」という歌詞が「すぎさった」というように間違えて歌唱された場合である。CPU11は、このように発音内容が異なっている場合には、練習者の歌唱が「歌詞の間違い」であると判断する。この場合、CPU11は、図13(c)に示すように、「すぎさりしひびのゆめを・・・」という正しい歌詞と、「すぎさったひびのゆめを・・・」という練習者の間違った発音とを並列に表示し、さらに、練習者の間違った発音「った」にアンダーラインを施して表示するとともに、歌詞に間違いがあることを練習者に報知するためのメッセージを表示部15に表示する。
【0058】
そして、4つ目の態様は、図12の(d)に示すように、「すぎさりし・・・」という練習者音声のうちの「し」の歌詞に対応する部分について、模範音声で歌唱技法が用いられている一方、練習者音声では歌唱技法が用いられていない場合や、歌唱技法が用いられているタイミングがずれている場合である。CPU11は、このように練習者音声と模範音声とで用いられている歌唱技法に差分がある場合には、練習者の歌唱が「技法間違い」であると判断する。この場合、CPU11は、図13(d)に示すように、「すぎさりし・・・」という歌詞のうち「し」の文字の近傍に技法を示す図形を表示するとともに、技法間違いがあることを練習者に報知するためのメッセージを表示する。
【0059】
ところで、CPU11は、図13(a)〜(d)に示すように、「もう1回歌い直しますか? Yes/No」というメッセージも表示部15に表示する。ここで、練習者が操作部16を操作して「Yes」を選択すると、CPU11は歌唱の再練習が指示されたと判断する(ステップS15;Yes)。そして、CPU11は、発音タイミング又は発音内容の相違箇所を中心として前後の所定範囲にわたる歌詞データ(この場合「すぎさりしひびのゆめを」という歌詞)と、その歌詞データに対応する伴奏データとを、歌詞データ記憶領域143及び伴奏データ記憶領域141から読み出し、これらを音声処理部18に供給して再生させる(ステップS16)。このとき、CPU11は表示部15を制御して、歌詞データ記憶領域143から読み出した歌詞を表示し、さらにその歌詞を伴奏の進行に合わせて順番に色変わりさせる。練習者はこの伴奏に合わせて、表示部15に表示された歌詞を歌唱する。
【0060】
この後、CPU11の処理は前述したステップS2に戻る。つまり、練習者の音声がマイクロフォン17によって収音されて音声信号に変換され、音声処理部18へと供給される。そして、音声処理部18によってA/D変換された練習者音声データは、記憶部14の練習者音声データ記憶領域144に時系列に記憶されていく(ステップS2)。以降、この記憶された練習者音声データに対して上述したステップS3〜S16の処理が繰り返される。これにより、練習者は自らが納得するまで、同一箇所の歌詞を繰り返し練習することができる。そして、図13(a)〜(d)に示した画面で練習者が「No」を選択すると(ステップS15;No)、CPU11の処理は終了する。
【0061】
このように、本実施形態においては、区間種別(例えば、サビ区間、それ以外の区間、等)毎に異なる水準で評価(比較)を行うから、歌唱指導の評価時に、評価結果を重要度で重み付けして歌唱者にフィードバックすることができる。
【0062】
また、本実施形態においては、模範音声データと練習者音声データの時間軸を合わせたうえで、その時間軸上の位置を同じくする音どうしを対応付けて両者を比較し、発音タイミングや発音内容の相違箇所を表示する。よって、練習者は、自らの歌唱に発音タイミングのずれや発音の間違いがあることを明確に意識することができると共に、その相違箇所や相違内容を視覚的に把握することができる。
【0063】
<B:第2実施形態>
次に、この発明の第2の実施形態について説明する。
この第2の実施形態であるカラオケ装置(以下、「カラオケ装置1A」という)が、上述した図1に示したカラオケ装置1と異なる点は、記憶部14が、評価態様データ記憶領域150(図1に鎖線で図示)を有している点であり、他の構成要素は、上述したカラオケ装置1と同様である。そのため、以下の説明においては、図1のカラオケ装置1と同様の構成要素については、同じ符号を用いることとし、その説明を省略する。
【0064】
評価態様データ記憶領域150には、音のピッチ、発音タイミング、強さ、歌詞、技法などの、音の属性に関する所定項目毎及び区間毎の評価の態様を表す評価態様データが記憶されている。
図14は、評価態様データの内容の一例を示す図である。図示のように、評価態様データは、「サビ区間」、「セリフ区間」、「その他の区間」のそれぞれの時間区間(以下、単に「区間」という)毎に、「ピッチ重要度」、「タイミング重要度」、「強さ重要度」、「歌詞重要度」、「ビブラート技法重要度」といった歌唱に関わる歌唱要素項目が互いに関連付けて構成される。この実施形態においては、各歌唱要素項目には、各歌唱要素項目の重要度を示す「0」〜「3」の数値が記憶されている。具体的には、「0」は、「歌唱評価に使用しない」旨を示す。一方、「1」は、「重要ではない」旨を示し、「2」は「普通」、「3」は「重要」である旨を示す。
例えば、図14に示す例においては、「サビ区間」においては、「ピッチ重要度」、「タイミング重要度」、「歌詞重要度」が「3」であることから、サビの区間においては、ピッチ、タイミング及び歌詞については高い重要度で評価が行われる。一方、「セリフ区間」については、「ピッチ重要度」、「タイミング重要度」、「強さ重要度」が「0」であり、「歌詞重要度」が「3」であることから、セリフの区間においては、ピッチ、タイミング、強さの各歌唱要素項目は評価には使用されず、一方、歌詞について高い重要度で評価が行われる。
【0065】
次に、この実施形態の動作について説明する。
カラオケ装置1Aの行う処理が、上述したカラオケ装置1の行う処理と異なる点は、練習者音声と模範音声との比較処理、すなわち、図7の発音内容比較部113,発音タイミング比較部114及び技法比較部117で行う処理(図10のステップS6,S7,S12に示す処理)の内容が異なる点であり、その他の処理や全体の処理の流れは、上述した第1実施形態のそれと同様である。そのため、以下の説明においては、上述した第1実施形態と同様の処理については適宜その説明を省略する。
【0066】
カラオケ装置1AのCPU11は、ステップS6の発音タイミングの比較処理、ステップS7の発音比較処理、ステップS12の技法比較処理を行う際に、評価態様データ記憶領域150に記憶された評価態様データに基づく比較を行い、比較結果に基づいて練習者音声データを評価する。具体的には、例えば、「サビ区間」においては、ピッチ比較、発音タイミング比較及び技法比較を行う際に、他の区間よりも小さい値の閾値を用いて比較・評価を行う。
【0067】
例えば、正確に歌ってほしい部分のピッチやタイミングの重要度を上げることにより、正確に歌ってほしいサビの部分は厳しく指導するが、他の部分は多少不正確でもうるさく指摘しないようにすることもできる。
また、例えば、曲中のセリフの部分は、ピッチもリズムも重要でないが、歌詞が重要であるとして評価を行うこともできる。
【0068】
<C:第3実施形態>
次に、この発明の第3の実施形態について説明する。この発明の第3の実施形態であるカラオケ装置(以下、「カラオケ装置1B」という)が、上述した第2の実施形態であるカラオケ装置1Aと異なる点は、評価態様データ記憶領域150に記憶された評価態様データの内容が異なる点である。
【0069】
図15は、評価態様データの内容の一例を示す図である。図において、技法項目は、更に、「深さ」や「周期」といった要素毎に重要度が指定されている。具体的には、例えば、ビブラートの技法については、図15に示すように、「深さ」、「周期」、「長さ」といった要素毎に重要度を示す情報が記憶されている。また、しゃくりの技法については、「ピッチ幅」、「長さ」といった要素毎に重要度を示す情報が記憶されている。
また、しゃくりについては、図16(a)に示すような、前の音を引きずってしゃくり上げるしゃくり(以下、「しゃくりA」という)の場合、「ピッチ幅」の重要度を上げ、逆に、図16(b)に示すような、前の音がないしゃくり(以下、「しゃくりB」という)の場合、「ピッチ幅」の重要度を下げるように重要度を設定することもできる。
【0070】
カラオケ装置1BのCPU11は、各技法項目について、各技法の要素毎の評価態様データを評価態様データ記憶領域150から読み出し、読み出した評価態様データの表す評価態様で、各技法の要素毎に評価を行う。例えば、CPU11は、「しゃくり」の技法については、練習者技法データと模範技法データとのピッチ幅の差分と閾値とを比較して、練習者音声の評価を行う。このとき、CPU11は、その技法が「しゃくりA」である場合には、比較処理の際に用いる閾値を小さくし、一方、「しゃくりB」である場合には、閾値を大きくする。このようにすることで、「しゃくりA」についてはピッチ幅の重要度を上げて厳しい評価を行い、一方、「しゃくりB」についてはピッチ幅の重要度を下げて甘い評価を行うことができる。
【0071】
このように、この実施形態では、技法項目毎、さらに技法の要素(深さ、周期、長さ、ピッチ幅等)毎に評価を行うことができる。
【0072】
<D:変形例>
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されることなく、他の様々な形態で実施可能である。以下にその一例を示す。
(1)上述した実施形態では、カラオケ装置1のCPU11が、模範音声データと練習者音声データとを比較し、該比較結果に応じて練習者音声データを評価した。練習者音声データを評価するために用いる音データ(第1の音データ)は、模範となる歌唱音声を表す模範音声データに限らず、例えば、楽曲のガイドメロディを表すデータであってもよく、また、歌唱の採点用に予め用意されたメロディデータであってもよい。要するに、時系列に沿って進行する音に対応するデータであればよい。
【0073】
(2)上述した実施形態においては、カラオケ装置1のCPU11が、歌詞の文字単位で練習者音声データと模範音声データとを比較し、該比較結果に応じて相違箇所を検出した(評価した)。比較単位は、歌詞の文字ごとの単位に限らず、例えば、フレーム単位であってもよく、また、小節単位、フレーズ単位で比較を行ってもよい。
【0074】
(3)上述した実施形態では、予め定められた時間区間(例えば、サビ区間、セリフ区間など)毎や、また、音の属性に関する項目(ピッチ、発音タイミング、歌唱技法など)毎に、練習者音声データと模範音声データとを比較し、該比較結果に応じて練習者音声データを評価した。評価単位は、上述した以外でも、例えば、音符毎や、歌詞の文字単位、小節単位、フレーズ単位であってもよい。要するに、予め定められた区間毎、又は、歌唱に関わる項目毎に比較すればよい。
ここで、図17を参照しつつ、(歌詞)音符毎に設定した場合の一例を以下に説明する。
図17は、評価態様データの内容の一例を示す図である。
図示のように、各音符に対して、項目の重要度(「0」〜「3」の数値)が予め設定されている。歌唱の評価時には、カラオケ装置1のCPU11は、重要度を加味して点数や指摘する項目を決める。例えば、重要度の高い項目で、うまく歌唱できなかったものを優先的に指摘することもできる。
【0075】
また、例えば、ラップのような曲は、リズムは重視するがピッチは無視する、といった評価を行うなど、曲毎のジャンルを示すジャンルデータに応じて、評価の態様を異ならせることもできる。この場合は、曲のジャンル毎に評価態様を予め設定しておき(例えば、ジャンルが「ラップ」の場合は、リズムの評価を厳しくする一方、ピッチの評価は行わない、等)、カラオケ装置1のCPU11は、曲に対応するジャンル種別情報を区間種別データ記憶領域149(図6参照)から読み出し、読み出したジャンル種別情報に応じて、態様を異ならせて評価する。
【0076】
また、上述した実施形態においては、音のピッチ、タイミング、強さ、歌詞、技法などを、音の属性に関する項目として用いた。音の属性に関する項目はこれらに限らず、例えば、音色を項目として用いてもよく、音の属性に関する項目であればどのようなものであってもよい。この場合も、CPU11は、上述した実施形態と同様に、模範音声データと練習者音声データの対応する時間部分の属性を項目毎に解析すればよい。
【0077】
(4)上述した実施形態においては、練習者の歌唱を評価する場合を例に挙げて説明したが、これに限らず、練習者の楽器演奏を評価するようにしてもよい。この場合、伴奏データ記憶領域141には、練習したい楽器(例えばフルート)以外の楽器(例えばピアノやバイオリン)の演奏データが記憶されており、模範音声データ記憶領域142には、模範となる模範演奏データ(フルートの演奏音を表すデータ)が記憶されており、歌詞データ記憶領域143には、演奏音の音程と発音タイミングとが対応付けられて記憶されており、練習者音声データ記憶領域144には、練習者の演奏データが記憶されている。なお、この場合は、練習者の演奏技法(例えば、ビブラート、息継ぎ、ため等)を示す技法データを練習者技法データとして、また、模範演奏の演奏技法を示す技法データを模範技法データとして用いることができる。
CPU11は、これらのデータに基づき、上記と同様の処理を経て模範演奏と練習演奏との相違箇所を検出し、その相違箇所を特定する情報を報知する。このように本発明は歌唱や演奏を含み得るため、本発明における「発音」という用語には、人が歌唱するときに発せられる音声のほか、楽器を演奏することで発せられる演奏音も含むものとする。また、本発明において、「音素」とは、歌唱や演奏のいずれの場合であっても、ひとまとまりの音として意識されて発音されるものであり、発音タイミングや発音の間違いを指摘することに意味があるものであればよい。
【0078】
(5)図2に示した歌詞データでは、それぞれの音声の発音を開始すべきタイミングを「発音タイミング」として考えていた。なぜなら、発音タイミングのずれは、大抵の場合、発音を開始すべきタイミングの影響が大きいからである。ただし、これに限らず、音声の発音を終了するタイミングも「発音タイミング」という概念に含めるようにしてもよい。例えば図2において冒頭の「す」という音声の発音を開始するタイミングT1と、図示はしていないがその「す」という音声の発音を終了するタイミング(タイミングT1よりは遅く、タイミングT2よりは早いタイミング)とを、それぞれ模範音声と練習者音声との間で比較するようにしてもよい。このようにすれば、発音の開始から終了に至るまでの微妙なずれまでをも評価することが可能となる。
【0079】
(6)上述した実施形態においては、特定した相違箇所と対応する文字の表示態様を他の文字と異ならせて表示させることによって、相違箇所を報知するようにした。相違箇所の報知方法はこれに限定されるものではなく、例えば相違箇所と対応する歌詞の近傍にアイコンを表示させるようにしてもよい。または、歌唱技法を示す図形の表示態様を異ならせることによって相違箇所を報知するようにしてもよい。また、小節毎の区間を評価区間とする場合は、相違箇所と対応する小節の表示態様を他の小節の表示態様と異ならせて表示するようにしてもよく、または、相違箇所と対応する小節のみを表示するようにしてもよい。
また、報知部115による報知の形態は、表示に限らず、評価結果を示す音声メッセージを出力するような形態であってもよい。また、音素を特定する情報を電子メール形式で練習者のメール端末に送信するという形態であってもよい。また、音素を特定する情報を記憶媒体に出力して記憶させるようにしてもよく、この場合、練習者はコンピュータを用いてこの記憶媒体から情報を読み出させることで、それを参照することができる。要は、練習者に対して何らかの手段でメッセージ乃至情報を伝えられるように、評価結果を示す情報を出力するものであればよい。
【0080】
(7)実施形態では、ハードディスク等の記憶部14に練習者音声データを記憶するようにしていたが、歌唱の評価を終えた後に練習者音声をすぐに破棄する場合には、練習者音声データをRAM13に記憶するようにしてもよい。
【0081】
(8)実施形態では、練習者音声データを記憶する際には、歌詞を表示し、さらに伴奏データを再生しながら練習者に歌唱させる、所謂カラオケ歌唱を行うようにしていたが、これは必ずしも必要ではない。つまり、練習者が歌詞の表示や伴奏データの再生が無いままで歌唱し、それを録音して模範音声と比較するようにしてもよい。歌唱能力が相当に高い練習者であっても、歌詞の表示や伴奏が無い状態で発音タイミングや歌詞を間違えずに歌唱することは容易ではないから、練習者の歌唱能力をより厳密に評価することが可能となる。
【0082】
(9)実施形態では、CPU11が図10に示す処理を実行するたびに、模範音声データに対して周波数分析を行っていたが(ステップS4)、これに限らず、模範音声データに対して予め周波数分析を行った結果を記憶部14に記憶しておいてもよいし、一度でも過去に周波数分析を行ったことがあれば、その結果を記憶部14に記憶しておいてもよい。なお、模範音声データや練習者音声データはWAVE形式やMP3形式のデータとしたが、データの形式はこれに限定されるものではなく、音声を示すデータであればどのような形式のデータであってもよい。
【0083】
(10)上述した実施形態においては、模範音声データを記憶部14に記憶させて、カラオケ装置1のCPU11が記憶部14から模範音声データを読み出すようにしたが、これに代えて、通信ネットワークを介して音声データを受信するようにしてもよい。要するに、模範音声データをCPU11に入力するようにすればよい。このようにすれば、所望の歌手の音声データをダウンロードして用いることができるから、練習者は、その歌手の歌唱技法と自身の歌唱技法とを比較することができ、所望の歌手の歌唱技法を真似て歌唱することが容易になる。
【0084】
(11)上述した実施形態においては、模範音声データから歌唱技法が用いられている区間を検出して模範技法データを生成するようにした。これに代えて、模範音声データそのものは記憶させておかずに、模範技法データを予め記憶部に記憶させておき、記憶された模範技法データを用いて比較処理を行うようにしてもよい。この場合は、模範技法データの生成処理(図10のステップS9の処理)を行う必要はない。この場合は、練習者によって歌唱が行われると、CPU11は、上述した実施形態と同様に、練習者歌唱データから練習者技法データを生成し、練習者技法データと記憶部に記憶された模範技法データとを比較して、予め決められた評価区間毎に相違箇所を検出する。
【0085】
または、模範音声データそのものは記憶させておかずに、基礎分析データ(ピッチ、パワー、スペクトル)を予め記憶部に記憶させておくようにしてもよい。要するに、模範音声データに変えて、時系列に沿って進行する音に対応する音の属性(ピッチ、パワー、スペクトル等)を示すパラメータ(基礎分析データ等)を属性の項目毎に記憶させておくようにしてもよい。この場合は、記憶された基礎分析データから模範技法データを生成すればよく、模範音声データの音声分析処理(図10のステップS4に含まれる処理)を行う必要はない。
【0086】
(12)上述した実施形態においては、歌唱技法として「ビブラート」や「ため」等が用いられている区間を特定したが、特定する歌唱技法(または演奏技法)は上述した実施形態において示したものに限定されるものではなく、例えば、スタッカートやクレッシェンド(デクレッシェンド)等であってもよい。具体的には、音声データから検出したパワーがある短い一定期間の間だけ強く現れる区間をスタッカートとして特定するようにしてもよい。また、パワーデータ値が連続的に徐々に大きくなる(小さくなる)区間をクレッシェンド(デクレッシェンド)として特定するようにしてもよい。要するに、音声データから算出されたピッチやスペクトル、パワーの時間的な変化のパターンを解析して、この解析結果が予め定められたパターンに対応するか否かを判定し、対応する場合には当該パターンに対応する区間を特定の技法が用いられている区間として特定すればよい。
【0087】
(13)上述した実施形態においては、練習者が歌唱した後で、練習者の歌唱技法と模範音声の歌唱技法とを比較して、両者の相違箇所を報知するようにしたが、模範音声で用いられている歌唱技法(または演奏技法)を、練習者が歌唱する際にリアルタイムで表示しておくようにしてもよい。このようにすれば、練習者は、歌唱する前に(または歌唱している最中に)模範音声で用いている歌唱技法(ビブラート、ため等)を視覚的に把握することができるから、お手本の歌唱技法を真似て歌いやすくなる。
【0088】
(14)実施形態では、カラオケ装置1が、図7に示した機能の全てを実現するようになっていた。これに対し、通信ネットワークで接続された2以上の装置が上記機能を分担するようにし、それら複数の装置を備えるシステムが同実施形態のカラオケ装置1を実現するようにしてもよい。例えば、マイクロフォンやスピーカ、表示装置及び入力装置等を備え、報知部115を実現するコンピュータ装置と、基礎分析部111、対応箇所検出部112、発音内容比較部113、発音タイミング比較部114、技法分析部116及び技法比較部117を実現するサーバ装置とが通信ネットワークで接続されたシステムとして構成されていてもよい。この場合は、コンピュータ装置が、マイクロフォンから入力された音声を音声データに変換してサーバ装置に送信し、サーバ装置が、受信した音声データと模範音声データ及び歌詞データとの比較処理を行い、その比較結果をコンピュータ装置に送信するようにすればよい。
【0089】
(15)上述した実施形態における評価装置としてのカラオケ装置1のCPU11によって実行されるプログラムは、磁気テープ、磁気ディスク、フレキシブルディスク、光記録媒体、光磁気記録媒体、RAM、ROMなどの記録媒体に記録した状態で提供し得る。また、インターネットのようなネットワーク経由でカラオケ装置1にダウンロードさせることも可能である。
【図面の簡単な説明】
【0090】
【図1】カラオケ装置1のハードウェア構成を例示したブロック図である。
【図2】模範音声データと歌詞データとの対応関係を説明する図である。
【図3】コメントテーブルの内容の一例を示す図である。
【図4】模範技法データの内容の一例を示す図である。
【図5】ビブラート技法としゃくり技法の態様を説明するための図である。
【図6】区間種別データの内容の一例を示す図である。
【図7】カラオケ装置1のソフトウェア構成の一例を示す図である。
【図8】DPマッチングを示す図である。
【図9】DPマッチングにおいて時間軸の伸縮を示す図である。
【図10】カラオケ装置のCPUが行う処理の流れを示すフローチャートである。
【図11】ファルセットにおける周波数成分を説明するための図である。
【図12】発音タイミング及び発音内容が相違する際の各種態様を説明する図である。
【図13】カラオケ装置において表示される画面の一例を示す図である。
【図14】評価態様データの内容の一例を示す図である。
【図15】評価態様データの内容の一例を示す図である。
【図16】しゃくりの技法の態様を説明するための図である。
【図17】評価態様データの内容の一例を示す図である。
【符号の説明】
【0091】
1…カラオケ装置、11…CPU、12…ROM、13…RAM、14…記憶部、15……表示部、16…操作部、17…マイクロフォン、18…音声処理部、19…スピーカ、111…基礎分析部、112…対応箇所検出部、113…発音内容比較部、114…発音タイミング比較部、115…報知部、116…技法分析部、117…技法比較部、141…伴奏データ記憶領域、142…模範音声データ記憶領域、143…歌詞データ記憶領域、144…練習者音声データ記憶領域、145…背景画データ記憶領域、146…コメントテーブル記憶領域、147…模範技法データ記憶領域、148…練習者技法データ記憶領域、149…区間種別データ記憶領域、150…評価態様データ記憶領域。

【特許請求の範囲】
【請求項1】
時系列に沿って進行する音に対応する第1の音データ、前記時系列の区間の区切りを示す区切りデータ、および前記各区間の種別を表す区間種別データを記憶する記憶手段と、
前記記憶手段内の前記区切りデータを参照して区間を認識しながら前記第1の音データを読み出し、読み出した前記第1の音データの各区間に対して、収音手段から供給される第2の音データを対応付ける対応付け手段と、
区間の種別毎に評価態様が予め設定され、前記記憶手段に記憶された区間種別データに対応する評価態様を区間毎に選択し、選択した評価態様に基づいて、前記対応付け手段によって対応付けられた第1の音データと第2の音データを比較し、比較結果に応じて該第2の音データを評価する評価手段と、
前記評価手段による評価結果を表す情報を出力する出力手段と
を備えることを特徴とする評価装置。
【請求項2】
時系列に沿って進行する音に対応する第1の音データを記憶するとともに、音の属性に関する所定項目毎の評価の態様を表す評価態様データを記憶する記憶手段と、
前記記憶手段に記憶された第1の音データと収音手段から供給される第2の音データの対応する時間部分の属性を前記項目毎に解析するとともに、解析結果に対し前記記憶手段に記憶された前記項目毎の評価態様データに基づく比較をし、比較結果に基づいて該第2の音データを評価する評価手段と、
前記評価手段による評価結果を表す情報を出力する出力手段と
を備えることを特徴とする評価装置。
【請求項3】
前記記憶手段は、前記第1の音データに代えて、時系列に沿って進行する音に対応する音の属性を示すパラメータを属性の項目毎に記憶し、
前記評価手段は、前記収音手段から供給される第2の音データの属性を前記項目毎に解析するとともに、解析結果と前記記憶手段に記憶されたパラメータとに対し前記記憶手段に記憶された前記項目毎の評価態様データに基づく比較をし、比較結果に応じて該第2の音データを評価する
ことを特徴とする請求項2に記載の評価装置。
【請求項4】
時系列に沿って進行する音に対応する第1の音データ、前記時系列の区間の区切りを示す区切りデータ、前記各区間の種別を表す区間種別データ、および音の属性に関する所定項目毎および前記区間毎の評価の態様を表す評価態様データを記憶する記憶手段と、
前記記憶手段内の前記区切りデータを参照して区間を認識しながら前記第1の音データを読み出し、読み出した前記第1の音データの各区間に対して、収音手段から供給される第2の音データを対応付ける対応付け手段と、
前記対応付け手段によって対応付けられた第1の音データと第2の音データとの対応する時間部分の属性を前記項目毎及び前記区間毎に解析し、解析結果に対し前記記憶手段に記憶された前記項目毎及び前記区間毎の評価態様データに基づく比較をし、比較結果に基づいて該第2の音データを評価する評価手段と、
前記評価手段による評価結果を表す情報を出力する出力手段と
を備えることを特徴とする評価装置。
【請求項5】
前記項目は、音のピッチ、タイミング、強さ、歌詞及び技法の少なくともいずれかひとつを示す
ことを特徴とする請求項2乃至4のいずれかに記載の評価装置。
【請求項6】
前記第1の音データは、発音タイミングが時系列に連なる複数の音素を表すデータであり、
前記第1の音データと前記第2の音データとを所定時間長のフレーム単位で対応付け、対応付けたフレームを表す対応箇所データを生成する対応箇所検出手段を備え、
前記評価手段は、前記第2の音データが表す音素の発音タイミングを、前記第1の音データが表す音素の発音タイミングと前記対応箇所データとに基づいて特定し、該第1の音データが表す音素の発音タイミングと該第2の音データが表す音素の発音タイミングとの差分が閾値を超えるか否かを判断し、該判断結果に応じて該第2の音データを評価する
ことを特徴とする請求項1又は2に記載の評価装置。
【請求項7】
前記第1の音データの表す音において特定の技法が用いられている区間を示す第1の技法データを記憶する第1の技法データ記憶手段と、
前記第2の音データの表す音のピッチ、スペクトル及びパワーの少なくともいずれか一つを検出し、検出結果を示す分析データを生成する検出手段と、
前記検出手段により生成された分析データの表す内容の時間的な変化のパターンを解析して、この解析結果が予め定められたパターンに対応するか否かを判定し、対応する場合には当該パターンに対応する区間を特定の技法が用いられている区間として特定する技法区間特定手段と、
前記技法区間特定手段により特定された区間を示す第2の技法データを生成する第2の技法データ生成手段と
を備え、
前記評価手段は、前記第2の技法データ生成手段により生成された第2の技法データと前記第1の技法データ記憶手段に記憶された第1の技法データとを比較し、該比較結果に応じて該第2の音データを評価する
ことを特徴とする請求項1又は2に記載の評価装置。
【請求項8】
前記出力手段は、前記評価手段による評価結果を報知する
ことを特徴とする請求項1乃至7のいずれかに記載の評価装置。



【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate