音声評価装置

【課題】歌唱を採点するカラオケ装置において、各音節内の音量変化を評価する音声評価技術を提供すること。
【解決手段】比較評価部７は、記憶部１４の所定のエリアに記憶された無音領域基準データおよび歌唱者音声無音領域データを読み出し、各々の音節ごとに両者の無音領域時間を比較して、ずれの量を判断することにより、歌唱者音声の採点に反映させる。このように、歌唱者音声データの時間軸を伸縮しガイドボーカルデータの時間軸と合わせ、音節区切りデータで区切られた音節ごとの音量変化を比較することで、各音節内の微妙な変化についても評価を行うことができる。そのため、精度の高い採点結果を出すことができ、さらに直したほうがよい点については、音節ごとに修正点を明示して指導をすることができる。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、歌唱を採点するカラオケ装置において、各音節内の音量変化を評価する技術に関する。
【背景技術】
【０００２】
カラオケ装置において、歌唱者の歌唱の巧拙を点数で表示する採点機能を備えたものがある。このような採点機能のうち、できるだけ実際の歌唱の巧拙と採点の結果が対応するように、歌唱者の歌唱音声信号から抽出された音高データや音量データなどのデータと、カラオケ曲の歌唱旋律と対応するデータ（ガイドメロディ）との比較機能を持たせたものがある。（例えば、特許文献１）
【特許文献１】特開平１０−６９２１６号公報
【発明の開示】
【発明が解決しようとする課題】
【０００３】
このような採点機能を備えたカラオケ装置によって、１音を単位としてノートごとの音量変化を比較して採点することが可能になったが、この採点機能は、ＭＩＤＩ（Musical Instruments Digital Interface：登録商標）形式でデータ化されたガイドメロディを基準にして、歌唱者の歌唱音声と比較していたため、楽譜上の音符を基準にした採点に止まっていた。しかしながら、実際の歌唱は、一つの音符内でも音量が多様に変化する。例えば、一つのノート内においても音を徐々に大きくするクレッシェンドや、音を短く切るスタッカートなどの技法があり、ノート内で音量が多様に変化する。
そのため、ガイドメロディを基準に採点した場合、見本となる歌唱（以下、ガイドボーカルという）に近い歌い方をする歌唱者とそうでない歌唱者とで、実際の巧拙にあった採点結果がでないことがあった。
【０００４】
本発明は、上述の事情を鑑みてなされたものであり、カラオケ曲のノート内の音量変化について、ガイドボーカルと歌唱者の歌唱音声とを比較評価する音声評価装置を提供することを目的とする。
【課題を解決するための手段】
【０００５】
上述の課題を解決するため、本発明は、楽曲の歌声を示す第１の音声データと前記歌声の音声の区切りを示す音声区切りデータとを記憶する記憶手段と、楽曲の進行に応じて前記記憶手段から前記第１の音声データと前記音声区切りデータとを読み出す読出手段と、歌唱者の音声が入力され、入力された音声を第２の音声データに変換して出力する音声入力手段と、前記読出手段が読み出した前記第１の音声データと前記音声区切りデータを参照して、前記第２の音声データを解析し、前記第１の音声データが示す音声の音節に対応する音節部分を前記第２の音声データから切り出す音節対応付け手段と、前記第１、第２の音声データについて、前記音節対応付け手段によって対応付けられた音節部分毎に音量の変化の態様を比較し、その比較結果に対応する評価を行う評価手段とを具備することを特徴とする音声評価装置を提供する。
【０００６】
また、別の好ましい態様において、前記音節対応付け手段は、対応付けた音節部分に該当する前記第１、第２の音声データについて、当該第２の音声データの時間幅を当該第１の音声データの時間幅と同じになるように伸縮させてもよい。
【０００７】
また、別の好ましい態様において、前記評価手段は、前記音節対応付け手段によって対応付けられた音節部分毎に所定レベルの音量をしきい値として区間に分割し、前記しきい値より小さい音量と判断された区間の長さまたは前記しきい値より大きい音量と判断された区間の長さに基づいて評価を行ってもよい。また、前記評価手段は、前記音節対応付け手段によって対応付けられた音節部分毎に、当該音節部分の音量に基づいて前記しきい値を自動設定してもよい。さらに、音節部分毎の音量が前記しきい値を上回るまでの期間は評価から除外してもよい。
【０００８】
また、別の好ましい態様において、前記評価手段は、前記音節対応付け手段によって対応付けられた音節部分毎に、当該音節部分の音量変化率を抽出して比較してもよい。
【発明の効果】
【０００９】
歌唱者音声データの時間軸を伸縮しガイドボーカルデータの時間軸と合わせ、音節区切りデータで区切られた音節ごとの音量変化を比較することで、各音節内の微妙な変化についても評価を行うことができる。
【発明を実施するための最良の形態】
【００１０】
以下、本発明の一実施形態について説明する。
【００１１】
＜実施形態＞
図１は、この発明の一実施形態に係る音声評価装置としてのカラオケ装置１のハードウェア構成を例示したブロック図である。ＣＰＵ（Central Processing Unit）１１は、ＲＯＭ（Read Only Memory）１２または記憶部１４に記憶されているコンピュータプログラムを読み出してＲＡＭ（Random Access Memory）１３にロードし、これを実行することにより、カラオケ装置１の各部を制御する。記憶部１４は、例えばハードディスクなどの大容量の記憶手段であり、楽曲データ記憶領域１４ａと、歌唱者音声データ記憶領域１４ｂを有している。表示部１５は、例えば液晶ディスプレイなどであり、ＣＰＵ１１の制御の下で、カラオケ装置１を操作するためのメニュー画面や、背景画像に歌詞テロップを重ねたカラオケ画面などの各種画面を表示する。操作部１６は、各種のキーを備えており、押下されたキーに対応した信号をＣＰＵ１１へ出力する。マイクロフォン１７は、歌唱者が発音した音声を収音する。音声処理部１８は、マイクロフォン１７によって収音された音声をＡ／Ｄ変換してＣＰＵ１１に供給する。スピーカ１９は、音声処理部１８に接続されており、音声処理部１８から出力される音声信号をもとに放音する。
【００１２】
楽曲データ記憶領域１４ａには、カラオケ曲の楽曲データが複数記憶されており、各楽曲データは、ガイドメロディトラック、伴奏データトラック、歌詞データトラック、ガイドボーカルトラック、音節区切りデータトラックを有している。
【００１３】
ガイドメロディトラックは、楽曲のボーカルパートのメロディを示すデータであり、各ノートについてのノートオン（発音の指令）、ベロシティ（音の強さ）、ノートオフ（消音の指令）などのイベントデータと次のイベントデータを読み込んで実行するまでの時間を示すデルタタイムデータを有している。伴奏データトラックは、各伴奏楽器の複数のトラックから構成されており、各楽器のトラックは上述したガイドメロディトラックと同様のデータ構造を有している。なお、本実施形態の場合、ＭＩＤＩ（登録商標）形式のデータが記憶されている。
【００１４】
歌詞データトラックは、楽曲の歌詞を示しているテキストデータ、歌詞の改行を示す改行データ、および歌詞の一文字毎にワイプ開始時刻を示すワイプ開始時刻データを有している。そして、カラオケ装置によって再生され、画面に歌詞テロップが表示されているときは、歌詞の１文字は対応するワイプ開始時刻になると当該文字の左側から色を変化させ始めて、次の文字ワイプ開始時刻に達すると、その文字全体について色の変化が完了するよう色替え制御される。この場合、ワイプ開始時刻データは、改行データにも設けられており、行の最後に表示される文字については、当該文字のワイプ開始時刻データと改行データのワイプ開始時刻データの時間間隔が、当該文字の色替え時間となる。各文字の色が変化するスピードは、文字の横方向のドット数と色替え時間（当該文字のワイプ開始時刻と次の文字のワイプ開始時刻の時間差）から決定される。
【００１５】
ガイドボーカルトラックは、見本となる歌手の歌声を記録した音声データ（以下、ガイドボーカルデータという）であって、例えば、ＷＡＶＥ形式やＭＰ３（MPEG Audio Layer-3）形式などの音声データである。音節区切りデータトラックは、図２に示すように、ガイドボーカルを音節ごとに区切る時刻を示す音節区切りデータであり、ｔ_１、ｔ_２、ｔ_３・・・として各音節が発声される時刻を示している。ここで、図の縦軸はガイドボーカルの音量であり、横軸はガイドボーカルの進行を示す時間軸を表し、それぞれの音節に対応する歌詞を図の上部に対応させて表している。なお、ガイドボーカルデータにフレーム番号やサンプリング番号などの情報が付されている場合には、それらを時刻情報の代わりに用いて音節区切りデータとしてもよい。
【００１６】
歌唱者音声データ記憶領域１４ｂには、マイクロフォン１７から音声処理部１８を経てＡ／Ｄ変換された音声データ（以下、歌唱者音声データという）が、例えばＷＡＶＥ形式やＭＰ３形式などで時系列に記憶される。
【００１７】
次に、ＣＰＵ１１が、ＲＯＭ１２または記憶部１４に記憶されたコンピュータプログラムを実行することによって実現する機能について説明する。図３は、ＣＰＵ１１が実現する機能を示したブロック図である。
【００１８】
図において、ガイドボーカル音量抽出部２は、楽曲データ記憶領域１４ａからガイドボーカルデータおよび音節区切りデータを読み出し、当該ガイドボーカルの音量を抽出して、ガイドボーカル音量データを作成する機能、および音節区切りデータが有している音節区切り時刻によって音節ごとに当該ガイドボーカル音量データを分割して、全ての音節に対して、ガイドボーカル音節単位音量データを生成する機能を有している。例えば、図２に示すように、音節「あ」に対応するガイドボーカル音節単位音量データは、ｔ_１からｔ_２の間の時間の音量の変化を示す音量データである。
【００１９】
ガイドボーカル無音領域抽出部３は、ガイドボーカル音節単位音量データに基づいて歌唱者音声と比較するための基準データとして、各音節について無音領域時間を抽出し、音節ごとに無音領域時間を対応させた無音領域基準データを作成する機能を有している。例えば、ｎ番目の音節のガイドボーカル音節単位音量データが図４（ａ）に示すような音量変化を示している場合は、音量がスレッショルド音量Ｖ_ｎｔｈ以下に下がった時刻ｔ_ｎｔｈになったところから無音領域とみなし、次の音節の区切り時刻ｔ_ｎ+1までの無音領域時間ｔ_ｎｏｆｆ＝ｔ_ｎ+1−ｔ_ｎｔｈをｎ番目の音節の無音領域基準データとして作成する。ここで、スレッショルド音量Ｖ_ｎｔｈは、例えば以下のように自動設定する。図４（ａ）に示すようなｎ番目の音節内の音量変化を所定の時間単位で分割したフレーム単位に分け、各音量の発生頻度をフレーム数で表すと、図４（ｂ）のようなヒストグラムで表すことができる。ここで、ｎ番目の音節の音量最小値をＶ_ｎｍｉｎとし、音量の中央値をＶ_ｎｍｅｄとすると、スレッショルド音量Ｖ_ｎｔｈは（Ｖ_ｎｍｉｎ＋Ｖ_ｎｍｅｄ）／２として自動設定する。このようにスレッショルド音量を決めると、マイクロフォン１７に入り込む周囲の雑音などの影響を受けにくくなり、正確な検出ができる。なお、周囲の雑音の音量が一定に保たれている場合は、スレッショルド音量をある一定水準として決めておいてもよい。
【００２０】
アライメント部４は、ガイドボーカルと歌唱者音声の音節の時間的なずれの調整を行う機能を有している。図５に示すように、ガイドボーカル（図５（ａ））と歌唱者音声（図５（ｂ））にずれが発生している場合、両者を正確に比較するために、ガイドボーカルと時間軸を合わせるように、歌唱者音声の時間軸を伸縮させてＤＴＷ（Dynamic Time Warping：時間正規化）を行う必要がある。本実施形態ではこのＤＴＷを行うための手法としてＤＰ（Dynamic Programming：動的計画法）マッチングを用いる。具体的には以下のような処理となる。
【００２１】
アライメント部４は、図６に示すような座標平面（以下、ＤＰプレーンという）をＲＡＭ１３に形成する。このＤＰプレーンの縦軸は、ガイドボーカルデータをそれぞれ所定時間長のフレーム単位に分離してその各々に対してＦＦＴ（Fast Fourier Transform）を施して得られたスペクトルについて、各フレームのスペクトルの絶対値の対数に逆フーリエ変換をかけて得られるパラメータに対応しており、横軸は、同様にして得られた歌唱者音声データのスペクトルについて、各フレームから得たスペクトルの絶対値の対数に逆フーリエ変換をかけて得られるパラメータに対応している。図６において、ａ１、ａ２、ａ３・・・ａｎは、ガイドボーカルデータの各フレームを時間軸に従って並べたものであり、ｂ１、ｂ２、ｂ３・・・ｂｎは、歌唱者音声データの各フレームを時間軸に従って並べたものである。縦軸のａ１、ａ２、ａ３・・・ａｎの間隔と横軸のｂ１、ｂ２、ｂ３・・・ｂｎの間隔は、いずれもフレームの時間長と対応している。このＤＰプレーンにおける各格子点の各々には、ａ１、ａ２、ａ３・・・の各パラメータと、ｂ１、ｂ２、ｂ３・・・の各パラメータのユークリッド距離を夫々示す値であるＤＰマッチングスコアが対応付けられている。例えば、ａ１とｂ１とにより位置決めされる格子点には、ガイドボーカルデータの一連のフレームのうち最初のフレームから得たパラメータと歌唱者音声データの一連のフレームのうち最初のフレームから得たパラメータのユークリッド距離を示す値が対応付けられることになる。アライメント部４は、このような構造を成すＤＰプレーンを形成した後、ａ１とｂ１とにより位置決めされる格子点（始端）からａｎとｂｎとにより位置決めされる格子点（終端）に至る全経路を探索し、探索した経路ごとに、その始端から終端までの間に辿る各格子点のＤＰマッチングスコアを累算して行き、最小の累算値を求める。このＤＰマッチングスコアの累算値が最も小さくなる経路は、歌唱者音声データの各フレームの時間軸をガイドボーカルデータの時間軸に合わせて伸縮する際における伸縮の尺度として参酌される。
【００２２】
そして、アライメント部４は、ＤＰマッチングスコアの累算値が最小となる経路をＤＰプレーン上から特定し、特定した経路の内容に応じて歌唱者音声データの時間軸を伸縮する処理であるアライメント処理を行う。具体的には、ＤＰプレーン上から特定された経路上の各格子点のＤＰマッチングスコアが時間軸上の位置を同じくするフレームから得たパラメータのユークリッド距離を表わすものとなるように、歌唱者音声データの各フレームのタイムスタンプの内容を書き換えた上で、時間軸上の位置を同じくする各フレームを組として順次対応付けていく。例えば、図６に示すＤＰプレーン上に記された経路においては、ａ１とｂ１により位置決めされる始点からその右上のａ２とｂ２により位置決めされる格子点に進んでいることが分かる。この場合、ａ２とｂ２のフレームの時間軸上の位置は当初から同じであるので、ｂ２のフレームのタイムスタンプの内容を書き換える必要はない。更に、この経路においては、ａ２とｂ２により位置決めされる格子点からその右のａ２とｂ３により位置決めされる格子点に進んでいることが分かる。この場合、ｂ２のフレームだけでなくｂ３のフレームもａ２のフレームと時間軸上の位置を同じくする必要があるので、ｂ３のフレームと対を成していたタイムスタンプをフレーム一つ分だけ早いものと置き換える。この結果、ａ２のフレームとｂ２及びｂ３のフレームが時間軸上の位置を同じくするフレームの組として対応付けられることになる。このようなタイムスタンプの置き換えとフレームの対応付けがｂ１からｂｎに至る全フレーム区間について行われる。これにより、例えば図５（ｂ）に示すように、歌唱者音声の発音時刻がガイドボーカルの発音時刻とずれている部分があったとしても、歌唱者音声データの時間軸をガイドボーカルデータの時間軸に合わせて伸縮し、図５（ｃ）に示すように時間軸をあわせることができる。以上がＤＰマッチングの仕組みである。
【００２３】
歌唱者音声音量抽出部５は、アライメント部４で得られた時間伸縮を行った歌唱者音声データについて、ガイドボーカル音量抽出部２と同様に、当該歌唱者音声の音量を抽出して、歌唱者音声音量データを作成する機能および音節ごとに歌唱者音声音節単位音量データを生成する機能を有している。
【００２４】
歌唱者音声無音領域抽出部６は、ガイドボーカル無音領域抽出部３と同様に、歌唱者音声音節単位音量データに基づいて、各音節について無音領域時間（例えばｎ番目の音節ならｔ’_ｎｏｆｆとする）を抽出し、音節ごとに無音領域時間を対応させた歌唱者音声無音領域データを作成する機能を有している。
【００２５】
比較評価部７は、ガイドボーカル無音領域抽出部３から無音領域基準データを、歌唱者音声無音領域抽出部６から歌唱者音声無音領域データを取得し、ガイドボーカルと歌唱者音声について、それぞれを音節ごとに無音領域時間を比較して、当該音節の音の長さについての評価を行う機能を有している。例えば、図５（ａ）に示すガイドボーカルの３番目の音節に対応する無音領域時間ｔ_３ｏｆｆと図５（ｃ）に示す時間伸縮を行った歌唱者音声の３番目の音節に対応する無音領域時間ｔ’_３ｏｆｆとを比較して、ｔ_３ｏｆｆ＞ｔ’_３ｏｆｆなら３番目の音節については、歌唱者音声の無音領域時間が短い、すなわち音の発声時間が長いと評価する。
【００２６】
次に、カラオケ装置１の動作について説明する。練習者は、カラオケ装置１の操作部１６を操作して歌唱したい曲を選定し、伴奏の再生を指示する。ＣＰＵ１１は、この指示に応じて処理を開始する。ＣＰＵ１１は、まず、指定された曲の伴奏データトラックを楽曲データ記憶領域１４ａから読み出し、音声処理部１８に供給する。音声処理部１８は、供給された伴奏データをアナログ音声信号に変換してスピーカ１９に供給して放音させる。このとき、ＣＰＵ１１は表示部１５を制御して、歌詞データトラックを楽曲データ記憶領域１４ａから読み出し、読み出した歌詞を表示し、楽曲の進行に合わせて歌詞の文字を色替えしていく。歌唱者は、スピーカ１９から放音される伴奏に合わせて歌唱を行う。このとき、歌唱者の音声はマイクロフォン１７によって収音されて音声信号に変換され、音声処理部１８へと供給される。そして、音声処理部１８によってＡ／Ｄ変換された歌唱者音声データは、記憶部１４の歌唱者音声データ記憶領域１４ｂに時系列に記憶されていく。
【００２７】
伴奏データの再生が終了すると、ＣＰＵ１１は、アライメント部４の処理を行う。すなわち、楽曲データ記憶領域１４ａからガイドボーカルデータを読み出し、歌唱者音声データ記憶領域１４ｂから読み出した歌唱者音声データを読み出す。そして、ＤＰマッチングによって、ガイドボーカルデータの時間軸と合うように歌唱者音声データの時間軸を伸縮させ、歌唱者音声データのタイムスタンプを書き換え、記憶部１４の歌唱者音声データ記憶領域１４ｂに記憶する。
【００２８】
次に、ＣＰＵ１１は、ガイドボーカル音量抽出部２、および歌唱者音声音量抽出部５の処理を行う。つまり、ガイドボーカル音量抽出部２は、楽曲データ記憶領域１４ａから読み出したガイドボーカルデータと音節区切りデータを元に、ガイドボーカルの全ての音節ごとに、当該音節と対応付けてガイドボーカル音節単位音量データを生成し、記憶部１４の所定のエリアに記憶させる。また、同様にして、歌唱者音声音量抽出部５は、タイムスタンプを書き換えた歌唱者音声データについて、音節ごとに、当該音節と対応付けて歌唱者音声音節単位音量データを生成し、記憶部１４の所定のエリアに記憶させる。
【００２９】
次に、ＣＰＵ１１は、ガイドボーカル無音領域抽出部３、および歌唱者音声無音領域抽出部６の処理を行う。ガイドボーカル無音領域抽出部３は、記憶部１４の所定のエリアに記憶された全ての音節に対するガイドボーカル音節単位音量データを読み出し、ガイドボーカルの全ての音節に対して、それぞれスレッショルド音量を算出し、全ての音節に対しての無音領域時間を算出し無音領域基準データとして記憶部１４の所定のエリアに記憶させる。また、同様にして、歌唱者音声無音領域抽出部６は、記憶部１４の所定のエリアに記憶された全ての音節に対する歌唱者音声音節単位データを読み出し、歌唱者音声の全ての音節に対して、それぞれスレッショルド音量を算出し、全ての音節に対しての無音領域時間を算出し、歌唱者音声無音領域データとして記憶部１４の所定のエリアに記憶させる。
【００３０】
次に、ＣＰＵ１１は、比較評価部７の処理を行う。比較評価部７は、記憶部１４の所定のエリアに記憶された無音領域基準データおよび歌唱者音声無音領域データを読み出し、各々の音節ごとに両者の無音領域時間を比較する。そして、歌唱者音声の各音節について、ガイドメロディの各音節の無音領域時間と比較し、ずれの量を判断することにより、歌唱者音声の採点に反映させる。また、歌唱者に指導するために、どの音節がどのようにずれているのかを表示部１５に表示させてもよい。その場合は、例えば図７に示すように、歌詞の音節ごとに当該音節の無音領域時間がわかるように表示すればよい。ここで、横軸は歌詞の各音節を表している。また、縦軸は各音節の無音領域時間を音節区切りデータによって区切られた当該音節の全体の時間で規格化したものであり、数値が大きいほど音節の無音領域時間が長い、すなわち発音時間が短いことを意味し、ｎ番目の音節の無音領域時間は、ｔ_ｎｏｆｆ／（ｔ_ｎ+1−ｔ_ｎ）として、表示されている。また、ガイドボーカルは先生の音声、歌唱者音声は生徒の音声として扱われている。
【００３１】
このように、歌唱者音声データの時間軸を伸縮しガイドボーカルデータの時間軸と合わせ、音節区切りデータで区切られた音節ごとの音量変化を比較することで、各音節内の微妙な変化についても評価を行うことができる。そのため、精度の高い採点結果を出すことができ、さらに直したほうがよい点については、音節ごとに修正点を明示して指導をすることができる。
【００３２】
以上、本発明の実施形態について説明したが、例えば、上述した実施形態を以下のように変形して本発明を実施してもよい。
【００３３】
＜変形例１＞
実施形態においては、ガイドボーカルと歌唱者音声について音節の音の長さを比較するようにしていたが、音の大きさの変化として、徐々に大きくなるクレッシェンドや徐々に小さくなるデクレッシェンドについて評価を行ってもよい。この場合は、実施形態の無音領域を抽出する代わりに、図８に示すように、各音節内の音量変化率αを各音節の音量変化を抜き出して１次近似などにより抽出するようにして、ガイドボーカルと歌唱者音声を比較すればよい。ここで、音量変化率を比較する対象となる区間は、例えば、図８に示すように、音節の占有する時間を１００％とした場合、当該音節が発音された時刻から３０％の時間を加えた時刻ｔ_ｎｓから７０％の時間を加えた時刻ｔ_ｎｅまでの時間などと適宜設定すればよい。このようにすると、各音節内の抑揚についても評価することができ、より精度の高い採点結果を出すことができる。
【００３４】
＜変形例２＞
実施形態においては、音節区切りデータは楽曲ごとに事前に作成されていたが、ガイドボーカルデータから得られるスペクトルやピッチの検出・非検出状態から音節区切りデータを自動的に作成するようにしてもよい。このようにすると、数多くの楽曲に対して音節区切りデータを作成する手間が省くことができる。
【００３５】
＜変形例３＞
実施形態においては、ガイドボーカルと歌唱者音声の無音領域時間を抽出して各々を比較していたが、スレッショルド音量以上の音量になっている領域のみを検出して、音節が発音されているとみなす有音領域時間を抽出して比較してもよい。また、無音領域以外の部分を有音領域とみなしてもよい。
【００３６】
＜変形例４＞
実施形態においては、ＤＰマッチングによって、歌唱者音声データの時間軸をガイドボーカルデータの時間軸に合わせて伸縮して時間軸をあわせて、音節区切りデータによって歌唱者音声を音節ごとに区切っていたが、ガイドボーカルデータと歌唱者音声データのスペクトルやピッチの比較を行って、ガイドボーカルの各音節に対応する歌唱者音声の音節の検出を行って、歌唱者音声を音節に区切ってもよい。この場合はガイドボーカルと歌唱者音声の音節についてはそれぞれ時間軸が揃っていないため、音節全体の占有する時間に対する無音領域時間の割合として比較すればよい。
【図面の簡単な説明】
【００３７】
【図１】本発明の実施形態に係る音声評価装置であるカラオケ装置のハードウェアの構成を示すブロック図である。
【図２】音節区切りデータが有する音節を区切る時刻を示す説明図である。
【図３】本発明の実施形態に係る音声評価装置であるカラオケ装置のソフトウェアの構成を示すブロック図である。
【図４】無音領域時間の検出方法を示す説明図である。
【図５】歌唱者音声データの時間の伸縮を示す説明図である。
【図６】ＤＰマッチングを行う際のＤＰプレーンを示す説明図である。
【図７】歌唱者音声の評価結果が表示される画面の例を示す説明図である。
【図８】変形例１に係る音声評価方法である音量変化率を示す説明図である。
【符号の説明】
【００３８】
１…カラオケ装置、２…ガイドボーカル音量抽出部、３…ガイドボーカル無音領域抽出部、４…アライメント部、５…歌唱者音声音量抽出部、６…歌唱者音声無音領域抽出部、７…比較評価部、１１…ＣＰＵ、１２…ＲＯＭ、１３…ＲＡＭ、１４…記憶部、１４ａ…楽曲データ記憶領域、１４ｂ…歌唱者音声データ記憶領域、１５…表示部、１６…操作部、１７…マイクロフォン、１８…音声処理部、１９…スピーカ

【特許請求の範囲】
【請求項１】
楽曲の歌声を示す第１の音声データと前記歌声の音声の区切りを示す音声区切りデータとを記憶する記憶手段と、
楽曲の進行に応じて前記記憶手段から前記第１の音声データと前記音声区切りデータとを読み出す読出手段と、
歌唱者の音声が入力され、入力された音声を第２の音声データに変換して出力する音声入力手段と、
前記読出手段が読み出した前記第１の音声データと前記音声区切りデータを参照して、前記第２の音声データを解析し、前記第１の音声データが示す音声の音節に対応する音節部分を前記第２の音声データから切り出す音節対応付け手段と、
前記第１、第２の音声データについて、前記音節対応付け手段によって対応付けられた音節部分毎に音量の変化の態様を比較し、その比較結果に対応する評価を行う評価手段と
を具備することを特徴とする音声評価装置。
【請求項２】
前記音節対応付け手段は、対応付けた音節部分に該当する前記第１、第２の音声データについて、当該第２の音声データの時間幅を当該第１の音声データの時間幅と同じになるように伸縮させることを特徴とする請求項１に記載の音声評価装置。
【請求項３】
前記評価手段は、前記音節対応付け手段によって対応付けられた音節部分毎に所定レベルの音量をしきい値として区間に分割し、前記しきい値より小さい音量と判断された区間の長さまたは前記しきい値より大きい音量と判断された区間の長さに基づいて評価を行うことを特徴とする請求項１または請求項２に記載の音声評価装置。
【請求項４】
前記評価手段は、前記音節対応付け手段によって対応付けられた音節部分毎に、当該音節部分の音量に基づいて前記しきい値を自動設定することを特徴とする請求項３に記載の音声評価装置。
【請求項５】
前記評価手段は、音節部分毎の音量が前記しきい値を上回るまでの期間は評価から除外することを特徴とする請求項３または請求項４に記載の音声評価装置
【請求項６】
前記評価手段は、前記音節対応付け手段によって対応付けられた音節部分毎に、当該音節部分の音量変化率を抽出して比較することを特徴とする請求項１または請求項２に記載の音声評価装置。

【図１】