説明

音声評価装置

【課題】歌唱を採点するカラオケ装置において、各音節内の音量変化を評価する音声評価技術を提供すること。
【解決手段】比較評価部7は、記憶部14の所定のエリアに記憶された無音領域基準データおよび歌唱者音声無音領域データを読み出し、各々の音節ごとに両者の無音領域時間を比較して、ずれの量を判断することにより、歌唱者音声の採点に反映させる。このように、歌唱者音声データの時間軸を伸縮しガイドボーカルデータの時間軸と合わせ、音節区切りデータで区切られた音節ごとの音量変化を比較することで、各音節内の微妙な変化についても評価を行うことができる。そのため、精度の高い採点結果を出すことができ、さらに直したほうがよい点については、音節ごとに修正点を明示して指導をすることができる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、歌唱を採点するカラオケ装置において、各音節内の音量変化を評価する技術に関する。
【背景技術】
【0002】
カラオケ装置において、歌唱者の歌唱の巧拙を点数で表示する採点機能を備えたものがある。このような採点機能のうち、できるだけ実際の歌唱の巧拙と採点の結果が対応するように、歌唱者の歌唱音声信号から抽出された音高データや音量データなどのデータと、カラオケ曲の歌唱旋律と対応するデータ(ガイドメロディ)との比較機能を持たせたものがある。(例えば、特許文献1)
【特許文献1】特開平10−69216号公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
このような採点機能を備えたカラオケ装置によって、1音を単位としてノートごとの音量変化を比較して採点することが可能になったが、この採点機能は、MIDI(Musical Instruments Digital Interface:登録商標)形式でデータ化されたガイドメロディを基準にして、歌唱者の歌唱音声と比較していたため、楽譜上の音符を基準にした採点に止まっていた。しかしながら、実際の歌唱は、一つの音符内でも音量が多様に変化する。例えば、一つのノート内においても音を徐々に大きくするクレッシェンドや、音を短く切るスタッカートなどの技法があり、ノート内で音量が多様に変化する。
そのため、ガイドメロディを基準に採点した場合、見本となる歌唱(以下、ガイドボーカルという)に近い歌い方をする歌唱者とそうでない歌唱者とで、実際の巧拙にあった採点結果がでないことがあった。
【0004】
本発明は、上述の事情を鑑みてなされたものであり、カラオケ曲のノート内の音量変化について、ガイドボーカルと歌唱者の歌唱音声とを比較評価する音声評価装置を提供することを目的とする。
【課題を解決するための手段】
【0005】
上述の課題を解決するため、本発明は、楽曲の歌声を示す第1の音声データと前記歌声の音声の区切りを示す音声区切りデータとを記憶する記憶手段と、楽曲の進行に応じて前記記憶手段から前記第1の音声データと前記音声区切りデータとを読み出す読出手段と、歌唱者の音声が入力され、入力された音声を第2の音声データに変換して出力する音声入力手段と、前記読出手段が読み出した前記第1の音声データと前記音声区切りデータを参照して、前記第2の音声データを解析し、前記第1の音声データが示す音声の音節に対応する音節部分を前記第2の音声データから切り出す音節対応付け手段と、前記第1、第2の音声データについて、前記音節対応付け手段によって対応付けられた音節部分毎に音量の変化の態様を比較し、その比較結果に対応する評価を行う評価手段とを具備することを特徴とする音声評価装置を提供する。
【0006】
また、別の好ましい態様において、前記音節対応付け手段は、対応付けた音節部分に該当する前記第1、第2の音声データについて、当該第2の音声データの時間幅を当該第1の音声データの時間幅と同じになるように伸縮させてもよい。
【0007】
また、別の好ましい態様において、前記評価手段は、前記音節対応付け手段によって対応付けられた音節部分毎に所定レベルの音量をしきい値として区間に分割し、前記しきい値より小さい音量と判断された区間の長さまたは前記しきい値より大きい音量と判断された区間の長さに基づいて評価を行ってもよい。また、前記評価手段は、前記音節対応付け手段によって対応付けられた音節部分毎に、当該音節部分の音量に基づいて前記しきい値を自動設定してもよい。さらに、音節部分毎の音量が前記しきい値を上回るまでの期間は評価から除外してもよい。
【0008】
また、別の好ましい態様において、前記評価手段は、前記音節対応付け手段によって対応付けられた音節部分毎に、当該音節部分の音量変化率を抽出して比較してもよい。
【発明の効果】
【0009】
歌唱者音声データの時間軸を伸縮しガイドボーカルデータの時間軸と合わせ、音節区切りデータで区切られた音節ごとの音量変化を比較することで、各音節内の微妙な変化についても評価を行うことができる。
【発明を実施するための最良の形態】
【0010】
以下、本発明の一実施形態について説明する。
【0011】
<実施形態>
図1は、この発明の一実施形態に係る音声評価装置としてのカラオケ装置1のハードウェア構成を例示したブロック図である。CPU(Central Processing Unit)11は、ROM(Read Only Memory)12または記憶部14に記憶されているコンピュータプログラムを読み出してRAM(Random Access Memory)13にロードし、これを実行することにより、カラオケ装置1の各部を制御する。記憶部14は、例えばハードディスクなどの大容量の記憶手段であり、楽曲データ記憶領域14aと、歌唱者音声データ記憶領域14bを有している。表示部15は、例えば液晶ディスプレイなどであり、CPU11の制御の下で、カラオケ装置1を操作するためのメニュー画面や、背景画像に歌詞テロップを重ねたカラオケ画面などの各種画面を表示する。操作部16は、各種のキーを備えており、押下されたキーに対応した信号をCPU11へ出力する。マイクロフォン17は、歌唱者が発音した音声を収音する。音声処理部18は、マイクロフォン17によって収音された音声をA/D変換してCPU11に供給する。スピーカ19は、音声処理部18に接続されており、音声処理部18から出力される音声信号をもとに放音する。
【0012】
楽曲データ記憶領域14aには、カラオケ曲の楽曲データが複数記憶されており、各楽曲データは、ガイドメロディトラック、伴奏データトラック、歌詞データトラック、ガイドボーカルトラック、音節区切りデータトラックを有している。
【0013】
ガイドメロディトラックは、楽曲のボーカルパートのメロディを示すデータであり、各ノートについてのノートオン(発音の指令)、ベロシティ(音の強さ)、ノートオフ(消音の指令)などのイベントデータと次のイベントデータを読み込んで実行するまでの時間を示すデルタタイムデータを有している。伴奏データトラックは、各伴奏楽器の複数のトラックから構成されており、各楽器のトラックは上述したガイドメロディトラックと同様のデータ構造を有している。なお、本実施形態の場合、MIDI(登録商標)形式のデータが記憶されている。
【0014】
歌詞データトラックは、楽曲の歌詞を示しているテキストデータ、歌詞の改行を示す改行データ、および歌詞の一文字毎にワイプ開始時刻を示すワイプ開始時刻データを有している。そして、カラオケ装置によって再生され、画面に歌詞テロップが表示されているときは、歌詞の1文字は対応するワイプ開始時刻になると当該文字の左側から色を変化させ始めて、次の文字ワイプ開始時刻に達すると、その文字全体について色の変化が完了するよう色替え制御される。この場合、ワイプ開始時刻データは、改行データにも設けられており、行の最後に表示される文字については、当該文字のワイプ開始時刻データと改行データのワイプ開始時刻データの時間間隔が、当該文字の色替え時間となる。各文字の色が変化するスピードは、文字の横方向のドット数と色替え時間(当該文字のワイプ開始時刻と次の文字のワイプ開始時刻の時間差)から決定される。
【0015】
ガイドボーカルトラックは、見本となる歌手の歌声を記録した音声データ(以下、ガイドボーカルデータという)であって、例えば、WAVE形式やMP3(MPEG Audio Layer-3)形式などの音声データである。音節区切りデータトラックは、図2に示すように、ガイドボーカルを音節ごとに区切る時刻を示す音節区切りデータであり、t、t、t・・・として各音節が発声される時刻を示している。ここで、図の縦軸はガイドボーカルの音量であり、横軸はガイドボーカルの進行を示す時間軸を表し、それぞれの音節に対応する歌詞を図の上部に対応させて表している。なお、ガイドボーカルデータにフレーム番号やサンプリング番号などの情報が付されている場合には、それらを時刻情報の代わりに用いて音節区切りデータとしてもよい。
【0016】
歌唱者音声データ記憶領域14bには、マイクロフォン17から音声処理部18を経てA/D変換された音声データ(以下、歌唱者音声データという)が、例えばWAVE形式やMP3形式などで時系列に記憶される。
【0017】
次に、CPU11が、ROM12または記憶部14に記憶されたコンピュータプログラムを実行することによって実現する機能について説明する。図3は、CPU11が実現する機能を示したブロック図である。
【0018】
図において、ガイドボーカル音量抽出部2は、楽曲データ記憶領域14aからガイドボーカルデータおよび音節区切りデータを読み出し、当該ガイドボーカルの音量を抽出して、ガイドボーカル音量データを作成する機能、および音節区切りデータが有している音節区切り時刻によって音節ごとに当該ガイドボーカル音量データを分割して、全ての音節に対して、ガイドボーカル音節単位音量データを生成する機能を有している。例えば、図2に示すように、音節「あ」に対応するガイドボーカル音節単位音量データは、tからtの間の時間の音量の変化を示す音量データである。
【0019】
ガイドボーカル無音領域抽出部3は、ガイドボーカル音節単位音量データに基づいて歌唱者音声と比較するための基準データとして、各音節について無音領域時間を抽出し、音節ごとに無音領域時間を対応させた無音領域基準データを作成する機能を有している。例えば、n番目の音節のガイドボーカル音節単位音量データが図4(a)に示すような音量変化を示している場合は、音量がスレッショルド音量Vnth以下に下がった時刻tnthになったところから無音領域とみなし、次の音節の区切り時刻tn+1までの無音領域時間tnoff=tn+1−tnthをn番目の音節の無音領域基準データとして作成する。ここで、スレッショルド音量Vnthは、例えば以下のように自動設定する。図4(a)に示すようなn番目の音節内の音量変化を所定の時間単位で分割したフレーム単位に分け、各音量の発生頻度をフレーム数で表すと、図4(b)のようなヒストグラムで表すことができる。ここで、n番目の音節の音量最小値をVnminとし、音量の中央値をVnmedとすると、スレッショルド音量Vnthは(Vnmin+Vnmed)/2として自動設定する。このようにスレッショルド音量を決めると、マイクロフォン17に入り込む周囲の雑音などの影響を受けにくくなり、正確な検出ができる。なお、周囲の雑音の音量が一定に保たれている場合は、スレッショルド音量をある一定水準として決めておいてもよい。
【0020】
アライメント部4は、ガイドボーカルと歌唱者音声の音節の時間的なずれの調整を行う機能を有している。図5に示すように、ガイドボーカル(図5(a))と歌唱者音声(図5(b))にずれが発生している場合、両者を正確に比較するために、ガイドボーカルと時間軸を合わせるように、歌唱者音声の時間軸を伸縮させてDTW(Dynamic Time Warping:時間正規化)を行う必要がある。本実施形態ではこのDTWを行うための手法としてDP(Dynamic Programming:動的計画法)マッチングを用いる。具体的には以下のような処理となる。
【0021】
アライメント部4は、図6に示すような座標平面(以下、DPプレーンという)をRAM13に形成する。このDPプレーンの縦軸は、ガイドボーカルデータをそれぞれ所定時間長のフレーム単位に分離してその各々に対してFFT(Fast Fourier Transform)を施して得られたスペクトルについて、各フレームのスペクトルの絶対値の対数に逆フーリエ変換をかけて得られるパラメータに対応しており、横軸は、同様にして得られた歌唱者音声データのスペクトルについて、各フレームから得たスペクトルの絶対値の対数に逆フーリエ変換をかけて得られるパラメータに対応している。図6において、a1、a2、a3・・・anは、ガイドボーカルデータの各フレームを時間軸に従って並べたものであり、b1、b2、b3・・・bnは、歌唱者音声データの各フレームを時間軸に従って並べたものである。縦軸のa1、a2、a3・・・anの間隔と横軸のb1、b2、b3・・・bnの間隔は、いずれもフレームの時間長と対応している。このDPプレーンにおける各格子点の各々には、a1、a2、a3・・・の各パラメータと、b1、b2、b3・・・の各パラメータのユークリッド距離を夫々示す値であるDPマッチングスコアが対応付けられている。例えば、a1とb1とにより位置決めされる格子点には、ガイドボーカルデータの一連のフレームのうち最初のフレームから得たパラメータと歌唱者音声データの一連のフレームのうち最初のフレームから得たパラメータのユークリッド距離を示す値が対応付けられることになる。アライメント部4は、このような構造を成すDPプレーンを形成した後、a1とb1とにより位置決めされる格子点(始端)からanとbnとにより位置決めされる格子点(終端)に至る全経路を探索し、探索した経路ごとに、その始端から終端までの間に辿る各格子点のDPマッチングスコアを累算して行き、最小の累算値を求める。このDPマッチングスコアの累算値が最も小さくなる経路は、歌唱者音声データの各フレームの時間軸をガイドボーカルデータの時間軸に合わせて伸縮する際における伸縮の尺度として参酌される。
【0022】
そして、アライメント部4は、DPマッチングスコアの累算値が最小となる経路をDPプレーン上から特定し、特定した経路の内容に応じて歌唱者音声データの時間軸を伸縮する処理であるアライメント処理を行う。具体的には、DPプレーン上から特定された経路上の各格子点のDPマッチングスコアが時間軸上の位置を同じくするフレームから得たパラメータのユークリッド距離を表わすものとなるように、歌唱者音声データの各フレームのタイムスタンプの内容を書き換えた上で、時間軸上の位置を同じくする各フレームを組として順次対応付けていく。例えば、図6に示すDPプレーン上に記された経路においては、a1とb1により位置決めされる始点からその右上のa2とb2により位置決めされる格子点に進んでいることが分かる。この場合、a2とb2のフレームの時間軸上の位置は当初から同じであるので、b2のフレームのタイムスタンプの内容を書き換える必要はない。更に、この経路においては、a2とb2により位置決めされる格子点からその右のa2とb3により位置決めされる格子点に進んでいることが分かる。この場合、b2のフレームだけでなくb3のフレームもa2のフレームと時間軸上の位置を同じくする必要があるので、b3のフレームと対を成していたタイムスタンプをフレーム一つ分だけ早いものと置き換える。この結果、a2のフレームとb2及びb3のフレームが時間軸上の位置を同じくするフレームの組として対応付けられることになる。このようなタイムスタンプの置き換えとフレームの対応付けがb1からbnに至る全フレーム区間について行われる。これにより、例えば図5(b)に示すように、歌唱者音声の発音時刻がガイドボーカルの発音時刻とずれている部分があったとしても、歌唱者音声データの時間軸をガイドボーカルデータの時間軸に合わせて伸縮し、図5(c)に示すように時間軸をあわせることができる。以上がDPマッチングの仕組みである。
【0023】
歌唱者音声音量抽出部5は、アライメント部4で得られた時間伸縮を行った歌唱者音声データについて、ガイドボーカル音量抽出部2と同様に、当該歌唱者音声の音量を抽出して、歌唱者音声音量データを作成する機能および音節ごとに歌唱者音声音節単位音量データを生成する機能を有している。
【0024】
歌唱者音声無音領域抽出部6は、ガイドボーカル無音領域抽出部3と同様に、歌唱者音声音節単位音量データに基づいて、各音節について無音領域時間(例えばn番目の音節ならt’noffとする)を抽出し、音節ごとに無音領域時間を対応させた歌唱者音声無音領域データを作成する機能を有している。
【0025】
比較評価部7は、ガイドボーカル無音領域抽出部3から無音領域基準データを、歌唱者音声無音領域抽出部6から歌唱者音声無音領域データを取得し、ガイドボーカルと歌唱者音声について、それぞれを音節ごとに無音領域時間を比較して、当該音節の音の長さについての評価を行う機能を有している。例えば、図5(a)に示すガイドボーカルの3番目の音節に対応する無音領域時間t3offと図5(c)に示す時間伸縮を行った歌唱者音声の3番目の音節に対応する無音領域時間t’3offとを比較して、t3off>t’3offなら3番目の音節については、歌唱者音声の無音領域時間が短い、すなわち音の発声時間が長いと評価する。
【0026】
次に、カラオケ装置1の動作について説明する。練習者は、カラオケ装置1の操作部16を操作して歌唱したい曲を選定し、伴奏の再生を指示する。CPU11は、この指示に応じて処理を開始する。CPU11は、まず、指定された曲の伴奏データトラックを楽曲データ記憶領域14aから読み出し、音声処理部18に供給する。音声処理部18は、供給された伴奏データをアナログ音声信号に変換してスピーカ19に供給して放音させる。このとき、CPU11は表示部15を制御して、歌詞データトラックを楽曲データ記憶領域14aから読み出し、読み出した歌詞を表示し、楽曲の進行に合わせて歌詞の文字を色替えしていく。歌唱者は、スピーカ19から放音される伴奏に合わせて歌唱を行う。このとき、歌唱者の音声はマイクロフォン17によって収音されて音声信号に変換され、音声処理部18へと供給される。そして、音声処理部18によってA/D変換された歌唱者音声データは、記憶部14の歌唱者音声データ記憶領域14bに時系列に記憶されていく。
【0027】
伴奏データの再生が終了すると、CPU11は、アライメント部4の処理を行う。すなわち、楽曲データ記憶領域14aからガイドボーカルデータを読み出し、歌唱者音声データ記憶領域14bから読み出した歌唱者音声データを読み出す。そして、DPマッチングによって、ガイドボーカルデータの時間軸と合うように歌唱者音声データの時間軸を伸縮させ、歌唱者音声データのタイムスタンプを書き換え、記憶部14の歌唱者音声データ記憶領域14bに記憶する。
【0028】
次に、CPU11は、ガイドボーカル音量抽出部2、および歌唱者音声音量抽出部5の処理を行う。つまり、ガイドボーカル音量抽出部2は、楽曲データ記憶領域14aから読み出したガイドボーカルデータと音節区切りデータを元に、ガイドボーカルの全ての音節ごとに、当該音節と対応付けてガイドボーカル音節単位音量データを生成し、記憶部14の所定のエリアに記憶させる。また、同様にして、歌唱者音声音量抽出部5は、タイムスタンプを書き換えた歌唱者音声データについて、音節ごとに、当該音節と対応付けて歌唱者音声音節単位音量データを生成し、記憶部14の所定のエリアに記憶させる。
【0029】
次に、CPU11は、ガイドボーカル無音領域抽出部3、および歌唱者音声無音領域抽出部6の処理を行う。ガイドボーカル無音領域抽出部3は、記憶部14の所定のエリアに記憶された全ての音節に対するガイドボーカル音節単位音量データを読み出し、ガイドボーカルの全ての音節に対して、それぞれスレッショルド音量を算出し、全ての音節に対しての無音領域時間を算出し無音領域基準データとして記憶部14の所定のエリアに記憶させる。また、同様にして、歌唱者音声無音領域抽出部6は、記憶部14の所定のエリアに記憶された全ての音節に対する歌唱者音声音節単位データを読み出し、歌唱者音声の全ての音節に対して、それぞれスレッショルド音量を算出し、全ての音節に対しての無音領域時間を算出し、歌唱者音声無音領域データとして記憶部14の所定のエリアに記憶させる。
【0030】
次に、CPU11は、比較評価部7の処理を行う。比較評価部7は、記憶部14の所定のエリアに記憶された無音領域基準データおよび歌唱者音声無音領域データを読み出し、各々の音節ごとに両者の無音領域時間を比較する。そして、歌唱者音声の各音節について、ガイドメロディの各音節の無音領域時間と比較し、ずれの量を判断することにより、歌唱者音声の採点に反映させる。また、歌唱者に指導するために、どの音節がどのようにずれているのかを表示部15に表示させてもよい。その場合は、例えば図7に示すように、歌詞の音節ごとに当該音節の無音領域時間がわかるように表示すればよい。ここで、横軸は歌詞の各音節を表している。また、縦軸は各音節の無音領域時間を音節区切りデータによって区切られた当該音節の全体の時間で規格化したものであり、数値が大きいほど音節の無音領域時間が長い、すなわち発音時間が短いことを意味し、n番目の音節の無音領域時間は、tnoff/(tn+1−t)として、表示されている。また、ガイドボーカルは先生の音声、歌唱者音声は生徒の音声として扱われている。
【0031】
このように、歌唱者音声データの時間軸を伸縮しガイドボーカルデータの時間軸と合わせ、音節区切りデータで区切られた音節ごとの音量変化を比較することで、各音節内の微妙な変化についても評価を行うことができる。そのため、精度の高い採点結果を出すことができ、さらに直したほうがよい点については、音節ごとに修正点を明示して指導をすることができる。
【0032】
以上、本発明の実施形態について説明したが、例えば、上述した実施形態を以下のように変形して本発明を実施してもよい。
【0033】
<変形例1>
実施形態においては、ガイドボーカルと歌唱者音声について音節の音の長さを比較するようにしていたが、音の大きさの変化として、徐々に大きくなるクレッシェンドや徐々に小さくなるデクレッシェンドについて評価を行ってもよい。この場合は、実施形態の無音領域を抽出する代わりに、図8に示すように、各音節内の音量変化率αを各音節の音量変化を抜き出して1次近似などにより抽出するようにして、ガイドボーカルと歌唱者音声を比較すればよい。ここで、音量変化率を比較する対象となる区間は、例えば、図8に示すように、音節の占有する時間を100%とした場合、当該音節が発音された時刻から30%の時間を加えた時刻tnsから70%の時間を加えた時刻tneまでの時間などと適宜設定すればよい。このようにすると、各音節内の抑揚についても評価することができ、より精度の高い採点結果を出すことができる。
【0034】
<変形例2>
実施形態においては、音節区切りデータは楽曲ごとに事前に作成されていたが、ガイドボーカルデータから得られるスペクトルやピッチの検出・非検出状態から音節区切りデータを自動的に作成するようにしてもよい。このようにすると、数多くの楽曲に対して音節区切りデータを作成する手間が省くことができる。
【0035】
<変形例3>
実施形態においては、ガイドボーカルと歌唱者音声の無音領域時間を抽出して各々を比較していたが、スレッショルド音量以上の音量になっている領域のみを検出して、音節が発音されているとみなす有音領域時間を抽出して比較してもよい。また、無音領域以外の部分を有音領域とみなしてもよい。
【0036】
<変形例4>
実施形態においては、DPマッチングによって、歌唱者音声データの時間軸をガイドボーカルデータの時間軸に合わせて伸縮して時間軸をあわせて、音節区切りデータによって歌唱者音声を音節ごとに区切っていたが、ガイドボーカルデータと歌唱者音声データのスペクトルやピッチの比較を行って、ガイドボーカルの各音節に対応する歌唱者音声の音節の検出を行って、歌唱者音声を音節に区切ってもよい。この場合はガイドボーカルと歌唱者音声の音節についてはそれぞれ時間軸が揃っていないため、音節全体の占有する時間に対する無音領域時間の割合として比較すればよい。
【図面の簡単な説明】
【0037】
【図1】本発明の実施形態に係る音声評価装置であるカラオケ装置のハードウェアの構成を示すブロック図である。
【図2】音節区切りデータが有する音節を区切る時刻を示す説明図である。
【図3】本発明の実施形態に係る音声評価装置であるカラオケ装置のソフトウェアの構成を示すブロック図である。
【図4】無音領域時間の検出方法を示す説明図である。
【図5】歌唱者音声データの時間の伸縮を示す説明図である。
【図6】DPマッチングを行う際のDPプレーンを示す説明図である。
【図7】歌唱者音声の評価結果が表示される画面の例を示す説明図である。
【図8】変形例1に係る音声評価方法である音量変化率を示す説明図である。
【符号の説明】
【0038】
1…カラオケ装置、2…ガイドボーカル音量抽出部、3…ガイドボーカル無音領域抽出部、4…アライメント部、5…歌唱者音声音量抽出部、6…歌唱者音声無音領域抽出部、7…比較評価部、11…CPU、12…ROM、13…RAM、14…記憶部、14a…楽曲データ記憶領域、14b…歌唱者音声データ記憶領域、15…表示部、16…操作部、17…マイクロフォン、18…音声処理部、19…スピーカ

【特許請求の範囲】
【請求項1】
楽曲の歌声を示す第1の音声データと前記歌声の音声の区切りを示す音声区切りデータとを記憶する記憶手段と、
楽曲の進行に応じて前記記憶手段から前記第1の音声データと前記音声区切りデータとを読み出す読出手段と、
歌唱者の音声が入力され、入力された音声を第2の音声データに変換して出力する音声入力手段と、
前記読出手段が読み出した前記第1の音声データと前記音声区切りデータを参照して、前記第2の音声データを解析し、前記第1の音声データが示す音声の音節に対応する音節部分を前記第2の音声データから切り出す音節対応付け手段と、
前記第1、第2の音声データについて、前記音節対応付け手段によって対応付けられた音節部分毎に音量の変化の態様を比較し、その比較結果に対応する評価を行う評価手段と
を具備することを特徴とする音声評価装置。
【請求項2】
前記音節対応付け手段は、対応付けた音節部分に該当する前記第1、第2の音声データについて、当該第2の音声データの時間幅を当該第1の音声データの時間幅と同じになるように伸縮させることを特徴とする請求項1に記載の音声評価装置。
【請求項3】
前記評価手段は、前記音節対応付け手段によって対応付けられた音節部分毎に所定レベルの音量をしきい値として区間に分割し、前記しきい値より小さい音量と判断された区間の長さまたは前記しきい値より大きい音量と判断された区間の長さに基づいて評価を行うことを特徴とする請求項1または請求項2に記載の音声評価装置。
【請求項4】
前記評価手段は、前記音節対応付け手段によって対応付けられた音節部分毎に、当該音節部分の音量に基づいて前記しきい値を自動設定することを特徴とする請求項3に記載の音声評価装置。
【請求項5】
前記評価手段は、音節部分毎の音量が前記しきい値を上回るまでの期間は評価から除外することを特徴とする請求項3または請求項4に記載の音声評価装置
【請求項6】
前記評価手段は、前記音節対応付け手段によって対応付けられた音節部分毎に、当該音節部分の音量変化率を抽出して比較することを特徴とする請求項1または請求項2に記載の音声評価装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2008−39833(P2008−39833A)
【公開日】平成20年2月21日(2008.2.21)
【国際特許分類】
【出願番号】特願2006−209920(P2006−209920)
【出願日】平成18年8月1日(2006.8.1)
【出願人】(000004075)ヤマハ株式会社 (5,930)
【Fターム(参考)】