説明

音声評価装置,音声評価方法,及びプログラム

【課題】楽曲の演奏に合わせた歌唱に対する評価として、人にとっての聴き取りやすさを評価すること。
【解決手段】音声評価処理では、聴覚感度特性を取得し(S120)、カラオケ演奏処理によって対象楽曲の評価対象区間が演奏されている間に入力された音声の波形を表す歌唱波形データvwを取得し(S150)、音圧を正規化する。その正規化された歌唱波形nvwのパワースペクトルPSPを求め(S180)、そのパワースペクトルPSP及び聴覚感度特性に基づいて、聴覚感度特性スコアSCを導出する(S190)。この聴覚感度特性スコアSCは、パワースペクトルPSPにおける周波数fiごとに、聴覚感度特性の感度を乗算した結果を、周波数軸方向に積分したものであり、正規化歌唱波形nvwのパワースペクトルPSPの包絡と、帯域制限特性の感度の包絡との類似性が高い(即ち、両者の差が小さい)ほど、大きな値となる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、楽曲の演奏中に入力された音を評価する音声評価装置,音声評価方法,及びプログラムに関する。
【背景技術】
【0002】
従来、カラオケ装置の付帯機能として、歌唱力を評価する評価機能(即ち、採点機能)が知られている。この種の評価機能では、採点基準として楽曲ごとに予め用意された当該楽曲の歌唱すべき旋律を構成する音の音高の推移を表す採点基準データと、楽曲の演奏中に入力された音の音高との差分が小さいほど、高い得点を付与することがなされている(例えば、特許文献1参照)。
【0003】
つまり、特許文献1に記載された採点機能では、利用者が歌唱した結果、採点基準データによって表されている音高の推移を忠実に再現しているほど、評価が高くなる。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2004−184506号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
ところで、複数人で一台のカラオケ装置を利用し、さらに、上述した評価機能を用いる場合、当該カラオケ装置の利用者は、高い評価を得るために、採点基準データによって表される音高の推移を忠実に再現するように歌唱することが考えられる。このとき歌唱された音声は、評価機能によって高い評価が得られるものの、歌唱中の利用者以外の他の利用者にとって聴き取り難い可能性があった。
【0006】
つまり、特許文献1に記載された評価機能では、人にとって聴き取りにくい歌声であっても、高い評価が得られ、音声を聞いた人による評価と、当該評価機能による評価との間に乖離が生じるという問題があった。
【0007】
そこで、本発明は、楽曲の演奏に合わせた歌唱に対する評価として、人にとっての聴き取りやすさを評価することを目的とする。
【課題を解決するための手段】
【0008】
上記目的を達成するためになされた本発明の音声評価装置では、特性取得手段が、人の聴覚の周波数特性を表す聴覚感度特性を取得し、音声波形取得手段が、楽曲の1つである対象楽曲の演奏中に入力された音の波形を表す音声波形を取得する。
【0009】
さらに、周波数成分強度分布導出手段が、音声波形取得手段で取得した音声波形に含まれる周波数、及び各周波数成分の強さを表す周波数成分強度分布を導出し、その周波数成分強度分布における周波数成分の強さの平均値が、予め規定された規定値に一致するように、正規化手段が、当該周波数成分強度分布における周波数成分の強さを正規化する。
【0010】
そして、評価手段が、特性取得手段で取得した聴覚感度特性と、正規化手段で正規化された周波数成分強度分布とに基づいて導出された音声パワーが大きいほど、高い評価を出力する。なお、ここでいう“音声パワー”とは、正規化された周波数成分強度分布と聴覚
感度特性との差が小さいほど、大きな値となる指標である。
【0011】
換言すれば、本発明の音声評価装置では、対象楽曲の演奏中に入力された音の周波数成分強度分布におけるスペクトル包絡が聴覚感度特性に合致するほど、評価が高くなり、スペクトル包絡が聴覚感度特性に合致しないほど、評価が低くなる。
【0012】
この結果、本発明の音声評価装置によれば、楽曲の演奏に合わせた歌唱に対する評価として、人にとっての聴き取りやすさを評価でき、当該音声評価装置による評価が、音声を聞いた人による評価から乖離することを低減できる。
【0013】
ここでいう聴覚感度特性とは、例えば、いわゆるA特性であっても良いし、この他に、B特性やC特性であっても良い。
【0014】
また、このような音声評価装置によれば、音声波形取得手段で取得した音声波形の振幅、即ち、入力された音の音圧に拘わらず、その音の人にとっての聴き取りやすさを評価できる。
【0015】
さらに、本発明の音声評価装置においては、楽譜データ取得手段が、対象楽曲の楽譜を表し、音源モジュールから出力される個々の出力音について、少なくとも音高及び出力開始タイミングが規定された楽譜データを取得し、帯域特定手段が、楽譜データ取得手段で取得した楽譜データに基づいて、対象楽曲の少なくとも一部の区間における最低音高から最高音高までの周波数帯域である楽曲音域を導出し、該楽曲音域に含まれる1つの出力音の音高から該1つの出力音を基音とした第規定倍音の音高までの周波数帯域を表す音声成分帯域を楽曲音域に加えた音域である歌唱音声帯域を特定しても良い。
【0016】
この場合、特性取得手段は、聴覚感度特性のうちの帯域特定手段にて特定された歌唱音声帯域に対応する周波数帯域での周波数特性を、聴覚感度特性として取得しても良い(請求項2)。
【0017】
このような音声評価装置によれば、聴覚感度特性を構成する周波数特性のうち、対象楽曲に対して発声される可能性が高い周波数帯域における周波数特性を用いて入力音を評価するため、当該評価をより適切なものとすることができる。
【0018】
なお、ここでいう「第規定倍音」とは、2以上の自然数倍の倍音である。さらに、「1つの出力音」は、楽曲音域に含まれる音高(周波数)に対応する出力音であれば、どの音高に対応する音であっても良いが、楽曲音域における最高音高に対応する出力音であることがより好ましい。
【0019】
また、ここでいう「対象楽曲の少なくとも一部の区間」とは、対象楽曲の時間軸に沿った全区間であっても良い。
【0020】
一般的な楽曲では、その楽曲における時間軸に沿って、楽曲音域が変化する。
【0021】
このため、本発明の音声評価装置では、帯域特定手段が、対象楽曲の時間進行に沿って、一部の区間として規定された区間ごとに歌唱音声帯域を順次特定し、特性取得手段が、帯域特定手段にて歌唱音声帯域が特定されるごとに、該歌唱音声帯域に対応する周波数帯域での周波数特性を、聴覚感度特性として取得しても良い(請求項3)。
【0022】
このような音声評価装置によれば、入力音波形を聴覚感度特性フィルタに通した出力レベル(即ち、聴覚感度特性と周波数成分強度分布との差)の導出は、区間ごとに必要な周
波数帯域に対して実行されることになり、当該一致度の導出に必要な処理量を最小限とすることができる。
【0023】
ところで、本発明は、音声を評価する方法(即ち、音声評価方法)としてなされていても良い(請求項4)。
【0024】
この場合、本発明の音声評価方法では、特性取得過程にて、人の聴覚の周波数特性を表す聴覚感度特性を取得し、音声波形取得過程にて、楽曲の1つである対象楽曲の演奏中に入力された音の波形を表す音声波形を取得する。そして、周波数成分強度分布導出過程にて、音声波形取得過程で取得した音声波形に含まれる周波数、及び各周波数成分の強さを表す周波数成分強度分布を導出し、その導出した周波数成分強度分布における周波数成分の強さの平均値が、予め規定された規定値に一致するように、正規化過程にて、周波数成分強度分布における周波数成分の強さを正規化する。
【0025】
さらに、評価過程にて、特性取得過程で取得した聴覚感度特性と、正規化過程で正規化された周波数成分強度分布とに基づいて導出された音声パワーが大きいほど、高い評価を出力する。
【0026】
このような音声評価方法であれば、請求項1に記載された音声評価装置と同様の効果を得ることができる。
【0027】
さらには、本発明は、プログラムとしてなされていても良い(請求項5)。
【0028】
この場合、本発明のプログラムは、聴覚感度特性を取得する特性取得手順と、音声波形を取得する音声波形取得手順と、音声波形取得手順で取得した音声波形の周波数成分強度分布を導出する周波数分布導出手順と、周波数成分強度分布を正規化する正規化手順と、特性取得手順で取得した聴覚感度特性と、正規化手順で正規化された周波数成分強度分布とに基づいて導出された音声パワーが大きいほど、高い評価を出力する評価手順とをコンピュータに実行させる必要がある。
【0029】
このようなプログラムによれば、例えば、DVD−ROM、CD−ROM、ハードディスク等のコンピュータ読み取り可能な記録媒体に記録し、必要に応じてコンピュータにロードさせて起動することや、必要に応じて通信回線を介してコンピュータに取得させて起動することによって用いることができる。そして、コンピュータに各手順を実行させることで、そのコンピュータを、請求項1に記載された音声評価装置として機能させることができる。
【図面の簡単な説明】
【0030】
【図1】本発明が適用されたカラオケシステムの概略構成を示すブロック図である。
【図2】音声評価処理の処理手順を示すフローチャートである。
【図3】歌唱音声帯域の決定手法を説明する図である。
【図4】聴覚感度特性に対する帯域制限を説明する図である。
【図5】聴覚感度特性スコアの導出方法を説明する図である。
【発明を実施するための形態】
【0031】
以下に本発明の実施形態を図面と共に説明する。
【0032】
まず、図1は、カラオケ用に予め加工された楽曲(以下、カラオケ楽曲とする)の演奏に応じてユーザが歌唱するためのカラオケシステムの概略構成を示すブロック図である。
【0033】
〈カラオケシステム全体の構成〉
図1に示すように、カラオケシステム1は、ユーザによって指定されたカラオケ楽曲の再生を行うカラオケ装置20と、カラオケ楽曲の再生に必要なデータである楽曲MIDIデータをカラオケ装置20に配信するサーバ30とを備え、それらカラオケ装置20とサーバ30とはネットワーク(例えば、専用回線や、WAN等)を介して接続されている。つまり、カラオケシステム1は、いわゆる通信カラオケシステムとして構成されている。
【0034】
このうち、サーバ30は、カラオケ楽曲の演奏に必要な処理プログラム(以下、カラオケ処理プログラムと称す)及び楽曲MIDIデータを格納する記憶装置(図示せず)と、ROM,RAM,CPUを少なくとも有した周知のマイクロコンピュータ(図示せず)とを備えた情報処理装置を中心に構成された周知のカラオケサービス用サーバ装置である。
【0035】
ところで、楽曲MIDIデータは、例えば、MIDI(Musical Instrument Digital Interface)フォーマットにて記述された周知のカラオケ再生用データであり、カラオケ楽曲それぞれについて予め用意されている。
【0036】
その楽曲MIDIデータには、カラオケ楽曲を識別するためのデータである楽曲情報と、対応するカラオケ楽曲1曲を再生演奏するために要する時間を示す時間情報と、対応するカラオケ楽曲についてユーザが歌唱すべき旋律(以下、歌唱旋律とする)に関するデータであるガイドメロディと、そのカラオケ楽曲の歌詞に関するデータである歌詞情報とが少なくとも含まれている。
【0037】
そして、楽曲情報には、カラオケ楽曲を特定するための曲番号データと、曲名を示す曲名データとが少なくとも含まれている。
【0038】
また、ガイドメロディは、歌唱旋律としてのカラオケ楽曲の主旋律を形成する各構成音について、それぞれの音高及び音長が表されたものである。具体的に、本実施形態における各構成音の音長は、楽音出力開始時間(いわゆるノートオンタイミング)及び楽音出力終了時間(いわゆるノートオフタイミング)によって表されている。ただし、ここでいう楽音出力開始時間とは、その構成音の出力が開始されるまでのカラオケ楽曲の演奏開始からの時間であり、楽音出力終了時間とは、その構成音の出力が終了されるまでのカラオケ楽曲の演奏開始からの時間である。
【0039】
〈カラオケ装置について〉
次に、カラオケ装置20の構成について説明する。
【0040】
このカラオケ装置20は、サーバ30との間でデータ通信を実行するための通信部22と、通信部22を介してサーバ30から取得したカラオケ処理プログラム及び楽曲MIDIデータを記憶する記憶部21と、各種画像を表示するための表示部23と、ユーザからの指示を受け付ける操作受付部24とを備えている。さらに、カラオケ装置20は、音声を入力するためのマイクロホン26と、マイクロホン26を介した音声の入力を制御する音声入力部25と、音を出力するためのスピーカ27と、スピーカ27からの音の出力を制御する音声出力部29と、カラオケ装置20を構成する各部21,22,23,24,25,29を制御する制御部28とを備えている。
【0041】
このうち、通信部22は、カラオケ装置20をネットワーク(例えば、専用回線や、WAN)に接続して外部と通信を行うための通信インタフェースであり、サーバ30に各種データを出力すると共に、サーバ30から各種データや処理プログラムを取得する。
【0042】
そして、表示部23は、例えば、液晶ディスプレイ等から構成された表示装置であり、
操作受付部24は、例えば、複数のキースイッチ等から構成された入力装置や、周知のリモコンを介して入力された指令を受け付ける受信装置などからなる。
【0043】
また、音声入力部25は、マイクロホン26を介して入力された音声(アナログ信号)をサンプリングし、そのサンプリング値(標本値)を制御部28に入力するAD変換器としての機能を含む構成である。
【0044】
そして、音声出力部29は、制御部28からの制御指令に基づいて、楽曲MIDIデータに従ってカラオケ楽曲を再生演奏する周知のMIDI音源としての機能を含む構成であり、マイクロホン26から入力されたユーザの歌声などを、再生演奏音にミキシングしてスピーカ27から出力させる構成である。
【0045】
さらに、記憶部21は、電源が切断されても記憶内容を保持すると共に記憶内容を読み書き可能に構成された記憶装置(例えば、ハードディスクドライブ)である。その記憶部21は、カラオケ処理プログラムを格納するプログラム格納領域と、楽曲MIDIデータを記憶する楽曲MIDIデータ格納領域とを少なくとも備えている。
【0046】
次に、制御部28は、電源が切断されても記憶内容を保持する必要のあるプログラムやデータを格納するROM28aと、プログラムやデータを一時的に格納するRAM28bと、ROM28aやRAM28bに記憶されたプログラムやデータに従って、カラオケ装置20を構成する各部21,22,23,24,25,29に対する制御及び各種演算を実行するCPU28cとを少なくとも有した周知のマイクロコンピュータを中心に構成されている。なお、RAM28bには、記憶部21から読み出されたカラオケ処理プログラムが記憶され、CPU28cは、RAM28bに記憶したカラオケ処理プログラムに従って各種処理を実行する。
【0047】
そのカラオケ処理プログラムとして、操作受付部24を介してユーザに指定されたカラオケ楽曲を再生演奏すると共に、表示部23に歌詞を表示する周知のカラオケ演奏処理を、制御部28が実行するためのカラオケ演奏処理プログラムがある。また、カラオケ処理プログラムとして、カラオケ演奏処理の実行中に入力された音声を評価する音声評価処理を、制御部28が実行するための音声評価処理プログラムがある。
【0048】
また、ROM28aには、音声評価処理において参照され、周波数特性に対する人の聴覚の感度を表す聴覚感度特性が格納されている。本実施形態における聴覚感度特性とは、例えば、A特性(JIS C 1509)である。なお、聴覚感度特性は、記憶部21に格納されていても良い。
【0049】
つまり、カラオケ装置20では、カラオケ演奏処理プログラムを制御部28が実行することで、ユーザによって指定されたカラオケ楽曲を再生演奏する共に、そのカラオケ楽曲の歌詞を表示部23に表示する。
【0050】
このとき、再生演奏されているカラオケ楽曲に応じてユーザが歌唱すると、カラオケ装置20では、カラオケ楽曲の再生演奏中に入力された歌唱音声を、そのカラオケ楽曲の再生音にミキシングしてスピーカ27から出力する。以下、操作受付部24を介してユーザに指定され、カラオケ演奏処理によって演奏が実施されるカラオケ楽曲を対象楽曲と称す。
【0051】
〈音声評価処理について〉
ここで、図2は、制御部28が実行する音声評価処理の処理手順を示すフローチャートである。
【0052】
この音声評価処理は、カラオケ演奏処理の実行前に、当該音声評価処理を実行する旨の指令が操作受付部24を介して入力されていると、カラオケ演奏処理の起動時に起動される。
【0053】
そして、音声評価処理は、起動されると、まず、対象楽曲に対応する楽曲MIDIデータを取得する(S110)。続いて、ROM28aに格納されている聴覚感度特性を取得する(S120)。
【0054】
さらに、対象楽曲において歌唱されるべき音域(以下、歌唱音声帯域と称す)を特定する(S130)。
【0055】
ここで、本実施形態のS130で実行する歌唱音声帯域の特定方法について説明する。このS130では、具体的には、S110にて取得した楽曲MIDIデータに対して予め規定された評価対象区間に含まれるガイドメロディの構成音の音高の中で、最も高い音高(以下、区間最高音高NNmaxと称す),最も低い音高(以下、区間最低音高NNminと称す)を抽出する。それら区間最高音高NNmax、及び区間最低音高NNminを、下記(1)式、及び下記(2)式に基づいて、周波数に変換する。以下、区間最高音高NNmaxに対応する周波数を周波数F0maxと称し、区間最低音高NNminに対応する周波数を周波数F0minと称す。
【0056】
【数1】

【0057】
さらに、下記(3)式に基づいて導出した、歌唱音声帯域の帯域下限周波数VFminと、下記(4)式に基づいて導出した、歌唱音声帯域の帯域上限周波数VFmaxに従って、歌唱音声帯域を特定する。
【0058】
【数2】

【0059】
すなわち、図3に示すように、周波数F0minを、歌唱音声帯域の帯域下限周波数VFminとし、周波数F0maxに音声成分帯域VFを加えた周波数を、歌唱音声帯域の帯域上限周波数VFmaxとした歌唱音声帯域を特定する。ただし、ここでいう音声成分帯域VFとは、周波数F0maxから、周波数F0maxの規定数倍の倍音成分に対応する周波数までの周波数帯域である。なお、音声成分帯域VFは、これに限るものではなく、予め規定された周波数帯域(例えば、電話の周波数帯域(3.4kHz))を音声成分帯域VFとしても良いし、カラオケシステム1に設けられた歌唱履歴から推定したカラオケ装置20の利用者の声帯域を音声成分帯域VFとしても良い。
【0060】
また、本実施形態における評価対象区間とは、対象楽曲において、評価の対象とする複
数の区間であり、例えば、対象楽曲中のフレーズや、Aメロ,Bメロ,サビといった単位の区間が規定されている。
【0061】
続いて、S120にて取得した聴覚感度特性に対して、歌唱音声帯域による帯域制限を加えた帯域制限特性LRA(fi(m))を導出する(S140)。具体的に、本実施形態のS140では、まず、S120にて取得した聴覚感度特性での感度ZA(fi(m))(図4(A)参照,単位[dB])を、下記(5)式に従ってパワーの倍率RA(fi(m))へと変換する。ただし、ここでの変数fi(m)は、周波数を表し、変数mは、周波数のインデックスを表す。
【0062】
【数3】

【0063】
本実施形態のS140では、図4(B)に示すように、S130にて特定した歌唱音声帯域での感度を(5)式にて変換されたパワーの倍率RA(fi(m))とし、歌唱音声帯域外での感度を“0”とした聴覚感度特性を、帯域制限特性LRA(fi(m))として導出する。
【0064】
そして、音声評価処理では、カラオケ演奏処理によって対象楽曲の評価対象区間が演奏されている間に、マイクロホン26を介して入力された音声の波形を表す歌唱波形データvw(k)を取得する(S150)。なお、歌唱波形データvwとは、音声入力部25にてサンプリング値へと変換された音声であり、符号“k”は、サンプリングした順番を表すインデックスである。
【0065】
続いて、S150にて取得した歌唱波形データvw(k)について、評価対象区間での平均パワーAPを導出する(S160)。
【0066】
本実施形態のS160では、具体的に、S150にて取得した歌唱波形データvw(k)を下記(6)式に代入することで、評価対象区間における歌唱波形データvwの平均パワーAPを導出する。
【0067】
【数4】

【0068】
ただし、(6)式中の符号K0は、当該評価対象区間における歌唱波形データvwのサンプリング数である。
【0069】
続いて、歌唱波形データvwの振幅を正規化した正規化歌唱波形nvwを導出する(S170)。
【0070】
具体的に、本実施形態のS170では、評価対象区間での歌唱波形データvwの平均パワーAPが、予め規定された規定値αとなるように、下記(7)式に、平均パワーAPを代入した上で、歌唱波形データvw(k)を時間軸に沿って順次代入する。
【0071】
【数5】

【0072】
さらに、正規化歌唱波形nvw(k)のパワースペクトルPSP(fi(m))を求める(図5(A)参照)(S180)。なお、パワースペクトルPSP(fi(m))とは、少なくとも、正規化歌唱波形nvwに含まれる周波数及び周波数成分の強さを表すもの(本発明の周波数成分強度分布に相当)であり、例えば、FFT(Fast Fourier Transform)によって導出する。
【0073】
そして、S180にて導出されたパワースペクトルPSP(fi(m))及び帯域制限特性LRAに基づいて、聴覚感度特性スコアSCを導出する(S190)。
【0074】
具体的に、本実施形態のS190では、下記(8)式に従って、聴覚感度特性スコアSC(本発明の音声パワーに相当)を導出する。
【0075】
【数6】

【0076】
すなわち、本実施形態のS190にて導出される聴覚感度特性スコアSCは、図5(B)に示すように、パワースペクトルPSPにおける周波数fi(m)ごとに、帯域制限特性LRA(fi(m))を乗算した(即ち、帯域制限特性LRA(fi(m))の感度によって重み付けした)結果を、周波数軸方向に積分したものである。したがって、聴覚感度特性スコアSCは、正規化歌唱波形nvwのパワースペクトルPSP(fi(m))の包絡と、帯域制限特性LRA(fi(m))の感度の包絡との類似性が高い(即ち、両者の差が小さい)ほど、大きな値となる。
【0077】
続いて、音声評価処理では、聴覚感度特性スコアSCを出力する(S200)。すなわち、本実施形態のS200では、S190にて導出した聴覚感度特性スコアSCを表示部23に表示する。
【0078】
さらに、対象楽曲に規定された評価対象区間のうち、時間軸に沿った最後の評価対象区間について、聴覚感度特性スコアSCを導出したか否かを判定し(S210)、その判定の結果、時間軸に沿った最後の評価対象区間について、聴覚感度特性スコアSCを導出していなければ、(S210:NO)、S130へと戻る。そのS130では、時間軸に沿った次の評価対象区間について、歌唱音声帯域を特定し、その後、S140以降のステップを実行する。
【0079】
一方、S210での判定の結果、時間軸に沿った最後の評価対象区間について、聴覚感度特性スコアSCを導出していれば、(S210:YES)、本音声評価処理を終了する。
【0080】
[実施形態の効果]
以上説明したように、上記実施形態の音声評価処理では、対象楽曲の演奏中に取得した歌唱波形データvwの周波数成分強度分布におけるスペクトル包絡が帯域制限特性LRA
(fi(m))の感度の包絡に合致するほど、当該歌唱波形データvwに対応する音声が人にとって聴き取りやすいものとして、聴覚感度特性スコアSCの値を大きく、即ち、高く評価する。一方、スペクトル包絡が帯域制限特性LRA(fi(m))の感度の包絡に合致しないほど、当該歌唱波形データvwに対応する音声が人にとって聴き取りにくいものとして、聴覚感度特性スコアSCの値を小さく、即ち、低く評価する。
【0081】
この結果、上記実施形態の音声評価処理によれば、対象楽曲の演奏に合わせた歌唱に対する評価として、人にとっての聴き取りやすさを評価でき、当該音声評価処理による評価が、音声を聞いた人による評価から乖離することを低減できる。
【0082】
特に、上記実施形態の音声評価処理では、聴覚感度特性スコアSCの導出を、歌唱波形データvwの振幅を正規化した上で実行している。この結果、音声評価処理によれば、歌唱波形データvwの振幅、即ち、入力された音の音圧に拘わらず、その音の人にとっての聴き取りやすさを評価できる。
【0083】
また、上記実施形態の音声評価処理では、聴覚感度特性スコアSCを導出する際に用いる聴覚感度特性に、評価対象区間にて発声される可能性が高い周波数帯域によって帯域制限を加えている(即ち、帯域制限特性LRA(fi(m))を生成している)。
【0084】
よって、音声評価処理によれば、入力された音声の評価を、評価対象区間にて発声される可能性が高い周波数帯域における周波数特性を用いて実施するため、当該評価をより適切なものとすることができる。
【0085】
しかも、音声評価処理では、対象楽曲における時間進行に沿って、帯域制限特性LRA(fi(m))を順次変更する。
【0086】
つまり、音声評価処理によれば、帯域制限特性LRAの生成を、評価対象区間ごとに必要な周波数帯域に対して実行することができ、聴覚感度特性スコアSCの導出に必要な処理量を最小限とすることができる。
【0087】
[その他の実施形態]
以上、本発明の実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において、様々な態様にて実施することが可能である。
【0088】
例えば、上記実施形態では、評価結果としての聴覚感度特性スコアSCの出力タイミングを、各評価対象区間に対する聴覚感度特性スコアSCを導出した直後、即ち、S200としていたが、評価結果の出力タイミングは、これに限るものではない。すなわち、S210にて、時間軸に沿った最後の評価対象区間について、聴覚感度特性スコアSCを導出したものと判定された後に、評価結果を出力しても良い。この場合、評価結果として出力する内容は、各評価対象区間に対する聴覚感度特性スコアSCの合計でも良いし、平均値でも良い。
【0089】
また、上記実施形態では、聴覚感度特性に対する帯域制限を評価対象区間ごとに加えていたが、聴覚感度特性に対して帯域制限を加える範囲は、これに限るものではない。例えば、聴覚感度特性に対して帯域制限を加える範囲は、1つの対象楽曲における全範囲であっても良い。
【0090】
さらに、上記実施形態においては、音声評価処理の起動タイミングを、カラオケ演奏処理の起動時としていたが、音声評価処理の起動タイミングは、これに限るものではない。
例えば、音声評価処理の起動タイミングは、カラオケ演奏処理の実行中に、当該音声評価処理を実行する旨の指令が操作受付部24を介して入力されたときであっても良いし、カラオケ演奏処理の終了後であっても良い。後者の場合、カラオケ演奏処理によって対象楽曲が演奏されている期間中に入力された歌唱波形データvwを記憶し、その記憶された歌唱波形データvwを、評価の対象とする必要がある。
【0091】
また、上記実施形態では、聴覚感度特性を、いわゆるA特性としていたが、聴覚感度特性は、これに限るものではなく、例えば、いわゆるB特性や、いわゆるC特性であっても良い。つまり、聴覚感度特性は、人の聴覚の周波数特性を表すものであれば、どのようなものでも良い。
【0092】
なお、上記実施形態では、音声評価処理をカラオケ装置にて実行していたが、音声評価処理を実行する装置は、これに限るものではなく、例えば、周知の情報処理装置(いわゆるパーソナルコンピュータ)にて実行しても良い。
【0093】
[実施形態と特許請求の範囲との対応関係]
最後に、上記実施形態の記載と、特許請求の範囲の記載との関係を説明する。
【0094】
上記実施形態の音声評価処理におけるS120及びS140が、特許請求の範囲の記載における特性取得手段に相当し、音声評価処理におけるS150が、特許請求の範囲の記載における音声波形取得手段に相当する。さらに、音声評価処理におけるS160〜S180が、特許請求の範囲の記載における周波数成分強度分布導出手段に相当し、音声評価処理におけるS190が、特許請求の範囲の記載における評価手段に相当する。
【0095】
また、上記実施形態の音声評価処理におけるS160及びS170が、特許請求の範囲の記載における正規化手段に相当し、音声評価処理におけるS110が、特許請求の範囲の記載における楽譜データ取得手段に相当し、音声評価処理におけるS130は、特許請求の範囲の記載における帯域特定手段に相当する。
【符号の説明】
【0096】
1…カラオケシステム 20…カラオケ装置 21…記憶部 22…通信部 23…表示部 24…操作受付部 25…音声入力部 26…マイクロホン 27…スピーカ 28…制御部 28a…ROM 28b…RAM 28c…CPU 29…音声出力部 30…サーバ


【特許請求の範囲】
【請求項1】
人の聴覚の周波数特性を表す聴覚感度特性を取得する特性取得手段と、
楽曲の1つである対象楽曲の演奏中に入力された音の波形を表す音声波形を取得する音声波形取得手段と、
前記音声波形取得手段で取得した音声波形に含まれる周波数、及び各周波数成分の強さを表す周波数成分強度分布を導出する周波数成分強度分布導出手段と、
前記周波数成分強度分布導出手段で導出した周波数成分強度分布における周波数成分の強さの平均値が、予め規定された規定値に一致するように、当該周波数成分強度分布における周波数成分の強さを正規化する正規化手段と、
前記特性取得手段で取得した聴覚感度特性と、前記正規化手段で正規化された周波数成分強度分布とに基づいて、当該正規化された周波数成分強度分布と前記聴覚感度特性との差が小さいほど値が大きい音声パワーを導出し、該音声パワーが大きいほど、高い評価を出力する評価手段と
を備えることを特徴とする音声評価装置。
【請求項2】
前記対象楽曲の楽譜を表し、音源モジュールから出力される個々の出力音について、少なくとも音高及び出力開始タイミングが規定された楽譜データを取得する楽譜データ取得手段と、
前記楽譜データ取得手段で取得した楽譜データに基づいて、前記対象楽曲の少なくとも一部の区間における最低音高から最高音高までの周波数帯域である楽曲音域を導出し、該楽曲音域に含まれる1つの出力音の音高から該1つの出力音を基音とした第規定倍音の音高までの周波数帯域を表す音声成分帯域を前記楽曲音域に加えた音域である歌唱音声帯域を特定する帯域特定手段と
を備え、
前記特性取得手段は、
前記聴覚感度特性のうちの前記帯域特定手段にて特定された歌唱音声帯域に対応する周波数帯域での周波数特性を、前記聴覚感度特性として取得する
ことを特徴とする請求項1に記載の音声評価装置。
【請求項3】
前記帯域特定手段は、
前記対象楽曲の時間進行に沿って、前記一部の区間として規定された区間ごとに前記歌唱音声帯域を順次特定し、
前記特性取得手段は、
前記帯域特定手段にて前記歌唱音声帯域が特定されるごとに、該歌唱音声帯域に対応する周波数帯域での周波数特性を、前記聴覚感度特性として取得する
ことを特徴とする請求項2に記載の音声評価装置。
【請求項4】
人の聴覚の周波数特性を表す聴覚感度特性を取得する特性取得過程と、
楽曲の1つである対象楽曲の演奏中に入力された音の波形を表す音声波形を取得する音声波形取得過程と、
前記音声波形取得過程で取得した音声波形に含まれる周波数、及び各周波数成分の強さを表す周波数成分強度分布を導出する周波数成分強度分布導出過程と、
前記周波数成分強度分布導出過程で導出した周波数成分強度分布における周波数成分の強さの平均値が、予め規定された規定値に一致するように、当該周波数成分強度分布における周波数成分の強さを正規化する正規化過程と、
前記特性取得過程で取得した聴覚感度特性と、前記正規化過程で正規化された周波数成分強度分布とに基づいて、当該正規化された周波数成分強度分布と前記聴覚感度特性との差が小さいほど値が大きい音声パワーを導出し、該音声パワーが大きいほど、高い評価を出力する評価過程と
を有することを特徴とする音声評価方法。
【請求項5】
人の聴覚の周波数特性を表す聴覚感度特性を取得する特性取得手順と、
楽曲の1つである対象楽曲の演奏中に入力された音の波形を表す音声波形を取得する音声波形取得手順と、
前記音声波形取得手順で取得した音声波形に含まれる周波数、及び各周波数成分の強さを表す周波数成分強度分布を導出する周波数成分強度分布導出手順と、
前記周波数成分強度分布導出手順で導出した周波数成分強度分布における周波数成分の強さの平均値が、予め規定された規定値に一致するように、当該周波数成分強度分布における周波数成分の強さを正規化する正規化手順と、
前記特性取得手順で取得した聴覚感度特性と、前記正規化手順で正規化された周波数成分強度分布とに基づいて、当該正規化された周波数成分強度分布と前記聴覚感度特性との差が小さいほど値が大きい音声パワーを導出し、該音声パワーが大きいほど、高い評価を出力する評価手順とを
コンピュータに実行させることを特徴とするプログラム。


【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2013−57892(P2013−57892A)
【公開日】平成25年3月28日(2013.3.28)
【国際特許分類】
【出願番号】特願2011−197391(P2011−197391)
【出願日】平成23年9月9日(2011.9.9)
【出願人】(000005267)ブラザー工業株式会社 (13,856)
【出願人】(504157024)国立大学法人東北大学 (2,297)
【Fターム(参考)】