音声評価装置及び音声評価方法
【課題】利用者が歌唱音声の明瞭度を把握することのできる技術を提供する。
【解決手段】カラオケ装置1の制御部11は、マイクロフォン15が収音した音声のスペクトルを検出する。次いで、制御部11は、検出されたスペクトルに基づいてフォルマントレベルを特定するとともに、スペクトルの谷のレベルを特定する。次いで、制御部11は、谷のレベルに対するフォルマントレベルの比率が大きくなるほど明瞭度が高くなるように、フォルマントレベルと谷のレベルとに基づいて音声の明瞭度を算出する。そして、制御部11は、算出した明瞭度を表す画像を表示部13に表示させる。
【解決手段】カラオケ装置1の制御部11は、マイクロフォン15が収音した音声のスペクトルを検出する。次いで、制御部11は、検出されたスペクトルに基づいてフォルマントレベルを特定するとともに、スペクトルの谷のレベルを特定する。次いで、制御部11は、谷のレベルに対するフォルマントレベルの比率が大きくなるほど明瞭度が高くなるように、フォルマントレベルと谷のレベルとに基づいて音声の明瞭度を算出する。そして、制御部11は、算出した明瞭度を表す画像を表示部13に表示させる。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声を評価する技術に関する。
【背景技術】
【0002】
利用者の歌唱の巧拙を評価する歌唱評価機能を備えた各種のカラオケ装置が提供されている。この種のカラオケ装置として、例えば、特許文献1には、利用者の歌唱位置を検出するとともに、歌唱音声の各音楽要素とその歌唱位置に対応した基準音声の基準フレームの各音楽要素と比較し、この比較結果に基づいて歌唱を評価することによって、歌唱音声の音程、音量及び声質などを評価する装置が提案されている。
【特許文献1】特開2001−117568号公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
ところで、歌唱音声の音程や音量によって巧拙が評価される以外にも、音声の明瞭度によっても聴取者による歌唱の巧拙の評価が左右される場合もある。例えば、聴取者によっては音声が明瞭であるほど評価が高いと感じるものもいる。このような音声の明瞭度を利用者が把握できれば好適である。
本発明は上述した背景の下になされたものであり、利用者が音声の明瞭度を把握することのできる技術を提供することを目的とする。
【課題を解決するための手段】
【0004】
本発明の好適な態様である音声評価装置は、音声を表す音声信号を予め定められた複数の周波数成分毎に分析し、周波数成分毎のレベルを算出するレベル算出手段と、前記レベル算出手段により算出された周波数成分毎のレベルを周波数の昇順又は降順に整列したときにそのレベルの変化が山となって現れる位置を特定するとともに、そのレベルの変化が谷となって現れる位置を特定する位置特定手段と、前記位置特定手段が特定した山の位置のレベルを第1のレベルとして特定するとともに、前記位置特定手段が特定した谷の位置のレベルを第2のレベルとして特定するレベル特定手段と、前記レベル特定手段が特定した第1のレベルと第2のレベルとに基づいて前記音声の明瞭度を算出する算出手段であって、前記第2のレベルに対する前記第1のレベルの比率が大きくなるほど明瞭度が高くなるように当該明瞭度を算出する明瞭度算出手段と、前記明瞭度算出手段が算出した明瞭度を示す明瞭度情報を出力する明瞭度情報出力手段とを具備することを特徴としている。
【0005】
また、本発明の別の好適な態様である音声評価装置は、音声を表す音声信号を予め定められた複数の周波数成分毎に分析し、周波数成分毎のレベルを算出するレベル算出手段と、前記レベル算出手段が算出した周波数成分毎のレベルを、当該レベルの降順に整列する整列手段と、前記整列手段によって整列されたレベルの列において予め定められた第1の順位のレベルを前記第1のレベルとして特定するとともに、前記整列手段によって整列されたレベルの列において前記第1の順位よりも低い予め定められた第2の順位のレベルを前記第2のレベルとして特定するレベル特定手段と、前記レベル特定手段が特定した第1のレベルと第2のレベルとに基づいて前記音声の明瞭度を算出する算出手段であって、前記第2のレベルに対する前記第1のレベルの比率が大きくなるほど明瞭度が高くなるように当該明瞭度を算出する明瞭度算出手段と、前記明瞭度算出手段が算出した明瞭度を示す明瞭度情報を出力する明瞭度情報出力手段とを具備することを特徴としている。
【0006】
上述した態様において、前記明瞭度情報出力手段が出力した明瞭度情報に基づいて、当該明瞭度情報の示す明瞭度を報知する明瞭度報知手段を備えてもよい。
また、上述した態様において、前記音声信号のレベルを算出する第2のレベル算出手段と、前記音声信号において予め定められた周波数帯域のレベルを算出する第3のレベル算出手段と、前記第2のレベル算出手段が算出したレベルに対する前記第3のレベル算出手段が算出したレベルの比率が大きくなるほど評価が高くなるように、前記第2のレベル算出手段が算出したレベルと前記第3のレベル算出手段が算出したレベルとに基づいて、前記音声の声質を評価する声質評価手段と、前記声質評価手段の評価結果を示す声質評価情報を出力する声質評価情報出力手段とを具備してもよい。
また、上述した態様において、前記声質評価情報出力手段が出力した声質評価情報に基づいて、当該声質評価情報の示す声質評価結果を報知する声質評価結果報知手段を備えてもよい。
【0007】
また、上述した態様において、前記明瞭度算出手段が算出した明瞭度に応じて、前記声質評価手段の評価結果を修正する声質評価修正手段を備え、前記声質評価情報出力手段は、前記声質評価修正手段により修正された評価結果を示す評価結果情報を出力してもよい。
【発明の効果】
【0008】
本発明によれば、利用者が音声の明瞭度を把握することができる。
【発明を実施するための最良の形態】
【0009】
次に、本発明を実施するための最良の形態を説明する。
<A:構成>
図1は、この発明の一実施形態であるカラオケ装置1のハードウェア構成を示すブロック図である。図において、制御部11は、CPU(Central Processing Unit)やROM(Read Only Memory)、RAM(Random Access Memory)を備え、ROM又は記憶部12に記憶されているコンピュータプログラムを読み出して実行することにより、バスBUSを介してカラオケ装置1の各部を制御する。記憶部12は、制御部11によって実行されるプログラムやその実行時に使用されるデータを記憶するための記憶手段であり、例えばハードディスク装置である。表示部13は、液晶パネルなどを備え、制御部11の制御の下で、カラオケ装置1を操作するためのメニュー画面や、背景画像に歌詞テロップを重ねたカラオケ画面などの各種画面を表示する。操作部14は、利用者による操作に応じた信号を制御部11に出力する。マイクロフォン15は、利用者が発音した音声を収音し、収音した音声を表す音声信号(アナログ信号)を出力する。音声処理部16は、マイクロフォン15が出力する音声信号(アナログ信号)をデジタルデータに変換する。また、音声処理部16は、デジタルデータをアナログ信号に変換してスピーカ17に出力する。スピーカ17は、音声処理部16でデジタルデータからアナログ信号に変換され出力される音声信号に応じた強度で放音する放音手段である。
【0010】
なお、この実施形態では、マイクロフォン15とスピーカ17とがカラオケ装置1に含まれている場合について説明するが、音声処理部16に入力端子及び出力端子を設け、オーディオケーブルを介してその入力端子に外部マイクロフォンを接続する構成としても良く、同様に、オーディオケーブルを介してその出力端子に外部スピーカを接続するとしても良い。また、この実施形態では、マイクロフォン15から音声処理部16へ入力される音声信号及び音声処理部16からスピーカ17へ出力される音声信号がアナログ音声信号である場合について説明するが、デジタル音声データを入出力するようにしても良い。このような場合には、音声処理部16にてA/D変換やD/A変換を行う必要はない。
【0011】
記憶部12は、図示のように、伴奏データ記憶領域121と、背景画データ記憶領域122と、歌詞データ記憶領域123と、お手本音声データ記憶領域124とを有している。伴奏データ記憶領域121には、MIDI(Musical Instruments Digital Interface)形式などのデータ形式であって、各楽曲の伴奏楽音を構成する伴奏データが楽曲毎に記憶されている。背景画データ記憶領域122には、カラオケ伴奏の際に表示される背景画像を表す背景画データが記憶されている。歌詞データ記憶領域123には、カラオケ伴奏の際に歌詞テロップとして表示される楽曲の歌詞を表す歌詞データが記憶されている。お手本音声データ記憶領域124には、楽曲のお手本となる音声(以下、「お手本音声」)を表す例えばWAVE形式などの音声データが記憶されている。
【0012】
<B:動作>
次に、カラオケ装置1が行う処理の流れについて、図2に示すフローチャートを参照しつつ説明する。まず、利用者は、カラオケ装置1の操作部14を操作して、歌唱したい楽曲を選択する操作を行う。操作部14は、操作された内容に応じた信号を制御部11へ出力する。制御部11は、操作部14から出力される操作信号に応じて楽曲を選択する(ステップS1)。
制御部11は、選択した楽曲の背景画と歌詞テロップを表示部13に表示させるとともに、カラオケ伴奏を開始する(ステップS2)。すなわち、制御部11は、伴奏データ記憶領域121から伴奏データを読み出して音声処理部16に供給し、音声処理部16は、伴奏データをアナログ信号に変換し、スピーカ17に供給する。スピーカ17は、供給されるアナログ信号に応じて、伴奏音を放音する。また、制御部11は、歌詞データ記憶領域123から歌詞データ読み出すとともに、背景画データ記憶領域122から背景画データを読み出して、歌詞テロップと背景画を表示部13に表示させる。
【0013】
練習者は、スピーカ17から放音される伴奏にあわせて歌唱を行う。このとき、練習者の音声はマイクロフォン15によって収音されて音声信号に変換され、音声処理部16へと出力される(ステップS3)。音声処理部16は、マイクロフォンから出力される音声信号をデジタルデータ(以下、単に「音声信号」という)に変換する。
【0014】
制御部11は、音声信号を所定時間長(例えば、「3msec」)のフレーム単位に分析し、フレーム単位で音声のレベルとスペクトルとを検出する(ステップS4)。すなわち、制御部11は、フレーム単位で音声信号のレベルを検出するとともに、音声信号を複数の周波数成分に分離し、周波数成分毎のレベルを算出(スペクトルを検出)する。この実施形態では、制御部11は、FFT(Fast Fourier Transform)を用いて音声からスペクトルを検出する。
図3は、スペクトルの検出結果を示す図である。図3において、横軸は周波数を示し、縦軸はレベルを示す。図3においては、音声信号S1と音声信号S2の2つの音声信号のスペクトルを示している。
【0015】
次いで、制御部11は、検出したスペクトルにおいて、レベルの変化が山となって現れる位置を特定するとともに、レベルの変化が谷となって現れる位置を特定し、特定した山の位置のレベルをフォルマントレベル(第1のレベル)として特定するとともに、特定した谷の位置のレベルを谷レベル(第2のレベル)として特定する(ステップS5)。
ここで、この実施形態において制御部11が行うステップS5に示すレベル特定処理について説明する。まず、制御部11は、ステップS4において算出した周波数成分毎のレベルを、当該レベルの降順に整列する。図4は、図3に示したスペクトル検出結果について、レベルの降順にソートした内容を示す図である。図4において、横軸は要素の数を示し、縦軸はレベルを示す。この実施形態では、ソートされたレベルの列において先頭から1/4に位置する周波数成分のレベルを山レベルとみなし、一方、3/4に位置するレベルを谷レベルとみなす。すなわち、制御部11は、ソートされたレベルの列において、先頭から1/4に位置するレベルをフォルマントレベルとして特定する。また、制御部11は、ソートされたレベルの列において、先頭から3/4番目に位置するレベルを谷レベルとして特定する。図4に示す例においては、レベルL1がフォルマントレベルとして特定され、レベルL2が谷レベルとして特定される。このように、先頭から全体の総数に対する1/4番目のレベルと全体の総数に対する3/4番目のレベルを特定することで、フォルマントレベルと谷レベルに近い値を特定することができる。
【0016】
次いで、制御部11は、フォルマントレベルと谷レベルとに基づいて、音声の明瞭度を算出する(ステップS6)。このとき、制御部11は、谷レベルに対するフォルマントレベルの比率が大きくなるほど明瞭度が高くなるように、明瞭度の算出処理を行う。この実施形態では、制御部11は、以下の式を用いて、フォルマントレベルAと谷レベルBから明瞭度C(dB)を算出する。
C=20*log(A/B)…(式1)
【0017】
このように、谷レベルに対するフォルマントレベルの比率が高いほど明瞭度が高い。具体的には、例えば、図4に示す例においては、音声信号S1のほうが音声信号S2よりも谷レベルに対するフォルマントレベルの比率が高く、これにより、音声信号S1の明瞭度は音声信号S2の明瞭度よりも高くなる。
【0018】
次いで、制御部11は、声質の評価を行う。まず、制御部11は、音声信号から高域周波数帯域のレベル(以下、「高域レベル」)を算出する(ステップS7)。この実施形態では、制御部11は、1kHz以上の周波数帯域のレベルを高域レベルとして算出する。次いで、制御部11は、ステップS4で算出した全帯域のレベルとステップS7で算出した高域レベルとの比率に応じて声質を評価する(ステップS8)。このとき、制御部11は、ステップS4で算出したレベルに対するステップS7で算出したレベルの比率が大きくなるほど評価が高くなるように、音声の声質評価処理を行う。この実施形態では、制御部11は、以下の式を用いて、ステップS7で算出した高域レベルEと、ステップS4で算出した全帯域のレベルFとを用いて声質値Dを算出する。
D=20*log(E/F)…(式2)
このように、この実施形態では、制御部11は、音声に含まれる高域の周波数成分が多いほど声質の評価を高くする。
【0019】
図5は、ステップS8に示す声質の評価の一例を説明するための図である。図5は、音声信号のスペクトルを表す図であり、図5において、横軸は周波数を示し、縦軸はレベルを示す。また、図5においては、音声信号S3と音声信号S4との2つの相異なる音声信号のスペクトルを示している。図5において、全体のレベルに対する高域レベルの比率は、音声信号S3のほうが音声信号S4よりも大きく、そのため、音声信号S3と音声信号S4との声質値をそれぞれ算出すると、音声信号S3の声質値が音声信号S4の声質値よりも高くなる。
【0020】
次いで、制御部11は、ステップS6で算出した明瞭度を示す明瞭度情報と、ステップS8で算出した声質の評価結果を表す声質評価情報とを、表示部13に出力する。表示部13は、制御部11から供給される明瞭度情報に基づいて、当該明瞭度情報の示す明瞭度を表示することによって利用者に報知する(ステップS9)。
【0021】
図6は、表示部13に表示される画面の一例を示す図である。図示のように、表示部13には、歌詞テロップA1と、明瞭度の度合いを示す棒グラフA2と、声質の度合いを示す棒グラフA3とが表示される。棒グラフA2の棒線A21の長さにより明瞭度の高低が表される。また、棒グラフA3の棒線A31の長さにより声質の評価結果が表される。制御部11は、算出した明瞭度に基づいた長さの棒線A21を表示部13に表示させるとともに、算出した声質の評価結果に基づいた長さの棒線A31を表示部13に表示させる。
【0022】
利用者は、表示部13に表示される棒グラフA2を視認することで、自身の音声の明瞭度の度合いを把握することができる。また、利用者は、表示部13に表示される棒グラフA3を視認することで、声質の評価結果を把握することができる。
【0023】
制御部11は、処理を終了するか否かを判定する(ステップS10)。この判定は、例えば、楽曲の伴奏音の再生が終了したか、又は、利用者によって伴奏音の再生を中断するための操作が行われたか否かを判定することによって行ってもよい。制御部11は、処理を終了すると判定した場合には(ステップS10;YES)、そのまま処理を終了する一方、処理を継続すると判定した場合には(ステップS10;NO)、ステップS3の処理へ戻り、音声を収音し、収音した音声に基づいて明瞭度や声質を報知する処理を繰り返し行う(ステップS3〜ステップS9)。なお、この実施形態では、制御部11は、明瞭度を算出した後に声質値を算出したが、処理の順序はこれに限らず、声質値の算出を先に行うようにしてもよく、その処理順序は任意である。
【0024】
ステップS3〜ステップS9の処理が繰り返されることにより、表示される棒線A21の長さと棒線A31の長さとは、利用者の音声の明瞭度と声質とに応じて、時間の経過に伴って変動する。すなわち、この実施形態では、歌唱している最中に、その歌唱音声の明瞭度と声質とが、リアルタイムで利用者に報知される。
【0025】
このように、この実施形態では、利用者が歌唱を行うと、カラオケ装置1は、その歌唱音声に応じて明瞭度や声質を利用者に報知する。これにより、利用者は、自身の歌唱音声の明瞭度や声質を把握することができる。
また、この実施形態では、カラオケ装置1が、利用者の歌唱音声に応じて声質の評価結果を報知する。これにより、利用者は、自身の声質がどのようなものであるかを把握することができる。また、この実施形態では、利用者が歌唱を行っている最中に、利用者が良い声(声質、明瞭度等)で歌ったかどうかが即座に画面に表示されるため、利用者は、より良い声で歌うことを意識することができる。
【0026】
<C:変形例>
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されることなく、他の様々な形態で実施可能である。以下にその一例を示す。
(1)上述の実施形態では、音声信号にFFTを施してスペクトルを検出することによって音声信号を周波数成分毎に分析した。音声信号を分析する方法はこれに限らず、例えば、複数のバンドパスフィルタの出力を用いて分析を行ってもよい。この場合は、例えば、複数のバンドパスフィルタの出力に基づいて所定の周波数帯域のレベルを算出し、算出した所定の周波数帯域のレベルと全体のレベルとの比に応じて声質を評価すればよい。
【0027】
(2)上述の実施形態では、制御部11が、スペクトルを検出して、図3に示すような、周波数の昇順に整列したときにレベルの変化が山となって現れる位置と谷となって現れる位置とを特定する構成としたが、昇順に限らず、降順に整列してもよい。レベルの変化が山となって現れる位置と谷となって現れる位置とを特定できる態様であればよい。
また、上述の実施形態では、制御部11が、図4に示すように、周波数成分毎のレベルをレベルの降順に整列したが、昇順に整列してもよい。
【0028】
(3)上述した実施形態では、複数の周波数成分をレベルの高い順にソート(整列)し、そのソート結果を用いてフォルマントレベルと谷レベルとを特定した。フォルマントレベルと谷レベルとの特定方法はこれに限らず、フォルマントレベルと谷レベルとを特定できるものであればどのようなものであってもよい。
その一例として、フォルマントを用いた算出方法を以下に示す。まず、制御部11は、音声信号にFFTを施してスペクトルを算出する。次いで、制御部11は、その分析の結果得られた周波数スペクトルから、第1、第2、及び第3フォルマントと夫々対応するフォルマントレベルを抽出する。フォルマントとは、音声のスペクトル上の優勢な周波数成分であり、周波数の低い順に第1フォルマント、第2フォルマント、第3フォルマント、第4フォルマント…と呼ばれる。制御部11は、フォルマントレベルを抽出すると、今度は、第1フォルマントと第2フォルマントとの間の谷の位置におけるレベルを谷レベルとして特定する。
【0029】
なお、上述の例では、第1フォルマントのフォルマントレベルと、第1フォルマントと第2フォルマントとの間の谷の位置におけるレベルを谷レベルとして特定したが、これに限らず、第nフォルマント(nは自然数)のフォルマントレベルと、第nフォルマントと第(n+1)フォルマントとの間の谷の位置におけるレベルとを特定すればよく、nの値は1に限定されない。具体的には、例えば、第2フォルマントのフォルマントレベルと第2フォルマントと第3フォルマントとの間の谷の位置のレベルとを特定してもよい。
このように、特定する山の位置は、1番目に現れる山(第1フォルマント)であってもよく、また、2番目に現れる山(第2フォルマント)であってもよく、第n番目に現れる山(第nフォルマント:nは自然数)であればよい。同様に、特定する谷の位置は、第n番目(nは自然数)に現れる谷の位置であればよい
【0030】
(4)上述の実施形態では、(式1)を用いて明瞭度を算出したが、明瞭度の算出方法はこれに限定されるものではない。例えば、スペクトルを算出し、算出したスペクトルにおいてレベルの変化が山となって現れる位置を特定するとともに、レベルの変化が谷となって現れる位置を特定し、山レベルと谷レベルとの差値を算出してその差値が大きくなるほど明瞭度が高くなるように明瞭度を算出するようにしてもよい。要するに、谷レベルに対する山レベルの比率が大きいほど明瞭度が高くなるような算出方法であればどのようなものであってもよい。
【0031】
また、上述の実施形態では、(式2)を用いて声質値を算出したが、声質値の算出方法はこれに限定されるものではなく、要するに、声質の評価方法は、全周波数帯域のレベルに対する高域周波数帯域のレベルの比率が大きくなるほど評価が高くなるように、声質を評価するものであればどのようなものであってもよい。
【0032】
(5)上述した実施形態では、明瞭度の度合いを、それぞれの度合いを示す棒グラフを表示することによって報知した。報知の態様はこれに限らない。例えば、図7に示すように、明瞭度の度合いに応じて表示部13に表示させる背景画を変更することによって明瞭度を報知してもよい。この場合は、例えば、明瞭度が高いほど、図7(b)に示すように、表示する画像の数を多くし、一方、明瞭度が低いほど、図7(a)に示すように、表示する画像の数を少なくすることによって報知してもよい。
また、例えば、明瞭度に応じて背景色を変更することによって、明瞭度を報知してもよい。この場合は、例えば、明瞭度が高いほど、図8(b)に示すように、背景色を明るくする一方、明瞭度が低いほど、図8(a)に示すように、背景色を暗くしてもよい。また、例えば、図9に示すように、明瞭度の度合いを示すメータA5を表示部13に表示させることによって報知してもよい。図9においては、メータA5における針A51の位置によって明瞭度が報知される。また、明瞭度の報知の態様は表示に限らず、例えば、明瞭度を表す音声メッセージを放音することによって報知してもよい。要するに、制御部11が算出した明瞭度を報知するものであればどのような態様であってもよい。
【0033】
また、声質の評価の報知態様も、上述した明瞭度の報知態様と同様であり、棒グラフを表示するに限らず、背景色の変更や音声メッセージの放音などによって声質の評価結果を報知してもよく、制御部11による声質の評価結果を報知するものであればどのような態様であってもよい。
【0034】
また、上述した実施形態では、制御部11は、明瞭度を表す明瞭度情報や声質の評価結果を示す声質評価情報を表示部13に出力した。明瞭度情報や声質評価結果情報の出力先は、表示部13に限らず、例えば、通信ネットワークを介して明瞭度情報や声質評価結果情報を送信することによって出力してもよく、また、ハードディスクなどの記憶手段に出力して当該記憶手段に記憶させる態様であってもよい。要するに、制御部11が、明瞭度情報や声質評価結果情報を出力すればよい。
【0035】
(6)上述の実施形態では、マイクロフォン15が収音する利用者の歌唱音声について明瞭度と声質度を算出した。これに加えて、お手本音声データ記憶領域124に記憶されたお手本音声データについても明瞭度と声質度とを算出し、表示部13に表示することによって利用者に報知してもよい。この場合に表示される画面の一例を図10及び図11に示す。図10において、棒グラフA2の棒線A21の長さにより利用者の明瞭度の高低が表され、一方、棒グラフA4の棒線A41の長さによりお手本音声の明瞭度の高低が表される。また、図11において、メータA6における針A61の位置によって利用者の明瞭度が表され、一方、針A62の位置によってお手本音声の明瞭度が表される。この場合は、利用者の評価結果とお手本の評価結果とがあわせて報知されるから、利用者は、自身の歌唱と手本の歌唱とを比較することができる。
【0036】
(7)上述した実施形態では、利用者の音声を評価したが、評価する音声はお手本音声のみであってもよい。この場合は、お手本音声の評価結果のみを表示させてもよい。また、例えば、複数の利用者が同時に歌唱を行い、それぞれの利用者の音声を評価して評価結果を並べて表示してもよい。このように、1つの音声を評価して報知してもよく、また、複数の音声を並列に評価してもよい。また、評価の対象となる音声は、マイクロフォン15で収音される音声であってもよく、また、記憶部12に予め記憶された音声データであってもよい。また、例えば、カラオケ装置1に通信部を設け、通信部を介して受信される音声データを評価してもよく、評価の対象となる音声は、音声を表すものであればどのようなものであってもよい。
【0037】
(8)上述した実施形態においては、周波数成分をレベルの降順にソートし、ソートされた列において先頭から1/4の位置の周波数成分のレベルと3/4の位置の周波数成分のレベルとを特定した。特定する位置はこれに限らず、例えば、1/5番目の周波数成分のレベルと4/5番目の周波数成分のレベルとを特定してもよい。要するに、レベルの山と谷との差値に近い値を算出するものであればどのようなものであってもよく、予め定められた第1の位置に位置する周波数成分のレベルと予め定められた第2の位置に位置する周波数成分のレベルとの差値を算出すればよい。
【0038】
(9)上述した実施形態では、明瞭度を示す棒グラフと声質の評価結果を示す棒グラフとをあわせて表示したが、これに限らず、明瞭度のみを報知する構成としてもよく、また、声質の評価結果のみを報知する構成としてもよい。
【0039】
(10)上述の実施形態において、明瞭度の度合いを声質の評価に関係させてもよい。この場合、制御部11は、算出した明瞭度に応じて声質評価の評価結果を修正し、修正された評価結果を示す評価結果情報を表示部13に出力してもよい。具体的には、例えば、制御部11が、明瞭度が低いほど評価結果が低くなるように声質評価の評価結果を修正してもよい。また、例えば、算出された明瞭度が予め定められた閾値以下である場合には、声質の評価結果を予め定められた低い値にする(又は評価しない)ようにしてもよい。
例えば、利用者が、子音を伸ばして発音するといったように歌唱を不真面目に歌唱したとする。従来の装置では、このように利用者が不真面目に歌唱した場合であっても声質が高く評価される場合があったが、この実施形態では、明瞭度を評価に反映させることで、不真面目な歌唱を低く評価することができ、不真面目な歌唱が高く評価されるのを防ぐことができる。
【0040】
(11)上述した実施形態において、声質の評価結果を消費カロリに換算し、報知してもよい。この場合、制御部11が、以下の式を用いて、声質値Gから消費カロリHを算出してもよい。なお、以下の式において、kは係数を示す。
H=k×G…(式3)
【0041】
(12)上述した実施形態では、音声信号のレベルと、その音声信号における1kHz以上の周波数帯域のレベルとの比率に基づいて声質を評価した。声質の評価の態様はこれに限らず、例えば、音声信号のレベルとその音声信号における2kHz以上の周波数帯域のレベルとの比率に応じて声質を評価してもよく、また、例えば、4kHz以上の周波数帯域のレベルとの比率に応じて声質を評価してもよく、要するに、音声信号の全体のレベルとその音声信号において予め定められた周波数帯域のレベルとの比率に応じて音声の声質を評価する態様であればどのようなものであってもよい。
【0042】
(13)上述した実施形態では、カラオケ装置1を本発明に係る音声評価装置として適用したが、音声評価装置として適用される装置はカラオケ装置に限らず、例えばサーバ装置やパーソナルコンピュータ、移動体通信端末など、様々な装置が本発明に係る音声評価装置として適用可能である。
【0043】
(14)上述したカラオケ装置1の制御部11によって実現されるプログラムは、磁気テープ、磁気ディスク、フレキシブルディスク、光記録媒体、光磁気記録媒体、RAM、ROMなどの記録媒体に記録した状態で提供し得る。また、インターネットのようなネットワーク経由でカラオケ装置1にダウンロードさせることも可能である。
【図面の簡単な説明】
【0044】
【図1】カラオケ装置1の構成の一例を示すブロック図である。
【図2】カラオケ装置1の処理の流れを示すフローチャートである。
【図3】音声のスペクトルの一例を示す図である。
【図4】音声の周波数成分毎のレベルをソートした結果を示す図である。
【図5】音声のスペクトルの一例を示す図である。
【図6】表示部13に表示される画面の一例を示す図である。
【図7】表示部13に表示される画面の一例を示す図である。
【図8】表示部13に表示される画面の一例を示す図である。
【図9】表示部13に表示される画面の一例を示す図である。
【図10】表示部13に表示される画面の一例を示す図である。
【図11】表示部13に表示される画面の一例を示す図である。
【符号の説明】
【0045】
1…カラオケ装置、11…制御部、12…記憶部、13…表示部、14…操作部、15…マイクロフォン、16…音声処理部、17…スピーカ、121…伴奏データ記憶領域、122…背景画データ記憶領域、123…歌詞データ記憶領域、124…お手本音声データ記憶領域。
【技術分野】
【0001】
本発明は、音声を評価する技術に関する。
【背景技術】
【0002】
利用者の歌唱の巧拙を評価する歌唱評価機能を備えた各種のカラオケ装置が提供されている。この種のカラオケ装置として、例えば、特許文献1には、利用者の歌唱位置を検出するとともに、歌唱音声の各音楽要素とその歌唱位置に対応した基準音声の基準フレームの各音楽要素と比較し、この比較結果に基づいて歌唱を評価することによって、歌唱音声の音程、音量及び声質などを評価する装置が提案されている。
【特許文献1】特開2001−117568号公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
ところで、歌唱音声の音程や音量によって巧拙が評価される以外にも、音声の明瞭度によっても聴取者による歌唱の巧拙の評価が左右される場合もある。例えば、聴取者によっては音声が明瞭であるほど評価が高いと感じるものもいる。このような音声の明瞭度を利用者が把握できれば好適である。
本発明は上述した背景の下になされたものであり、利用者が音声の明瞭度を把握することのできる技術を提供することを目的とする。
【課題を解決するための手段】
【0004】
本発明の好適な態様である音声評価装置は、音声を表す音声信号を予め定められた複数の周波数成分毎に分析し、周波数成分毎のレベルを算出するレベル算出手段と、前記レベル算出手段により算出された周波数成分毎のレベルを周波数の昇順又は降順に整列したときにそのレベルの変化が山となって現れる位置を特定するとともに、そのレベルの変化が谷となって現れる位置を特定する位置特定手段と、前記位置特定手段が特定した山の位置のレベルを第1のレベルとして特定するとともに、前記位置特定手段が特定した谷の位置のレベルを第2のレベルとして特定するレベル特定手段と、前記レベル特定手段が特定した第1のレベルと第2のレベルとに基づいて前記音声の明瞭度を算出する算出手段であって、前記第2のレベルに対する前記第1のレベルの比率が大きくなるほど明瞭度が高くなるように当該明瞭度を算出する明瞭度算出手段と、前記明瞭度算出手段が算出した明瞭度を示す明瞭度情報を出力する明瞭度情報出力手段とを具備することを特徴としている。
【0005】
また、本発明の別の好適な態様である音声評価装置は、音声を表す音声信号を予め定められた複数の周波数成分毎に分析し、周波数成分毎のレベルを算出するレベル算出手段と、前記レベル算出手段が算出した周波数成分毎のレベルを、当該レベルの降順に整列する整列手段と、前記整列手段によって整列されたレベルの列において予め定められた第1の順位のレベルを前記第1のレベルとして特定するとともに、前記整列手段によって整列されたレベルの列において前記第1の順位よりも低い予め定められた第2の順位のレベルを前記第2のレベルとして特定するレベル特定手段と、前記レベル特定手段が特定した第1のレベルと第2のレベルとに基づいて前記音声の明瞭度を算出する算出手段であって、前記第2のレベルに対する前記第1のレベルの比率が大きくなるほど明瞭度が高くなるように当該明瞭度を算出する明瞭度算出手段と、前記明瞭度算出手段が算出した明瞭度を示す明瞭度情報を出力する明瞭度情報出力手段とを具備することを特徴としている。
【0006】
上述した態様において、前記明瞭度情報出力手段が出力した明瞭度情報に基づいて、当該明瞭度情報の示す明瞭度を報知する明瞭度報知手段を備えてもよい。
また、上述した態様において、前記音声信号のレベルを算出する第2のレベル算出手段と、前記音声信号において予め定められた周波数帯域のレベルを算出する第3のレベル算出手段と、前記第2のレベル算出手段が算出したレベルに対する前記第3のレベル算出手段が算出したレベルの比率が大きくなるほど評価が高くなるように、前記第2のレベル算出手段が算出したレベルと前記第3のレベル算出手段が算出したレベルとに基づいて、前記音声の声質を評価する声質評価手段と、前記声質評価手段の評価結果を示す声質評価情報を出力する声質評価情報出力手段とを具備してもよい。
また、上述した態様において、前記声質評価情報出力手段が出力した声質評価情報に基づいて、当該声質評価情報の示す声質評価結果を報知する声質評価結果報知手段を備えてもよい。
【0007】
また、上述した態様において、前記明瞭度算出手段が算出した明瞭度に応じて、前記声質評価手段の評価結果を修正する声質評価修正手段を備え、前記声質評価情報出力手段は、前記声質評価修正手段により修正された評価結果を示す評価結果情報を出力してもよい。
【発明の効果】
【0008】
本発明によれば、利用者が音声の明瞭度を把握することができる。
【発明を実施するための最良の形態】
【0009】
次に、本発明を実施するための最良の形態を説明する。
<A:構成>
図1は、この発明の一実施形態であるカラオケ装置1のハードウェア構成を示すブロック図である。図において、制御部11は、CPU(Central Processing Unit)やROM(Read Only Memory)、RAM(Random Access Memory)を備え、ROM又は記憶部12に記憶されているコンピュータプログラムを読み出して実行することにより、バスBUSを介してカラオケ装置1の各部を制御する。記憶部12は、制御部11によって実行されるプログラムやその実行時に使用されるデータを記憶するための記憶手段であり、例えばハードディスク装置である。表示部13は、液晶パネルなどを備え、制御部11の制御の下で、カラオケ装置1を操作するためのメニュー画面や、背景画像に歌詞テロップを重ねたカラオケ画面などの各種画面を表示する。操作部14は、利用者による操作に応じた信号を制御部11に出力する。マイクロフォン15は、利用者が発音した音声を収音し、収音した音声を表す音声信号(アナログ信号)を出力する。音声処理部16は、マイクロフォン15が出力する音声信号(アナログ信号)をデジタルデータに変換する。また、音声処理部16は、デジタルデータをアナログ信号に変換してスピーカ17に出力する。スピーカ17は、音声処理部16でデジタルデータからアナログ信号に変換され出力される音声信号に応じた強度で放音する放音手段である。
【0010】
なお、この実施形態では、マイクロフォン15とスピーカ17とがカラオケ装置1に含まれている場合について説明するが、音声処理部16に入力端子及び出力端子を設け、オーディオケーブルを介してその入力端子に外部マイクロフォンを接続する構成としても良く、同様に、オーディオケーブルを介してその出力端子に外部スピーカを接続するとしても良い。また、この実施形態では、マイクロフォン15から音声処理部16へ入力される音声信号及び音声処理部16からスピーカ17へ出力される音声信号がアナログ音声信号である場合について説明するが、デジタル音声データを入出力するようにしても良い。このような場合には、音声処理部16にてA/D変換やD/A変換を行う必要はない。
【0011】
記憶部12は、図示のように、伴奏データ記憶領域121と、背景画データ記憶領域122と、歌詞データ記憶領域123と、お手本音声データ記憶領域124とを有している。伴奏データ記憶領域121には、MIDI(Musical Instruments Digital Interface)形式などのデータ形式であって、各楽曲の伴奏楽音を構成する伴奏データが楽曲毎に記憶されている。背景画データ記憶領域122には、カラオケ伴奏の際に表示される背景画像を表す背景画データが記憶されている。歌詞データ記憶領域123には、カラオケ伴奏の際に歌詞テロップとして表示される楽曲の歌詞を表す歌詞データが記憶されている。お手本音声データ記憶領域124には、楽曲のお手本となる音声(以下、「お手本音声」)を表す例えばWAVE形式などの音声データが記憶されている。
【0012】
<B:動作>
次に、カラオケ装置1が行う処理の流れについて、図2に示すフローチャートを参照しつつ説明する。まず、利用者は、カラオケ装置1の操作部14を操作して、歌唱したい楽曲を選択する操作を行う。操作部14は、操作された内容に応じた信号を制御部11へ出力する。制御部11は、操作部14から出力される操作信号に応じて楽曲を選択する(ステップS1)。
制御部11は、選択した楽曲の背景画と歌詞テロップを表示部13に表示させるとともに、カラオケ伴奏を開始する(ステップS2)。すなわち、制御部11は、伴奏データ記憶領域121から伴奏データを読み出して音声処理部16に供給し、音声処理部16は、伴奏データをアナログ信号に変換し、スピーカ17に供給する。スピーカ17は、供給されるアナログ信号に応じて、伴奏音を放音する。また、制御部11は、歌詞データ記憶領域123から歌詞データ読み出すとともに、背景画データ記憶領域122から背景画データを読み出して、歌詞テロップと背景画を表示部13に表示させる。
【0013】
練習者は、スピーカ17から放音される伴奏にあわせて歌唱を行う。このとき、練習者の音声はマイクロフォン15によって収音されて音声信号に変換され、音声処理部16へと出力される(ステップS3)。音声処理部16は、マイクロフォンから出力される音声信号をデジタルデータ(以下、単に「音声信号」という)に変換する。
【0014】
制御部11は、音声信号を所定時間長(例えば、「3msec」)のフレーム単位に分析し、フレーム単位で音声のレベルとスペクトルとを検出する(ステップS4)。すなわち、制御部11は、フレーム単位で音声信号のレベルを検出するとともに、音声信号を複数の周波数成分に分離し、周波数成分毎のレベルを算出(スペクトルを検出)する。この実施形態では、制御部11は、FFT(Fast Fourier Transform)を用いて音声からスペクトルを検出する。
図3は、スペクトルの検出結果を示す図である。図3において、横軸は周波数を示し、縦軸はレベルを示す。図3においては、音声信号S1と音声信号S2の2つの音声信号のスペクトルを示している。
【0015】
次いで、制御部11は、検出したスペクトルにおいて、レベルの変化が山となって現れる位置を特定するとともに、レベルの変化が谷となって現れる位置を特定し、特定した山の位置のレベルをフォルマントレベル(第1のレベル)として特定するとともに、特定した谷の位置のレベルを谷レベル(第2のレベル)として特定する(ステップS5)。
ここで、この実施形態において制御部11が行うステップS5に示すレベル特定処理について説明する。まず、制御部11は、ステップS4において算出した周波数成分毎のレベルを、当該レベルの降順に整列する。図4は、図3に示したスペクトル検出結果について、レベルの降順にソートした内容を示す図である。図4において、横軸は要素の数を示し、縦軸はレベルを示す。この実施形態では、ソートされたレベルの列において先頭から1/4に位置する周波数成分のレベルを山レベルとみなし、一方、3/4に位置するレベルを谷レベルとみなす。すなわち、制御部11は、ソートされたレベルの列において、先頭から1/4に位置するレベルをフォルマントレベルとして特定する。また、制御部11は、ソートされたレベルの列において、先頭から3/4番目に位置するレベルを谷レベルとして特定する。図4に示す例においては、レベルL1がフォルマントレベルとして特定され、レベルL2が谷レベルとして特定される。このように、先頭から全体の総数に対する1/4番目のレベルと全体の総数に対する3/4番目のレベルを特定することで、フォルマントレベルと谷レベルに近い値を特定することができる。
【0016】
次いで、制御部11は、フォルマントレベルと谷レベルとに基づいて、音声の明瞭度を算出する(ステップS6)。このとき、制御部11は、谷レベルに対するフォルマントレベルの比率が大きくなるほど明瞭度が高くなるように、明瞭度の算出処理を行う。この実施形態では、制御部11は、以下の式を用いて、フォルマントレベルAと谷レベルBから明瞭度C(dB)を算出する。
C=20*log(A/B)…(式1)
【0017】
このように、谷レベルに対するフォルマントレベルの比率が高いほど明瞭度が高い。具体的には、例えば、図4に示す例においては、音声信号S1のほうが音声信号S2よりも谷レベルに対するフォルマントレベルの比率が高く、これにより、音声信号S1の明瞭度は音声信号S2の明瞭度よりも高くなる。
【0018】
次いで、制御部11は、声質の評価を行う。まず、制御部11は、音声信号から高域周波数帯域のレベル(以下、「高域レベル」)を算出する(ステップS7)。この実施形態では、制御部11は、1kHz以上の周波数帯域のレベルを高域レベルとして算出する。次いで、制御部11は、ステップS4で算出した全帯域のレベルとステップS7で算出した高域レベルとの比率に応じて声質を評価する(ステップS8)。このとき、制御部11は、ステップS4で算出したレベルに対するステップS7で算出したレベルの比率が大きくなるほど評価が高くなるように、音声の声質評価処理を行う。この実施形態では、制御部11は、以下の式を用いて、ステップS7で算出した高域レベルEと、ステップS4で算出した全帯域のレベルFとを用いて声質値Dを算出する。
D=20*log(E/F)…(式2)
このように、この実施形態では、制御部11は、音声に含まれる高域の周波数成分が多いほど声質の評価を高くする。
【0019】
図5は、ステップS8に示す声質の評価の一例を説明するための図である。図5は、音声信号のスペクトルを表す図であり、図5において、横軸は周波数を示し、縦軸はレベルを示す。また、図5においては、音声信号S3と音声信号S4との2つの相異なる音声信号のスペクトルを示している。図5において、全体のレベルに対する高域レベルの比率は、音声信号S3のほうが音声信号S4よりも大きく、そのため、音声信号S3と音声信号S4との声質値をそれぞれ算出すると、音声信号S3の声質値が音声信号S4の声質値よりも高くなる。
【0020】
次いで、制御部11は、ステップS6で算出した明瞭度を示す明瞭度情報と、ステップS8で算出した声質の評価結果を表す声質評価情報とを、表示部13に出力する。表示部13は、制御部11から供給される明瞭度情報に基づいて、当該明瞭度情報の示す明瞭度を表示することによって利用者に報知する(ステップS9)。
【0021】
図6は、表示部13に表示される画面の一例を示す図である。図示のように、表示部13には、歌詞テロップA1と、明瞭度の度合いを示す棒グラフA2と、声質の度合いを示す棒グラフA3とが表示される。棒グラフA2の棒線A21の長さにより明瞭度の高低が表される。また、棒グラフA3の棒線A31の長さにより声質の評価結果が表される。制御部11は、算出した明瞭度に基づいた長さの棒線A21を表示部13に表示させるとともに、算出した声質の評価結果に基づいた長さの棒線A31を表示部13に表示させる。
【0022】
利用者は、表示部13に表示される棒グラフA2を視認することで、自身の音声の明瞭度の度合いを把握することができる。また、利用者は、表示部13に表示される棒グラフA3を視認することで、声質の評価結果を把握することができる。
【0023】
制御部11は、処理を終了するか否かを判定する(ステップS10)。この判定は、例えば、楽曲の伴奏音の再生が終了したか、又は、利用者によって伴奏音の再生を中断するための操作が行われたか否かを判定することによって行ってもよい。制御部11は、処理を終了すると判定した場合には(ステップS10;YES)、そのまま処理を終了する一方、処理を継続すると判定した場合には(ステップS10;NO)、ステップS3の処理へ戻り、音声を収音し、収音した音声に基づいて明瞭度や声質を報知する処理を繰り返し行う(ステップS3〜ステップS9)。なお、この実施形態では、制御部11は、明瞭度を算出した後に声質値を算出したが、処理の順序はこれに限らず、声質値の算出を先に行うようにしてもよく、その処理順序は任意である。
【0024】
ステップS3〜ステップS9の処理が繰り返されることにより、表示される棒線A21の長さと棒線A31の長さとは、利用者の音声の明瞭度と声質とに応じて、時間の経過に伴って変動する。すなわち、この実施形態では、歌唱している最中に、その歌唱音声の明瞭度と声質とが、リアルタイムで利用者に報知される。
【0025】
このように、この実施形態では、利用者が歌唱を行うと、カラオケ装置1は、その歌唱音声に応じて明瞭度や声質を利用者に報知する。これにより、利用者は、自身の歌唱音声の明瞭度や声質を把握することができる。
また、この実施形態では、カラオケ装置1が、利用者の歌唱音声に応じて声質の評価結果を報知する。これにより、利用者は、自身の声質がどのようなものであるかを把握することができる。また、この実施形態では、利用者が歌唱を行っている最中に、利用者が良い声(声質、明瞭度等)で歌ったかどうかが即座に画面に表示されるため、利用者は、より良い声で歌うことを意識することができる。
【0026】
<C:変形例>
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されることなく、他の様々な形態で実施可能である。以下にその一例を示す。
(1)上述の実施形態では、音声信号にFFTを施してスペクトルを検出することによって音声信号を周波数成分毎に分析した。音声信号を分析する方法はこれに限らず、例えば、複数のバンドパスフィルタの出力を用いて分析を行ってもよい。この場合は、例えば、複数のバンドパスフィルタの出力に基づいて所定の周波数帯域のレベルを算出し、算出した所定の周波数帯域のレベルと全体のレベルとの比に応じて声質を評価すればよい。
【0027】
(2)上述の実施形態では、制御部11が、スペクトルを検出して、図3に示すような、周波数の昇順に整列したときにレベルの変化が山となって現れる位置と谷となって現れる位置とを特定する構成としたが、昇順に限らず、降順に整列してもよい。レベルの変化が山となって現れる位置と谷となって現れる位置とを特定できる態様であればよい。
また、上述の実施形態では、制御部11が、図4に示すように、周波数成分毎のレベルをレベルの降順に整列したが、昇順に整列してもよい。
【0028】
(3)上述した実施形態では、複数の周波数成分をレベルの高い順にソート(整列)し、そのソート結果を用いてフォルマントレベルと谷レベルとを特定した。フォルマントレベルと谷レベルとの特定方法はこれに限らず、フォルマントレベルと谷レベルとを特定できるものであればどのようなものであってもよい。
その一例として、フォルマントを用いた算出方法を以下に示す。まず、制御部11は、音声信号にFFTを施してスペクトルを算出する。次いで、制御部11は、その分析の結果得られた周波数スペクトルから、第1、第2、及び第3フォルマントと夫々対応するフォルマントレベルを抽出する。フォルマントとは、音声のスペクトル上の優勢な周波数成分であり、周波数の低い順に第1フォルマント、第2フォルマント、第3フォルマント、第4フォルマント…と呼ばれる。制御部11は、フォルマントレベルを抽出すると、今度は、第1フォルマントと第2フォルマントとの間の谷の位置におけるレベルを谷レベルとして特定する。
【0029】
なお、上述の例では、第1フォルマントのフォルマントレベルと、第1フォルマントと第2フォルマントとの間の谷の位置におけるレベルを谷レベルとして特定したが、これに限らず、第nフォルマント(nは自然数)のフォルマントレベルと、第nフォルマントと第(n+1)フォルマントとの間の谷の位置におけるレベルとを特定すればよく、nの値は1に限定されない。具体的には、例えば、第2フォルマントのフォルマントレベルと第2フォルマントと第3フォルマントとの間の谷の位置のレベルとを特定してもよい。
このように、特定する山の位置は、1番目に現れる山(第1フォルマント)であってもよく、また、2番目に現れる山(第2フォルマント)であってもよく、第n番目に現れる山(第nフォルマント:nは自然数)であればよい。同様に、特定する谷の位置は、第n番目(nは自然数)に現れる谷の位置であればよい
【0030】
(4)上述の実施形態では、(式1)を用いて明瞭度を算出したが、明瞭度の算出方法はこれに限定されるものではない。例えば、スペクトルを算出し、算出したスペクトルにおいてレベルの変化が山となって現れる位置を特定するとともに、レベルの変化が谷となって現れる位置を特定し、山レベルと谷レベルとの差値を算出してその差値が大きくなるほど明瞭度が高くなるように明瞭度を算出するようにしてもよい。要するに、谷レベルに対する山レベルの比率が大きいほど明瞭度が高くなるような算出方法であればどのようなものであってもよい。
【0031】
また、上述の実施形態では、(式2)を用いて声質値を算出したが、声質値の算出方法はこれに限定されるものではなく、要するに、声質の評価方法は、全周波数帯域のレベルに対する高域周波数帯域のレベルの比率が大きくなるほど評価が高くなるように、声質を評価するものであればどのようなものであってもよい。
【0032】
(5)上述した実施形態では、明瞭度の度合いを、それぞれの度合いを示す棒グラフを表示することによって報知した。報知の態様はこれに限らない。例えば、図7に示すように、明瞭度の度合いに応じて表示部13に表示させる背景画を変更することによって明瞭度を報知してもよい。この場合は、例えば、明瞭度が高いほど、図7(b)に示すように、表示する画像の数を多くし、一方、明瞭度が低いほど、図7(a)に示すように、表示する画像の数を少なくすることによって報知してもよい。
また、例えば、明瞭度に応じて背景色を変更することによって、明瞭度を報知してもよい。この場合は、例えば、明瞭度が高いほど、図8(b)に示すように、背景色を明るくする一方、明瞭度が低いほど、図8(a)に示すように、背景色を暗くしてもよい。また、例えば、図9に示すように、明瞭度の度合いを示すメータA5を表示部13に表示させることによって報知してもよい。図9においては、メータA5における針A51の位置によって明瞭度が報知される。また、明瞭度の報知の態様は表示に限らず、例えば、明瞭度を表す音声メッセージを放音することによって報知してもよい。要するに、制御部11が算出した明瞭度を報知するものであればどのような態様であってもよい。
【0033】
また、声質の評価の報知態様も、上述した明瞭度の報知態様と同様であり、棒グラフを表示するに限らず、背景色の変更や音声メッセージの放音などによって声質の評価結果を報知してもよく、制御部11による声質の評価結果を報知するものであればどのような態様であってもよい。
【0034】
また、上述した実施形態では、制御部11は、明瞭度を表す明瞭度情報や声質の評価結果を示す声質評価情報を表示部13に出力した。明瞭度情報や声質評価結果情報の出力先は、表示部13に限らず、例えば、通信ネットワークを介して明瞭度情報や声質評価結果情報を送信することによって出力してもよく、また、ハードディスクなどの記憶手段に出力して当該記憶手段に記憶させる態様であってもよい。要するに、制御部11が、明瞭度情報や声質評価結果情報を出力すればよい。
【0035】
(6)上述の実施形態では、マイクロフォン15が収音する利用者の歌唱音声について明瞭度と声質度を算出した。これに加えて、お手本音声データ記憶領域124に記憶されたお手本音声データについても明瞭度と声質度とを算出し、表示部13に表示することによって利用者に報知してもよい。この場合に表示される画面の一例を図10及び図11に示す。図10において、棒グラフA2の棒線A21の長さにより利用者の明瞭度の高低が表され、一方、棒グラフA4の棒線A41の長さによりお手本音声の明瞭度の高低が表される。また、図11において、メータA6における針A61の位置によって利用者の明瞭度が表され、一方、針A62の位置によってお手本音声の明瞭度が表される。この場合は、利用者の評価結果とお手本の評価結果とがあわせて報知されるから、利用者は、自身の歌唱と手本の歌唱とを比較することができる。
【0036】
(7)上述した実施形態では、利用者の音声を評価したが、評価する音声はお手本音声のみであってもよい。この場合は、お手本音声の評価結果のみを表示させてもよい。また、例えば、複数の利用者が同時に歌唱を行い、それぞれの利用者の音声を評価して評価結果を並べて表示してもよい。このように、1つの音声を評価して報知してもよく、また、複数の音声を並列に評価してもよい。また、評価の対象となる音声は、マイクロフォン15で収音される音声であってもよく、また、記憶部12に予め記憶された音声データであってもよい。また、例えば、カラオケ装置1に通信部を設け、通信部を介して受信される音声データを評価してもよく、評価の対象となる音声は、音声を表すものであればどのようなものであってもよい。
【0037】
(8)上述した実施形態においては、周波数成分をレベルの降順にソートし、ソートされた列において先頭から1/4の位置の周波数成分のレベルと3/4の位置の周波数成分のレベルとを特定した。特定する位置はこれに限らず、例えば、1/5番目の周波数成分のレベルと4/5番目の周波数成分のレベルとを特定してもよい。要するに、レベルの山と谷との差値に近い値を算出するものであればどのようなものであってもよく、予め定められた第1の位置に位置する周波数成分のレベルと予め定められた第2の位置に位置する周波数成分のレベルとの差値を算出すればよい。
【0038】
(9)上述した実施形態では、明瞭度を示す棒グラフと声質の評価結果を示す棒グラフとをあわせて表示したが、これに限らず、明瞭度のみを報知する構成としてもよく、また、声質の評価結果のみを報知する構成としてもよい。
【0039】
(10)上述の実施形態において、明瞭度の度合いを声質の評価に関係させてもよい。この場合、制御部11は、算出した明瞭度に応じて声質評価の評価結果を修正し、修正された評価結果を示す評価結果情報を表示部13に出力してもよい。具体的には、例えば、制御部11が、明瞭度が低いほど評価結果が低くなるように声質評価の評価結果を修正してもよい。また、例えば、算出された明瞭度が予め定められた閾値以下である場合には、声質の評価結果を予め定められた低い値にする(又は評価しない)ようにしてもよい。
例えば、利用者が、子音を伸ばして発音するといったように歌唱を不真面目に歌唱したとする。従来の装置では、このように利用者が不真面目に歌唱した場合であっても声質が高く評価される場合があったが、この実施形態では、明瞭度を評価に反映させることで、不真面目な歌唱を低く評価することができ、不真面目な歌唱が高く評価されるのを防ぐことができる。
【0040】
(11)上述した実施形態において、声質の評価結果を消費カロリに換算し、報知してもよい。この場合、制御部11が、以下の式を用いて、声質値Gから消費カロリHを算出してもよい。なお、以下の式において、kは係数を示す。
H=k×G…(式3)
【0041】
(12)上述した実施形態では、音声信号のレベルと、その音声信号における1kHz以上の周波数帯域のレベルとの比率に基づいて声質を評価した。声質の評価の態様はこれに限らず、例えば、音声信号のレベルとその音声信号における2kHz以上の周波数帯域のレベルとの比率に応じて声質を評価してもよく、また、例えば、4kHz以上の周波数帯域のレベルとの比率に応じて声質を評価してもよく、要するに、音声信号の全体のレベルとその音声信号において予め定められた周波数帯域のレベルとの比率に応じて音声の声質を評価する態様であればどのようなものであってもよい。
【0042】
(13)上述した実施形態では、カラオケ装置1を本発明に係る音声評価装置として適用したが、音声評価装置として適用される装置はカラオケ装置に限らず、例えばサーバ装置やパーソナルコンピュータ、移動体通信端末など、様々な装置が本発明に係る音声評価装置として適用可能である。
【0043】
(14)上述したカラオケ装置1の制御部11によって実現されるプログラムは、磁気テープ、磁気ディスク、フレキシブルディスク、光記録媒体、光磁気記録媒体、RAM、ROMなどの記録媒体に記録した状態で提供し得る。また、インターネットのようなネットワーク経由でカラオケ装置1にダウンロードさせることも可能である。
【図面の簡単な説明】
【0044】
【図1】カラオケ装置1の構成の一例を示すブロック図である。
【図2】カラオケ装置1の処理の流れを示すフローチャートである。
【図3】音声のスペクトルの一例を示す図である。
【図4】音声の周波数成分毎のレベルをソートした結果を示す図である。
【図5】音声のスペクトルの一例を示す図である。
【図6】表示部13に表示される画面の一例を示す図である。
【図7】表示部13に表示される画面の一例を示す図である。
【図8】表示部13に表示される画面の一例を示す図である。
【図9】表示部13に表示される画面の一例を示す図である。
【図10】表示部13に表示される画面の一例を示す図である。
【図11】表示部13に表示される画面の一例を示す図である。
【符号の説明】
【0045】
1…カラオケ装置、11…制御部、12…記憶部、13…表示部、14…操作部、15…マイクロフォン、16…音声処理部、17…スピーカ、121…伴奏データ記憶領域、122…背景画データ記憶領域、123…歌詞データ記憶領域、124…お手本音声データ記憶領域。
【特許請求の範囲】
【請求項1】
音声を表す音声信号を予め定められた複数の周波数成分毎に分析し、周波数成分毎のレベルを算出するレベル算出手段と、
前記レベル算出手段により算出された周波数成分毎のレベルを周波数の昇順又は降順に整列したときにそのレベルの変化が山となって現れる位置を特定するとともに、そのレベルの変化が谷となって現れる位置を特定する位置特定手段と、
前記位置特定手段が特定した山の位置のレベルを第1のレベルとして特定するとともに、前記位置特定手段が特定した谷の位置のレベルを第2のレベルとして特定するレベル特定手段と、
前記レベル特定手段が特定した第1のレベルと第2のレベルとに基づいて前記音声の明瞭度を算出する算出手段であって、前記第2のレベルに対する前記第1のレベルの比率が大きくなるほど明瞭度が高くなるように当該明瞭度を算出する明瞭度算出手段と、
前記明瞭度算出手段が算出した明瞭度を示す明瞭度情報を出力する明瞭度情報出力手段と
を具備することを特徴とする音声評価装置。
【請求項2】
音声を表す音声信号を予め定められた複数の周波数成分毎に分析し、周波数成分毎のレベルを算出するレベル算出手段と、
前記レベル算出手段が算出した周波数成分毎のレベルを、当該レベルの降順に整列する整列手段と、
前記整列手段によって整列されたレベルの列において予め定められた第1の順位のレベルを前記第1のレベルとして特定するとともに、前記整列手段によって整列されたレベルの列において前記第1の順位よりも低い予め定められた第2の順位のレベルを前記第2のレベルとして特定するレベル特定手段と、
前記レベル特定手段が特定した第1のレベルと第2のレベルとに基づいて前記音声の明瞭度を算出する算出手段であって、前記第2のレベルに対する前記第1のレベルの比率が大きくなるほど明瞭度が高くなるように当該明瞭度を算出する明瞭度算出手段と、
前記明瞭度算出手段が算出した明瞭度を示す明瞭度情報を出力する明瞭度情報出力手段と
を具備することを特徴とする音声評価装置。
【請求項3】
前記明瞭度情報出力手段が出力した明瞭度情報に基づいて、当該明瞭度情報の示す明瞭度を報知する明瞭度報知手段
を備えることを特徴とする請求項1又は2に記載の音声評価装置。
【請求項4】
前記音声信号のレベルを算出する第2のレベル算出手段と、
前記音声信号において予め定められた周波数帯域のレベルを算出する第3のレベル算出手段と、
前記第2のレベル算出手段が算出したレベルに対する前記第3のレベル算出手段が算出したレベルの比率が大きくなるほど評価が高くなるように、前記第2のレベル算出手段が算出したレベルと前記第3のレベル算出手段が算出したレベルとに基づいて、前記音声の声質を評価する声質評価手段と、
前記声質評価手段の評価結果を示す声質評価情報を出力する声質評価情報出力手段と
を具備することを特徴とする請求項1乃至3のいずれかに記載の音声評価装置。
【請求項5】
前記声質評価情報出力手段が出力した声質評価情報に基づいて、当該声質評価情報の示す声質評価結果を報知する声質評価結果報知手段
を備えることを特徴とする請求項4に記載の音声評価装置。
【請求項6】
前記明瞭度算出手段が算出した明瞭度に応じて、前記声質評価手段の評価結果を修正する声質評価修正手段を備え、
前記声質評価情報出力手段は、前記声質評価修正手段により修正された評価結果を示す評価結果情報を出力する
ことを特徴とする請求項5に記載の音声評価装置。
【請求項7】
制御手段を備えた音声評価装置の音声評価方法であって、
前記制御手段が、音声を表す音声信号を予め定められた複数の周波数成分毎に分析し、周波数成分毎のレベルを算出する第1の工程と、
前記制御手段が、算出した周波数成分毎のレベルを周波数の昇順又は降順に整列したときに、そのレベルの変化が山となって現れる位置を特定するともに、そのレベルの変化が谷となって現れる位置を特定する第2の工程と、
前記制御手段が、前記第2の工程で特定した山の位置のレベルを第1のレベルとして特定するとともに、谷の位置のレベルを第2のレベルとして特定する第3の工程と、
前記制御手段が、前記第2のレベルに対する前記第1のレベルの比率が大きいほど明瞭度が高くなるように、前記第1のレベルと前記第2のレベルとに基づいて音声の明瞭度を算出する第4の工程と、
前記制御手段が、算出された明瞭度を示す明瞭度情報を出力する第5の工程と
を具備することを特徴とする音声評価方法。
【請求項1】
音声を表す音声信号を予め定められた複数の周波数成分毎に分析し、周波数成分毎のレベルを算出するレベル算出手段と、
前記レベル算出手段により算出された周波数成分毎のレベルを周波数の昇順又は降順に整列したときにそのレベルの変化が山となって現れる位置を特定するとともに、そのレベルの変化が谷となって現れる位置を特定する位置特定手段と、
前記位置特定手段が特定した山の位置のレベルを第1のレベルとして特定するとともに、前記位置特定手段が特定した谷の位置のレベルを第2のレベルとして特定するレベル特定手段と、
前記レベル特定手段が特定した第1のレベルと第2のレベルとに基づいて前記音声の明瞭度を算出する算出手段であって、前記第2のレベルに対する前記第1のレベルの比率が大きくなるほど明瞭度が高くなるように当該明瞭度を算出する明瞭度算出手段と、
前記明瞭度算出手段が算出した明瞭度を示す明瞭度情報を出力する明瞭度情報出力手段と
を具備することを特徴とする音声評価装置。
【請求項2】
音声を表す音声信号を予め定められた複数の周波数成分毎に分析し、周波数成分毎のレベルを算出するレベル算出手段と、
前記レベル算出手段が算出した周波数成分毎のレベルを、当該レベルの降順に整列する整列手段と、
前記整列手段によって整列されたレベルの列において予め定められた第1の順位のレベルを前記第1のレベルとして特定するとともに、前記整列手段によって整列されたレベルの列において前記第1の順位よりも低い予め定められた第2の順位のレベルを前記第2のレベルとして特定するレベル特定手段と、
前記レベル特定手段が特定した第1のレベルと第2のレベルとに基づいて前記音声の明瞭度を算出する算出手段であって、前記第2のレベルに対する前記第1のレベルの比率が大きくなるほど明瞭度が高くなるように当該明瞭度を算出する明瞭度算出手段と、
前記明瞭度算出手段が算出した明瞭度を示す明瞭度情報を出力する明瞭度情報出力手段と
を具備することを特徴とする音声評価装置。
【請求項3】
前記明瞭度情報出力手段が出力した明瞭度情報に基づいて、当該明瞭度情報の示す明瞭度を報知する明瞭度報知手段
を備えることを特徴とする請求項1又は2に記載の音声評価装置。
【請求項4】
前記音声信号のレベルを算出する第2のレベル算出手段と、
前記音声信号において予め定められた周波数帯域のレベルを算出する第3のレベル算出手段と、
前記第2のレベル算出手段が算出したレベルに対する前記第3のレベル算出手段が算出したレベルの比率が大きくなるほど評価が高くなるように、前記第2のレベル算出手段が算出したレベルと前記第3のレベル算出手段が算出したレベルとに基づいて、前記音声の声質を評価する声質評価手段と、
前記声質評価手段の評価結果を示す声質評価情報を出力する声質評価情報出力手段と
を具備することを特徴とする請求項1乃至3のいずれかに記載の音声評価装置。
【請求項5】
前記声質評価情報出力手段が出力した声質評価情報に基づいて、当該声質評価情報の示す声質評価結果を報知する声質評価結果報知手段
を備えることを特徴とする請求項4に記載の音声評価装置。
【請求項6】
前記明瞭度算出手段が算出した明瞭度に応じて、前記声質評価手段の評価結果を修正する声質評価修正手段を備え、
前記声質評価情報出力手段は、前記声質評価修正手段により修正された評価結果を示す評価結果情報を出力する
ことを特徴とする請求項5に記載の音声評価装置。
【請求項7】
制御手段を備えた音声評価装置の音声評価方法であって、
前記制御手段が、音声を表す音声信号を予め定められた複数の周波数成分毎に分析し、周波数成分毎のレベルを算出する第1の工程と、
前記制御手段が、算出した周波数成分毎のレベルを周波数の昇順又は降順に整列したときに、そのレベルの変化が山となって現れる位置を特定するともに、そのレベルの変化が谷となって現れる位置を特定する第2の工程と、
前記制御手段が、前記第2の工程で特定した山の位置のレベルを第1のレベルとして特定するとともに、谷の位置のレベルを第2のレベルとして特定する第3の工程と、
前記制御手段が、前記第2のレベルに対する前記第1のレベルの比率が大きいほど明瞭度が高くなるように、前記第1のレベルと前記第2のレベルとに基づいて音声の明瞭度を算出する第4の工程と、
前記制御手段が、算出された明瞭度を示す明瞭度情報を出力する第5の工程と
を具備することを特徴とする音声評価方法。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【公開番号】特開2008−145940(P2008−145940A)
【公開日】平成20年6月26日(2008.6.26)
【国際特許分類】
【出願番号】特願2006−335807(P2006−335807)
【出願日】平成18年12月13日(2006.12.13)
【出願人】(000004075)ヤマハ株式会社 (5,930)
【Fターム(参考)】
【公開日】平成20年6月26日(2008.6.26)
【国際特許分類】
【出願日】平成18年12月13日(2006.12.13)
【出願人】(000004075)ヤマハ株式会社 (5,930)
【Fターム(参考)】
[ Back to top ]