音声評価装置及び音声評価方法

【課題】利用者が歌唱音声の明瞭度を把握することのできる技術を提供する。
【解決手段】カラオケ装置１の制御部１１は、マイクロフォン１５が収音した音声のスペクトルを検出する。次いで、制御部１１は、検出されたスペクトルに基づいてフォルマントレベルを特定するとともに、スペクトルの谷のレベルを特定する。次いで、制御部１１は、谷のレベルに対するフォルマントレベルの比率が大きくなるほど明瞭度が高くなるように、フォルマントレベルと谷のレベルとに基づいて音声の明瞭度を算出する。そして、制御部１１は、算出した明瞭度を表す画像を表示部１３に表示させる。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、音声を評価する技術に関する。
【背景技術】
【０００２】
利用者の歌唱の巧拙を評価する歌唱評価機能を備えた各種のカラオケ装置が提供されている。この種のカラオケ装置として、例えば、特許文献１には、利用者の歌唱位置を検出するとともに、歌唱音声の各音楽要素とその歌唱位置に対応した基準音声の基準フレームの各音楽要素と比較し、この比較結果に基づいて歌唱を評価することによって、歌唱音声の音程、音量及び声質などを評価する装置が提案されている。
【特許文献１】特開２００１−１１７５６８号公報
【発明の開示】
【発明が解決しようとする課題】
【０００３】
ところで、歌唱音声の音程や音量によって巧拙が評価される以外にも、音声の明瞭度によっても聴取者による歌唱の巧拙の評価が左右される場合もある。例えば、聴取者によっては音声が明瞭であるほど評価が高いと感じるものもいる。このような音声の明瞭度を利用者が把握できれば好適である。
本発明は上述した背景の下になされたものであり、利用者が音声の明瞭度を把握することのできる技術を提供することを目的とする。
【課題を解決するための手段】
【０００４】
本発明の好適な態様である音声評価装置は、音声を表す音声信号を予め定められた複数の周波数成分毎に分析し、周波数成分毎のレベルを算出するレベル算出手段と、前記レベル算出手段により算出された周波数成分毎のレベルを周波数の昇順又は降順に整列したときにそのレベルの変化が山となって現れる位置を特定するとともに、そのレベルの変化が谷となって現れる位置を特定する位置特定手段と、前記位置特定手段が特定した山の位置のレベルを第１のレベルとして特定するとともに、前記位置特定手段が特定した谷の位置のレベルを第２のレベルとして特定するレベル特定手段と、前記レベル特定手段が特定した第１のレベルと第２のレベルとに基づいて前記音声の明瞭度を算出する算出手段であって、前記第２のレベルに対する前記第１のレベルの比率が大きくなるほど明瞭度が高くなるように当該明瞭度を算出する明瞭度算出手段と、前記明瞭度算出手段が算出した明瞭度を示す明瞭度情報を出力する明瞭度情報出力手段とを具備することを特徴としている。
【０００５】
また、本発明の別の好適な態様である音声評価装置は、音声を表す音声信号を予め定められた複数の周波数成分毎に分析し、周波数成分毎のレベルを算出するレベル算出手段と、前記レベル算出手段が算出した周波数成分毎のレベルを、当該レベルの降順に整列する整列手段と、前記整列手段によって整列されたレベルの列において予め定められた第１の順位のレベルを前記第１のレベルとして特定するとともに、前記整列手段によって整列されたレベルの列において前記第１の順位よりも低い予め定められた第２の順位のレベルを前記第２のレベルとして特定するレベル特定手段と、前記レベル特定手段が特定した第１のレベルと第２のレベルとに基づいて前記音声の明瞭度を算出する算出手段であって、前記第２のレベルに対する前記第１のレベルの比率が大きくなるほど明瞭度が高くなるように当該明瞭度を算出する明瞭度算出手段と、前記明瞭度算出手段が算出した明瞭度を示す明瞭度情報を出力する明瞭度情報出力手段とを具備することを特徴としている。
【０００６】
上述した態様において、前記明瞭度情報出力手段が出力した明瞭度情報に基づいて、当該明瞭度情報の示す明瞭度を報知する明瞭度報知手段を備えてもよい。
また、上述した態様において、前記音声信号のレベルを算出する第２のレベル算出手段と、前記音声信号において予め定められた周波数帯域のレベルを算出する第３のレベル算出手段と、前記第２のレベル算出手段が算出したレベルに対する前記第３のレベル算出手段が算出したレベルの比率が大きくなるほど評価が高くなるように、前記第２のレベル算出手段が算出したレベルと前記第３のレベル算出手段が算出したレベルとに基づいて、前記音声の声質を評価する声質評価手段と、前記声質評価手段の評価結果を示す声質評価情報を出力する声質評価情報出力手段とを具備してもよい。
また、上述した態様において、前記声質評価情報出力手段が出力した声質評価情報に基づいて、当該声質評価情報の示す声質評価結果を報知する声質評価結果報知手段を備えてもよい。
【０００７】
また、上述した態様において、前記明瞭度算出手段が算出した明瞭度に応じて、前記声質評価手段の評価結果を修正する声質評価修正手段を備え、前記声質評価情報出力手段は、前記声質評価修正手段により修正された評価結果を示す評価結果情報を出力してもよい。
【発明の効果】
【０００８】
本発明によれば、利用者が音声の明瞭度を把握することができる。
【発明を実施するための最良の形態】
【０００９】
次に、本発明を実施するための最良の形態を説明する。
＜Ａ：構成＞
図１は、この発明の一実施形態であるカラオケ装置１のハードウェア構成を示すブロック図である。図において、制御部１１は、ＣＰＵ（Central Processing Unit）やＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）を備え、ＲＯＭ又は記憶部１２に記憶されているコンピュータプログラムを読み出して実行することにより、バスＢＵＳを介してカラオケ装置１の各部を制御する。記憶部１２は、制御部１１によって実行されるプログラムやその実行時に使用されるデータを記憶するための記憶手段であり、例えばハードディスク装置である。表示部１３は、液晶パネルなどを備え、制御部１１の制御の下で、カラオケ装置１を操作するためのメニュー画面や、背景画像に歌詞テロップを重ねたカラオケ画面などの各種画面を表示する。操作部１４は、利用者による操作に応じた信号を制御部１１に出力する。マイクロフォン１５は、利用者が発音した音声を収音し、収音した音声を表す音声信号（アナログ信号）を出力する。音声処理部１６は、マイクロフォン１５が出力する音声信号（アナログ信号）をデジタルデータに変換する。また、音声処理部１６は、デジタルデータをアナログ信号に変換してスピーカ１７に出力する。スピーカ１７は、音声処理部１６でデジタルデータからアナログ信号に変換され出力される音声信号に応じた強度で放音する放音手段である。
【００１０】
なお、この実施形態では、マイクロフォン１５とスピーカ１７とがカラオケ装置１に含まれている場合について説明するが、音声処理部１６に入力端子及び出力端子を設け、オーディオケーブルを介してその入力端子に外部マイクロフォンを接続する構成としても良く、同様に、オーディオケーブルを介してその出力端子に外部スピーカを接続するとしても良い。また、この実施形態では、マイクロフォン１５から音声処理部１６へ入力される音声信号及び音声処理部１６からスピーカ１７へ出力される音声信号がアナログ音声信号である場合について説明するが、デジタル音声データを入出力するようにしても良い。このような場合には、音声処理部１６にてＡ／Ｄ変換やＤ／Ａ変換を行う必要はない。
【００１１】
記憶部１２は、図示のように、伴奏データ記憶領域１２１と、背景画データ記憶領域１２２と、歌詞データ記憶領域１２３と、お手本音声データ記憶領域１２４とを有している。伴奏データ記憶領域１２１には、ＭＩＤＩ（Musical Instruments Digital Interface）形式などのデータ形式であって、各楽曲の伴奏楽音を構成する伴奏データが楽曲毎に記憶されている。背景画データ記憶領域１２２には、カラオケ伴奏の際に表示される背景画像を表す背景画データが記憶されている。歌詞データ記憶領域１２３には、カラオケ伴奏の際に歌詞テロップとして表示される楽曲の歌詞を表す歌詞データが記憶されている。お手本音声データ記憶領域１２４には、楽曲のお手本となる音声（以下、「お手本音声」）を表す例えばＷＡＶＥ形式などの音声データが記憶されている。
【００１２】
＜Ｂ：動作＞
次に、カラオケ装置１が行う処理の流れについて、図２に示すフローチャートを参照しつつ説明する。まず、利用者は、カラオケ装置１の操作部１４を操作して、歌唱したい楽曲を選択する操作を行う。操作部１４は、操作された内容に応じた信号を制御部１１へ出力する。制御部１１は、操作部１４から出力される操作信号に応じて楽曲を選択する（ステップＳ１）。
制御部１１は、選択した楽曲の背景画と歌詞テロップを表示部１３に表示させるとともに、カラオケ伴奏を開始する（ステップＳ２）。すなわち、制御部１１は、伴奏データ記憶領域１２１から伴奏データを読み出して音声処理部１６に供給し、音声処理部１６は、伴奏データをアナログ信号に変換し、スピーカ１７に供給する。スピーカ１７は、供給されるアナログ信号に応じて、伴奏音を放音する。また、制御部１１は、歌詞データ記憶領域１２３から歌詞データ読み出すとともに、背景画データ記憶領域１２２から背景画データを読み出して、歌詞テロップと背景画を表示部１３に表示させる。
【００１３】
練習者は、スピーカ１７から放音される伴奏にあわせて歌唱を行う。このとき、練習者の音声はマイクロフォン１５によって収音されて音声信号に変換され、音声処理部１６へと出力される（ステップＳ３）。音声処理部１６は、マイクロフォンから出力される音声信号をデジタルデータ（以下、単に「音声信号」という）に変換する。
【００１４】
制御部１１は、音声信号を所定時間長（例えば、「３msec」）のフレーム単位に分析し、フレーム単位で音声のレベルとスペクトルとを検出する（ステップＳ４）。すなわち、制御部１１は、フレーム単位で音声信号のレベルを検出するとともに、音声信号を複数の周波数成分に分離し、周波数成分毎のレベルを算出（スペクトルを検出）する。この実施形態では、制御部１１は、ＦＦＴ（Fast Fourier Transform）を用いて音声からスペクトルを検出する。
図３は、スペクトルの検出結果を示す図である。図３において、横軸は周波数を示し、縦軸はレベルを示す。図３においては、音声信号Ｓ１と音声信号Ｓ２の２つの音声信号のスペクトルを示している。
【００１５】
次いで、制御部１１は、検出したスペクトルにおいて、レベルの変化が山となって現れる位置を特定するとともに、レベルの変化が谷となって現れる位置を特定し、特定した山の位置のレベルをフォルマントレベル（第１のレベル）として特定するとともに、特定した谷の位置のレベルを谷レベル（第２のレベル）として特定する（ステップＳ５）。
ここで、この実施形態において制御部１１が行うステップＳ５に示すレベル特定処理について説明する。まず、制御部１１は、ステップＳ４において算出した周波数成分毎のレベルを、当該レベルの降順に整列する。図４は、図３に示したスペクトル検出結果について、レベルの降順にソートした内容を示す図である。図４において、横軸は要素の数を示し、縦軸はレベルを示す。この実施形態では、ソートされたレベルの列において先頭から１／４に位置する周波数成分のレベルを山レベルとみなし、一方、３／４に位置するレベルを谷レベルとみなす。すなわち、制御部１１は、ソートされたレベルの列において、先頭から１／４に位置するレベルをフォルマントレベルとして特定する。また、制御部１１は、ソートされたレベルの列において、先頭から３／４番目に位置するレベルを谷レベルとして特定する。図４に示す例においては、レベルＬ１がフォルマントレベルとして特定され、レベルＬ２が谷レベルとして特定される。このように、先頭から全体の総数に対する１／４番目のレベルと全体の総数に対する３／４番目のレベルを特定することで、フォルマントレベルと谷レベルに近い値を特定することができる。
【００１６】
次いで、制御部１１は、フォルマントレベルと谷レベルとに基づいて、音声の明瞭度を算出する（ステップＳ６）。このとき、制御部１１は、谷レベルに対するフォルマントレベルの比率が大きくなるほど明瞭度が高くなるように、明瞭度の算出処理を行う。この実施形態では、制御部１１は、以下の式を用いて、フォルマントレベルＡと谷レベルＢから明瞭度Ｃ（ｄＢ）を算出する。
Ｃ＝２０＊log（Ａ／Ｂ）…（式１）
【００１７】
このように、谷レベルに対するフォルマントレベルの比率が高いほど明瞭度が高い。具体的には、例えば、図４に示す例においては、音声信号Ｓ１のほうが音声信号Ｓ２よりも谷レベルに対するフォルマントレベルの比率が高く、これにより、音声信号Ｓ１の明瞭度は音声信号Ｓ２の明瞭度よりも高くなる。
【００１８】
次いで、制御部１１は、声質の評価を行う。まず、制御部１１は、音声信号から高域周波数帯域のレベル（以下、「高域レベル」）を算出する（ステップＳ７）。この実施形態では、制御部１１は、１ｋＨｚ以上の周波数帯域のレベルを高域レベルとして算出する。次いで、制御部１１は、ステップＳ４で算出した全帯域のレベルとステップＳ７で算出した高域レベルとの比率に応じて声質を評価する（ステップＳ８）。このとき、制御部１１は、ステップＳ４で算出したレベルに対するステップＳ７で算出したレベルの比率が大きくなるほど評価が高くなるように、音声の声質評価処理を行う。この実施形態では、制御部１１は、以下の式を用いて、ステップＳ７で算出した高域レベルＥと、ステップＳ４で算出した全帯域のレベルＦとを用いて声質値Ｄを算出する。
Ｄ＝２０＊log（Ｅ／Ｆ）…（式２）
このように、この実施形態では、制御部１１は、音声に含まれる高域の周波数成分が多いほど声質の評価を高くする。
【００１９】
図５は、ステップＳ８に示す声質の評価の一例を説明するための図である。図５は、音声信号のスペクトルを表す図であり、図５において、横軸は周波数を示し、縦軸はレベルを示す。また、図５においては、音声信号Ｓ３と音声信号Ｓ４との２つの相異なる音声信号のスペクトルを示している。図５において、全体のレベルに対する高域レベルの比率は、音声信号Ｓ３のほうが音声信号Ｓ４よりも大きく、そのため、音声信号Ｓ３と音声信号Ｓ４との声質値をそれぞれ算出すると、音声信号Ｓ３の声質値が音声信号Ｓ４の声質値よりも高くなる。
【００２０】
次いで、制御部１１は、ステップＳ６で算出した明瞭度を示す明瞭度情報と、ステップＳ８で算出した声質の評価結果を表す声質評価情報とを、表示部１３に出力する。表示部１３は、制御部１１から供給される明瞭度情報に基づいて、当該明瞭度情報の示す明瞭度を表示することによって利用者に報知する（ステップＳ９）。
【００２１】
図６は、表示部１３に表示される画面の一例を示す図である。図示のように、表示部１３には、歌詞テロップＡ１と、明瞭度の度合いを示す棒グラフＡ２と、声質の度合いを示す棒グラフＡ３とが表示される。棒グラフＡ２の棒線Ａ２１の長さにより明瞭度の高低が表される。また、棒グラフＡ３の棒線Ａ３１の長さにより声質の評価結果が表される。制御部１１は、算出した明瞭度に基づいた長さの棒線Ａ２１を表示部１３に表示させるとともに、算出した声質の評価結果に基づいた長さの棒線Ａ３１を表示部１３に表示させる。
【００２２】
利用者は、表示部１３に表示される棒グラフＡ２を視認することで、自身の音声の明瞭度の度合いを把握することができる。また、利用者は、表示部１３に表示される棒グラフＡ３を視認することで、声質の評価結果を把握することができる。
【００２３】
制御部１１は、処理を終了するか否かを判定する（ステップＳ１０）。この判定は、例えば、楽曲の伴奏音の再生が終了したか、又は、利用者によって伴奏音の再生を中断するための操作が行われたか否かを判定することによって行ってもよい。制御部１１は、処理を終了すると判定した場合には（ステップＳ１０；ＹＥＳ）、そのまま処理を終了する一方、処理を継続すると判定した場合には（ステップＳ１０；ＮＯ）、ステップＳ３の処理へ戻り、音声を収音し、収音した音声に基づいて明瞭度や声質を報知する処理を繰り返し行う（ステップＳ３〜ステップＳ９）。なお、この実施形態では、制御部１１は、明瞭度を算出した後に声質値を算出したが、処理の順序はこれに限らず、声質値の算出を先に行うようにしてもよく、その処理順序は任意である。
【００２４】
ステップＳ３〜ステップＳ９の処理が繰り返されることにより、表示される棒線Ａ２１の長さと棒線Ａ３１の長さとは、利用者の音声の明瞭度と声質とに応じて、時間の経過に伴って変動する。すなわち、この実施形態では、歌唱している最中に、その歌唱音声の明瞭度と声質とが、リアルタイムで利用者に報知される。
【００２５】
このように、この実施形態では、利用者が歌唱を行うと、カラオケ装置１は、その歌唱音声に応じて明瞭度や声質を利用者に報知する。これにより、利用者は、自身の歌唱音声の明瞭度や声質を把握することができる。
また、この実施形態では、カラオケ装置１が、利用者の歌唱音声に応じて声質の評価結果を報知する。これにより、利用者は、自身の声質がどのようなものであるかを把握することができる。また、この実施形態では、利用者が歌唱を行っている最中に、利用者が良い声（声質、明瞭度等）で歌ったかどうかが即座に画面に表示されるため、利用者は、より良い声で歌うことを意識することができる。
【００２６】
＜Ｃ：変形例＞
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されることなく、他の様々な形態で実施可能である。以下にその一例を示す。
（１）上述の実施形態では、音声信号にＦＦＴを施してスペクトルを検出することによって音声信号を周波数成分毎に分析した。音声信号を分析する方法はこれに限らず、例えば、複数のバンドパスフィルタの出力を用いて分析を行ってもよい。この場合は、例えば、複数のバンドパスフィルタの出力に基づいて所定の周波数帯域のレベルを算出し、算出した所定の周波数帯域のレベルと全体のレベルとの比に応じて声質を評価すればよい。
【００２７】
（２）上述の実施形態では、制御部１１が、スペクトルを検出して、図３に示すような、周波数の昇順に整列したときにレベルの変化が山となって現れる位置と谷となって現れる位置とを特定する構成としたが、昇順に限らず、降順に整列してもよい。レベルの変化が山となって現れる位置と谷となって現れる位置とを特定できる態様であればよい。
また、上述の実施形態では、制御部１１が、図４に示すように、周波数成分毎のレベルをレベルの降順に整列したが、昇順に整列してもよい。
【００２８】
（３）上述した実施形態では、複数の周波数成分をレベルの高い順にソート（整列）し、そのソート結果を用いてフォルマントレベルと谷レベルとを特定した。フォルマントレベルと谷レベルとの特定方法はこれに限らず、フォルマントレベルと谷レベルとを特定できるものであればどのようなものであってもよい。
その一例として、フォルマントを用いた算出方法を以下に示す。まず、制御部１１は、音声信号にＦＦＴを施してスペクトルを算出する。次いで、制御部１１は、その分析の結果得られた周波数スペクトルから、第１、第２、及び第３フォルマントと夫々対応するフォルマントレベルを抽出する。フォルマントとは、音声のスペクトル上の優勢な周波数成分であり、周波数の低い順に第１フォルマント、第２フォルマント、第３フォルマント、第４フォルマント…と呼ばれる。制御部１１は、フォルマントレベルを抽出すると、今度は、第１フォルマントと第２フォルマントとの間の谷の位置におけるレベルを谷レベルとして特定する。
【００２９】
なお、上述の例では、第１フォルマントのフォルマントレベルと、第１フォルマントと第２フォルマントとの間の谷の位置におけるレベルを谷レベルとして特定したが、これに限らず、第ｎフォルマント（ｎは自然数）のフォルマントレベルと、第ｎフォルマントと第（ｎ＋１）フォルマントとの間の谷の位置におけるレベルとを特定すればよく、ｎの値は１に限定されない。具体的には、例えば、第２フォルマントのフォルマントレベルと第２フォルマントと第３フォルマントとの間の谷の位置のレベルとを特定してもよい。
このように、特定する山の位置は、１番目に現れる山（第１フォルマント）であってもよく、また、２番目に現れる山（第２フォルマント）であってもよく、第ｎ番目に現れる山（第ｎフォルマント：ｎは自然数）であればよい。同様に、特定する谷の位置は、第ｎ番目（ｎは自然数）に現れる谷の位置であればよい
【００３０】
（４）上述の実施形態では、（式１）を用いて明瞭度を算出したが、明瞭度の算出方法はこれに限定されるものではない。例えば、スペクトルを算出し、算出したスペクトルにおいてレベルの変化が山となって現れる位置を特定するとともに、レベルの変化が谷となって現れる位置を特定し、山レベルと谷レベルとの差値を算出してその差値が大きくなるほど明瞭度が高くなるように明瞭度を算出するようにしてもよい。要するに、谷レベルに対する山レベルの比率が大きいほど明瞭度が高くなるような算出方法であればどのようなものであってもよい。
【００３１】
また、上述の実施形態では、（式２）を用いて声質値を算出したが、声質値の算出方法はこれに限定されるものではなく、要するに、声質の評価方法は、全周波数帯域のレベルに対する高域周波数帯域のレベルの比率が大きくなるほど評価が高くなるように、声質を評価するものであればどのようなものであってもよい。
【００３２】
（５）上述した実施形態では、明瞭度の度合いを、それぞれの度合いを示す棒グラフを表示することによって報知した。報知の態様はこれに限らない。例えば、図７に示すように、明瞭度の度合いに応じて表示部１３に表示させる背景画を変更することによって明瞭度を報知してもよい。この場合は、例えば、明瞭度が高いほど、図７（ｂ）に示すように、表示する画像の数を多くし、一方、明瞭度が低いほど、図７（ａ）に示すように、表示する画像の数を少なくすることによって報知してもよい。
また、例えば、明瞭度に応じて背景色を変更することによって、明瞭度を報知してもよい。この場合は、例えば、明瞭度が高いほど、図８（ｂ）に示すように、背景色を明るくする一方、明瞭度が低いほど、図８（ａ）に示すように、背景色を暗くしてもよい。また、例えば、図９に示すように、明瞭度の度合いを示すメータＡ５を表示部１３に表示させることによって報知してもよい。図９においては、メータＡ５における針Ａ５１の位置によって明瞭度が報知される。また、明瞭度の報知の態様は表示に限らず、例えば、明瞭度を表す音声メッセージを放音することによって報知してもよい。要するに、制御部１１が算出した明瞭度を報知するものであればどのような態様であってもよい。
【００３３】
また、声質の評価の報知態様も、上述した明瞭度の報知態様と同様であり、棒グラフを表示するに限らず、背景色の変更や音声メッセージの放音などによって声質の評価結果を報知してもよく、制御部１１による声質の評価結果を報知するものであればどのような態様であってもよい。
【００３４】
また、上述した実施形態では、制御部１１は、明瞭度を表す明瞭度情報や声質の評価結果を示す声質評価情報を表示部１３に出力した。明瞭度情報や声質評価結果情報の出力先は、表示部１３に限らず、例えば、通信ネットワークを介して明瞭度情報や声質評価結果情報を送信することによって出力してもよく、また、ハードディスクなどの記憶手段に出力して当該記憶手段に記憶させる態様であってもよい。要するに、制御部１１が、明瞭度情報や声質評価結果情報を出力すればよい。
【００３５】
（６）上述の実施形態では、マイクロフォン１５が収音する利用者の歌唱音声について明瞭度と声質度を算出した。これに加えて、お手本音声データ記憶領域１２４に記憶されたお手本音声データについても明瞭度と声質度とを算出し、表示部１３に表示することによって利用者に報知してもよい。この場合に表示される画面の一例を図１０及び図１１に示す。図１０において、棒グラフＡ２の棒線Ａ２１の長さにより利用者の明瞭度の高低が表され、一方、棒グラフＡ４の棒線Ａ４１の長さによりお手本音声の明瞭度の高低が表される。また、図１１において、メータＡ６における針Ａ６１の位置によって利用者の明瞭度が表され、一方、針Ａ６２の位置によってお手本音声の明瞭度が表される。この場合は、利用者の評価結果とお手本の評価結果とがあわせて報知されるから、利用者は、自身の歌唱と手本の歌唱とを比較することができる。
【００３６】
（７）上述した実施形態では、利用者の音声を評価したが、評価する音声はお手本音声のみであってもよい。この場合は、お手本音声の評価結果のみを表示させてもよい。また、例えば、複数の利用者が同時に歌唱を行い、それぞれの利用者の音声を評価して評価結果を並べて表示してもよい。このように、１つの音声を評価して報知してもよく、また、複数の音声を並列に評価してもよい。また、評価の対象となる音声は、マイクロフォン１５で収音される音声であってもよく、また、記憶部１２に予め記憶された音声データであってもよい。また、例えば、カラオケ装置１に通信部を設け、通信部を介して受信される音声データを評価してもよく、評価の対象となる音声は、音声を表すものであればどのようなものであってもよい。
【００３７】
（８）上述した実施形態においては、周波数成分をレベルの降順にソートし、ソートされた列において先頭から１／４の位置の周波数成分のレベルと３／４の位置の周波数成分のレベルとを特定した。特定する位置はこれに限らず、例えば、１／５番目の周波数成分のレベルと４／５番目の周波数成分のレベルとを特定してもよい。要するに、レベルの山と谷との差値に近い値を算出するものであればどのようなものであってもよく、予め定められた第１の位置に位置する周波数成分のレベルと予め定められた第２の位置に位置する周波数成分のレベルとの差値を算出すればよい。
【００３８】
（９）上述した実施形態では、明瞭度を示す棒グラフと声質の評価結果を示す棒グラフとをあわせて表示したが、これに限らず、明瞭度のみを報知する構成としてもよく、また、声質の評価結果のみを報知する構成としてもよい。
【００３９】
（１０）上述の実施形態において、明瞭度の度合いを声質の評価に関係させてもよい。この場合、制御部１１は、算出した明瞭度に応じて声質評価の評価結果を修正し、修正された評価結果を示す評価結果情報を表示部１３に出力してもよい。具体的には、例えば、制御部１１が、明瞭度が低いほど評価結果が低くなるように声質評価の評価結果を修正してもよい。また、例えば、算出された明瞭度が予め定められた閾値以下である場合には、声質の評価結果を予め定められた低い値にする（又は評価しない）ようにしてもよい。
例えば、利用者が、子音を伸ばして発音するといったように歌唱を不真面目に歌唱したとする。従来の装置では、このように利用者が不真面目に歌唱した場合であっても声質が高く評価される場合があったが、この実施形態では、明瞭度を評価に反映させることで、不真面目な歌唱を低く評価することができ、不真面目な歌唱が高く評価されるのを防ぐことができる。
【００４０】
（１１）上述した実施形態において、声質の評価結果を消費カロリに換算し、報知してもよい。この場合、制御部１１が、以下の式を用いて、声質値Ｇから消費カロリＨを算出してもよい。なお、以下の式において、ｋは係数を示す。
Ｈ＝k×Ｇ…（式３）
【００４１】
（１２）上述した実施形態では、音声信号のレベルと、その音声信号における１ｋＨｚ以上の周波数帯域のレベルとの比率に基づいて声質を評価した。声質の評価の態様はこれに限らず、例えば、音声信号のレベルとその音声信号における２ｋＨｚ以上の周波数帯域のレベルとの比率に応じて声質を評価してもよく、また、例えば、４ｋＨｚ以上の周波数帯域のレベルとの比率に応じて声質を評価してもよく、要するに、音声信号の全体のレベルとその音声信号において予め定められた周波数帯域のレベルとの比率に応じて音声の声質を評価する態様であればどのようなものであってもよい。
【００４２】
（１３）上述した実施形態では、カラオケ装置１を本発明に係る音声評価装置として適用したが、音声評価装置として適用される装置はカラオケ装置に限らず、例えばサーバ装置やパーソナルコンピュータ、移動体通信端末など、様々な装置が本発明に係る音声評価装置として適用可能である。
【００４３】
（１４）上述したカラオケ装置１の制御部１１によって実現されるプログラムは、磁気テープ、磁気ディスク、フレキシブルディスク、光記録媒体、光磁気記録媒体、ＲＡＭ、ＲＯＭなどの記録媒体に記録した状態で提供し得る。また、インターネットのようなネットワーク経由でカラオケ装置１にダウンロードさせることも可能である。
【図面の簡単な説明】
【００４４】
【図１】カラオケ装置１の構成の一例を示すブロック図である。
【図２】カラオケ装置１の処理の流れを示すフローチャートである。
【図３】音声のスペクトルの一例を示す図である。
【図４】音声の周波数成分毎のレベルをソートした結果を示す図である。
【図５】音声のスペクトルの一例を示す図である。
【図６】表示部１３に表示される画面の一例を示す図である。
【図７】表示部１３に表示される画面の一例を示す図である。
【図８】表示部１３に表示される画面の一例を示す図である。
【図９】表示部１３に表示される画面の一例を示す図である。
【図１０】表示部１３に表示される画面の一例を示す図である。
【図１１】表示部１３に表示される画面の一例を示す図である。
【符号の説明】
【００４５】
１…カラオケ装置、１１…制御部、１２…記憶部、１３…表示部、１４…操作部、１５…マイクロフォン、１６…音声処理部、１７…スピーカ、１２１…伴奏データ記憶領域、１２２…背景画データ記憶領域、１２３…歌詞データ記憶領域、１２４…お手本音声データ記憶領域。

【特許請求の範囲】
【請求項１】
音声を表す音声信号を予め定められた複数の周波数成分毎に分析し、周波数成分毎のレベルを算出するレベル算出手段と、
前記レベル算出手段により算出された周波数成分毎のレベルを周波数の昇順又は降順に整列したときにそのレベルの変化が山となって現れる位置を特定するとともに、そのレベルの変化が谷となって現れる位置を特定する位置特定手段と、
前記位置特定手段が特定した山の位置のレベルを第１のレベルとして特定するとともに、前記位置特定手段が特定した谷の位置のレベルを第２のレベルとして特定するレベル特定手段と、
前記レベル特定手段が特定した第１のレベルと第２のレベルとに基づいて前記音声の明瞭度を算出する算出手段であって、前記第２のレベルに対する前記第１のレベルの比率が大きくなるほど明瞭度が高くなるように当該明瞭度を算出する明瞭度算出手段と、
前記明瞭度算出手段が算出した明瞭度を示す明瞭度情報を出力する明瞭度情報出力手段と
を具備することを特徴とする音声評価装置。
【請求項２】
音声を表す音声信号を予め定められた複数の周波数成分毎に分析し、周波数成分毎のレベルを算出するレベル算出手段と、
前記レベル算出手段が算出した周波数成分毎のレベルを、当該レベルの降順に整列する整列手段と、
前記整列手段によって整列されたレベルの列において予め定められた第１の順位のレベルを前記第１のレベルとして特定するとともに、前記整列手段によって整列されたレベルの列において前記第１の順位よりも低い予め定められた第２の順位のレベルを前記第２のレベルとして特定するレベル特定手段と、
前記レベル特定手段が特定した第１のレベルと第２のレベルとに基づいて前記音声の明瞭度を算出する算出手段であって、前記第２のレベルに対する前記第１のレベルの比率が大きくなるほど明瞭度が高くなるように当該明瞭度を算出する明瞭度算出手段と、
前記明瞭度算出手段が算出した明瞭度を示す明瞭度情報を出力する明瞭度情報出力手段と
を具備することを特徴とする音声評価装置。
【請求項３】
前記明瞭度情報出力手段が出力した明瞭度情報に基づいて、当該明瞭度情報の示す明瞭度を報知する明瞭度報知手段
を備えることを特徴とする請求項１又は２に記載の音声評価装置。
【請求項４】
前記音声信号のレベルを算出する第２のレベル算出手段と、
前記音声信号において予め定められた周波数帯域のレベルを算出する第３のレベル算出手段と、
前記第２のレベル算出手段が算出したレベルに対する前記第３のレベル算出手段が算出したレベルの比率が大きくなるほど評価が高くなるように、前記第２のレベル算出手段が算出したレベルと前記第３のレベル算出手段が算出したレベルとに基づいて、前記音声の声質を評価する声質評価手段と、
前記声質評価手段の評価結果を示す声質評価情報を出力する声質評価情報出力手段と
を具備することを特徴とする請求項１乃至３のいずれかに記載の音声評価装置。
【請求項５】
前記声質評価情報出力手段が出力した声質評価情報に基づいて、当該声質評価情報の示す声質評価結果を報知する声質評価結果報知手段
を備えることを特徴とする請求項４に記載の音声評価装置。
【請求項６】
前記明瞭度算出手段が算出した明瞭度に応じて、前記声質評価手段の評価結果を修正する声質評価修正手段を備え、
前記声質評価情報出力手段は、前記声質評価修正手段により修正された評価結果を示す評価結果情報を出力する
ことを特徴とする請求項５に記載の音声評価装置。
【請求項７】
制御手段を備えた音声評価装置の音声評価方法であって、
前記制御手段が、音声を表す音声信号を予め定められた複数の周波数成分毎に分析し、周波数成分毎のレベルを算出する第１の工程と、
前記制御手段が、算出した周波数成分毎のレベルを周波数の昇順又は降順に整列したときに、そのレベルの変化が山となって現れる位置を特定するともに、そのレベルの変化が谷となって現れる位置を特定する第２の工程と、
前記制御手段が、前記第２の工程で特定した山の位置のレベルを第１のレベルとして特定するとともに、谷の位置のレベルを第２のレベルとして特定する第３の工程と、
前記制御手段が、前記第２のレベルに対する前記第１のレベルの比率が大きいほど明瞭度が高くなるように、前記第１のレベルと前記第２のレベルとに基づいて音声の明瞭度を算出する第４の工程と、
前記制御手段が、算出された明瞭度を示す明瞭度情報を出力する第５の工程と
を具備することを特徴とする音声評価方法。

【図１】