説明

発声評価装置、発声評価方法、及び発声評価プログラム

【課題】裏声に表声を混ぜる発声法を客観的に評価する発声評価装置、発声評価方法、及び発声評価プログラムを提供する。
【解決手段】マイクロフォン24から入力される音声情報における基本波及びその基本波を除く複数の高調波を抽出する抽出手段52と、予め定められた関係からその抽出手段52により抽出される基本波及び複数の高調波に基づいて前記音声情報における表声及び裏声の融合率を評価する評価手段54とを、備えたものであることから、自分が出した声において表声と裏声とがどれほどの割合で混ざっているのかを簡便に把握することができる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、発声評価装置、発声評価方法、及び発声評価プログラムに関し、特に、裏声に表声を混ぜる発声法を評価するための改良に関する。
【背景技術】
【0002】
音声入力装置から入力される音声情報に基づいて発声の評価を行う発声評価装置が知られている。例えば、特許文献1に記載された歌唱音声評価装置がそれである。この技術によれば、歌唱音声信号から抽出された周波数成分から、基本周波数成分と倍音周波数成分とがそれぞれ抽出される。抽出された基本周波数成分に対する倍音周波数成分の比率に応じて、歌唱音声の評価を示す評価値が算出される。これにより、カラオケ装置による演奏に関して人間の感性に近い演奏評価を行うことができるとされている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2005−107088号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
ところで、声楽における歌唱技法にファルセット(falsetto)があり、邦楽における裏声に相当する。この技法は、通常の歌唱法すなわち表声(地声)とは異なる喉の使い方をすることで比較的音高の高い音を発声可能とするものであり、例えばカウンターテナー(counter-tennor)等に代表される各種歌唱に用いられている。近年、ポピュラー音楽の歌手(アーティスト)にもこの裏声を用いて高音部を歌唱する歌手が増えてきており、また、単に裏声を出すのではなく、裏声に表声を混ぜて所謂太い声で発声することにより、地声で歌う部分との繋ぎ目を感じさせない歌い方が、玄人の趣を感じさせる技巧的な歌唱法として広く知られるようになってきた。
【0005】
上記のような背景において、例えば歌手を志す者やカラオケが上手くなりたい者等にとって、歌唱技能の向上のためには裏声に表声を混ぜて発声する歌唱法の習得が望まれるが、前記従来の技術のような従来一般的であった歌唱評価技術では、歌唱音声に関して裏声や表声の判定を行うことができなかった。このため、裏声に表声を混ぜる発声法のトレーニングでは、斯かる発声法が正しくできているか否かをその発声法に習熟した人に聞いてもらうより他になかった。しかし、人的なレッスンには高額な費用がかかることに加え、そもそも斯かる発声法に習熟した人が周囲にいない場合にはトレーニング自体が困難であった。すなわち、裏声に表声を混ぜる発声法を客観的に評価する技術は、未だ開発されていないのが現状であり、このような課題は、歌唱能力を向上させるトレーニングに関して本発明者等が鋭意研究を続ける過程において新たに見出したものである。
【0006】
本発明は、以上の事情を背景として為されたものであり、その目的とするところは、裏声に表声を混ぜる発声法を客観的に評価する発声評価装置、発声評価方法、及び発声評価プログラムを提供することにある。
【課題を解決するための手段】
【0007】
斯かる目的を達成するために、本第1発明の要旨とするところは、音声入力装置から入力される音声情報に基づいて発声の評価を行う発声評価装置であって、前記音声入力装置から入力される音声情報における基本波及びその基本波を除く複数の高調波を抽出する抽出手段と、予め定められた関係からその抽出手段により抽出される基本波及び複数の高調波に基づいて前記音声情報における表声及び裏声の融合率を評価する評価手段とを、備えたことを特徴とするものである。
【0008】
また、前記目的を達成するために、本第2発明の要旨とするところは、音声入力装置から入力される音声情報に基づいて発声の評価を行う発声評価方法であって、前記音声入力装置から入力される音声情報における基本波及びその基本波を除く複数の高調波を抽出する抽出過程と、予め定められた関係からその抽出過程において抽出される基本波及び複数の高調波に基づいて前記音声情報における表声及び裏声の融合率を評価する評価過程とを、含むことを特徴とするものである。
【0009】
また、前記目的を達成するために、本第3発明の要旨とするところは、音声入力装置から入力される音声情報に基づいて発声の評価を行う発声評価装置に備えられた電子制御装置を、前記音声入力装置から入力される音声情報における基本波及びその基本波を除く複数の高調波を抽出する抽出手段、及び、予め定められた関係からその抽出手段により抽出される基本波及び複数の高調波に基づいて前記音声情報における表声及び裏声の融合率を評価する評価手段として機能させることを特徴とする発声評価プログラムである。
【発明の効果】
【0010】
このように、前記第1発明によれば、前記音声入力装置から入力される音声情報における基本波及びその基本波を除く複数の高調波を抽出する抽出手段と、予め定められた関係からその抽出手段により抽出される基本波及び複数の高調波に基づいて前記音声情報における表声及び裏声の融合率を評価する評価手段とを、備えたものであることから、自分が出した声において表声と裏声とがどれほどの割合で混ざっているのかを簡便に把握することができる。すなわち、裏声に表声を混ぜる発声法を客観的に評価する発声評価装置を提供することができる。
【0011】
ここで、前記第1発明において、好適には、前記評価手段は、前記複数の高調波のスペクトル重心を前記基本波の周波数で除した値を指標値として前記評価を行うものである。このようにすれば、評価対象となる音声情報に表声と裏声とがどれほどの割合で混ざっているのかを実用的な態様で指標化することができる。
【0012】
また、好適には、前記関係は、前記指標値が大きいほど前記音声情報における表声の比率が高く裏声の比率が低いと評価するように定められたものである。このようにすれば、評価対象となる音声情報に表声と裏声とがどれほどの割合で混ざっているのかを実用的な態様で指標化することができる。
【0013】
また、好適には、前記抽出手段は、前記音声情報から発声者毎の声道特性を除去して得られる残差信号における複数の高調波を抽出するものである。このようにすれば、評価対象となる音声情報に表声と裏声とがどれほどの割合で混ざっているのかを実用的な態様で指標化することができる。
【0014】
また、好適には、前記評価手段により評価された表声及び裏声の融合率の経時変化を表示装置に表示させる表示手段を備えたものである。このようにすれば、自分が出した声において表声と裏声とがどれほどの割合で混ざっているのかを、発声した時間を追って視覚的に把握することができ、更に効率的な発声トレーニングが実現される。
【0015】
また、好適には、前記評価手段は、前記音声情報における表声及び裏声の融合率の経時変化に基づいて、その音声情報における表声と裏声との相互間の推移を評価するものである。このようにすれば、表声及び裏声を混ぜて歌う部分と地声で歌う部分との繋ぎ目を上手に歌えているか否かを簡便に把握することができ、更に効率的な発声トレーニングが実現される。
【0016】
また、好適には、前記評価手段は、前記音声情報における表声と裏声との相互間の推移に際して、前記融合率の経時変化量の単位時間あたりの変化率が小さいほどその音声情報における表声と裏声との相互間の推移に係るショックが小さいと評価するものである。このようにすれば、表声及び裏声を混ぜて歌う部分と地声で歌う部分との繋ぎ目を上手に歌えているか否かを実用的な態様で簡便に把握することができ、更に効率的な発声トレーニングが実現される。
【0017】
また、前記第2発明によれば、前記音声入力装置から入力される音声情報における基本波及びその基本波を除く複数の高調波を抽出する抽出過程と、予め定められた関係からその抽出過程において抽出される基本波及び複数の高調波に基づいて前記音声情報における表声及び裏声の融合率を評価する評価過程とを、含むことから、自分が出した声において表声と裏声とがどれほどの割合で混ざっているのかを簡便に把握することができる。すなわち、裏声に表声を混ぜる発声法を客観的に評価する発声評価方法を提供することができる。
【0018】
また、前記第3発明によれば、前記発声評価装置に備えられた電子制御装置を、前記音声入力装置から入力される音声情報における基本波及びその基本波を除く複数の高調波を抽出する抽出手段、及び、予め定められた関係からその抽出手段により抽出される基本波及び複数の高調波に基づいて前記音声情報における表声及び裏声の融合率を評価する評価手段として機能させる発声評価プログラムであることから、自分が出した声において表声と裏声とがどれほどの割合で混ざっているのかを簡便に把握することができる。すなわち、裏声に表声を混ぜる発声法を客観的に評価する発声評価プログラムを提供することができる。
【図面の簡単な説明】
【0019】
【図1】本発明の一実施例である発声評価装置の構成を例示するブロック図である。
【図2】図1の発声評価装置のCPUに備えられた制御機能の要部を説明する機能ブロック線図である。
【図3】人の発声における声道特性を説明するために発声の仕組みを概念的に示す図である。
【図4】母音「あ」の発声に対応する音声情報をLPC法により分析し、声道特性を除去した残差信号のスペクトルを例示する図であり、表声である音声情報に対応する。
【図5】母音「あ」の発声に対応する音声情報をLPC法により分析し、声道特性を除去した残差信号のスペクトルを例示する図であり、裏声である音声情報に対応する。
【図6】母音「あ」で上行、下行音階を発声した場合のピッチを時間毎にプロットした図である。
【図7】図6に示すものと同じ音声に対して複数の高調波成分のスペクトル重心を基本周波数で除した値を時間毎にプロットした図である。
【図8】図1の発声評価装置の表示装置に表示される、対象となる音声情報における表声及び裏声の融合率の経時変化を示すグラフを例示するものである。
【図9】図1の発声評価装置の表示装置に表示される、対象となる音声情報における表声及び裏声の融合率の経時変化を示すグラフを例示するものである。
【図10】図1の発声評価装置のCPUによる発声評価制御の要部を説明するフローチャートである。
【発明を実施するための形態】
【0020】
以下、本発明の好適な実施例を図面に基づいて詳細に説明する。
【実施例】
【0021】
図1は、本発明の一実施例である発声評価装置10の構成を例示するブロック図である。この図1に示すように、本実施例の発声評価装置10は、CPU12と、ROM14と、RAM16とを、備えている。このCPU12は、中央演算処理装置である。また、上記ROM14は、読出専用メモリである。また、上記RAM16は、随時書込読出メモリである。また、上記発声評価装置10は、ハードディスク18と、操作部20と、インターフェイス22とを、備えている。このハードディスク18は、記憶装置である。また、上記操作部20は、上記発声評価装置10における各種操作を行うための装置である。また、上記インターフェイス22は、上記操作部20からの入力信号を処理する装置である。また、上記発声評価装置10は、マイクロフォン24と、A/Dコンバータ26と、表示装置28と、映像出力制御部30とを、備えている。上記マイクロフォン24は、音声入力装置である。また、上記A/Dコンバータ26は、上記マイクロフォン24から入力された音声をディジタル信号に変換するための装置である。また、上記表示装置28は、TFT(Thin Film Transistor Liquid Crystal)等のディスプレイである。また、上記映像出力制御部30は、ビデオボード(グラフィックスボード)等の装置である。
【0022】
上記マイクロフォン24は、人の発声する音声等の音響(振動)を電気信号に変換する装置(電気音響変換器)である。このマイクロフォン24は、好適には、柄状(棒状)の本体の先端部に音声入力部が備えられて例えば気導音を拾う一般的なマイクロフォンが用いられる。また、好適には、人の咽喉部に接触させたパッチ状の振動ピックアップにより例えば固体伝導音を拾うマイクロフォンが用いられてもよい。また、上記A/Dコンバータ26は、上記マイクロフォン24から入力されるアナログ信号としての音声情報をディジタル信号に変換して前記CPU12等に供給する。また、上記映像出力制御部30は、上記CPU12から供給される情報に基づいて上記表示装置28による種々の映像表示を制御する表示制御装置である。
【0023】
前記発声評価装置10は、前記CPU12により前記RAM16の一時記憶機能を利用しつつ前記ROM14に予め記憶されたプログラムに従って信号処理を行う。すなわち、前記発声評価装置10は、所謂マイクロコンピュータ(電子制御装置)を含んで構成されている。斯かる構成により、前記CPU12は、後述する本実施例の発声評価制御に係る各種制御を実行する。なお、前記発声評価装置10は、前記CPU12、ROM14、及びRAM16等と同等の構成を備えた一般的なパーソナルコンピュータに前記マイクロフォン24等が備えられることにより構成されるものであってもよい。また、MIDI(Musical Instrument Digital Interface)音源及びアンプミキサ等の構成を備え、多数の演奏曲のうちから選択される演奏曲を出力させると共にマイクロフォンにより入力される音声を増幅して出力させるカラオケ装置に本発明が適用されるものであってもよい。
【0024】
図2は、前記発声評価装置10のCPU12に備えられた制御機能の要部を説明する機能ブロック線図である。この図2に示す録音手段50、抽出手段52、評価手段54、及び表示手段56は、好適には、何れも前記CPU12に機能的に備えられたものであるが、それぞれ個別の制御部として構成されると共に相互に情報の通信を行うことで以下に詳述する各種機能を実行するものであってもよい。更に、上記抽出手段52に含まれる音声分析手段58、声帯信号スペクトル推定手段60、特徴量抽出手段62、上記評価手段54に含まれる声区評価指標値算出手段64、表声/裏声発声能力評価手段66、換声点ショック評価手段68がそれぞれ個別の制御部として構成されると共に相互に情報の通信を行うことで以下に詳述する各種機能を実行するものであってもよい。
【0025】
上記録音手段50は、前記マイクロフォン24により入力された音声情報を録音する。例えば、そのマイクロフォン24により入力され、前記A/Dコンバータ26を介してディジタル信号に変換された音声情報を、前記ハードディスク18等に形成された音声データベース32に記憶(蓄積)する。例えば、AVI(Audio-Video Interleaved)形式のファイルやWAVEサウンドファイル等、所定形式の音声ファイルとして各ファイルに固有の識別情報を付して記憶する。上記録音手段50による録音乃至音声データベース32への記憶の態様としては、前記マイクロフォン24から入力される音声が途切れる毎(所定時間以上、音声が入力されない期間が生じる毎)に新たな音声ファイルとして記憶するものであってもよいし、予め定められた一定時間に前記マイクロフォン24から入力された音声に対応する音声情報を1単位の音声ファイルとして記憶するものであってもよい。また、好適には、前記マイクロフォン24により入力された音声情報を、発声主体である利用者(発声評価装置10による評価対象となる利用者)毎に、その利用者の識別情報と対応付けて上記音声データベース32に記憶する。
【0026】
前記発声評価装置10による発声評価に際して、前記録音手段50による録音の対象となる利用者(発声主体)の声は、好適には、表声と裏声とが少なくとも1回は切り換えられる(好適にはそれぞれ1回以上繰り返される)発声に相当するものとされる。ここで、前記録音手段50による録音の対象となる利用者の声は、前記マイクロフォン24から入力される利用者の音声(抽出手段52による抽出の対象乃至評価手段54による評価の対象となる音声情報に対応する発声)に相当する。なお、利用者の習熟度によっては表声と裏声とを上手く切り換えることができず、表声だけの発声或いは裏声だけの発声となる可能性がある。斯かる場合においては、表声と裏声が切り換えられている場合よりも低い評価が示される。また、前記録音手段50による録音の対象となる発声は、好適には、「あ」の発声を伸ばしたり上下降音階として発声する等、単一の母音に対応する発声において表声と裏声とを出し分けるものであることが好ましい。また、好適には、例えば既定の課題曲(単純なメロディ)を歌唱する等、子音を含むものであってもよい。
【0027】
前記抽出手段52は、前記マイクロフォン40から入力される音声情報における基本波及びその基本波を除く複数の高調波を抽出する。好適には、上記音声データベース32に記憶された音声情報から所定区間(例えば、予め定められた一定時間に相当する区間)のデータを読み出す。そして、その読み出されたデータに関して音声分析を行うことで基本波(フーリエ変換の結果得られる最も低い周波数に対応する成分)及びその基本波を除く複数の高調波(基本波の周波数の整数倍周波数に対応する成分)を抽出する。斯かる制御を行うために、前記抽出手段52は、音声分析手段58、声帯信号スペクトル推定手段60、及び特徴量抽出手段62を備えている。以下、各制御手段による処理について分説する。
【0028】
前記音声分析手段58は、前記マイクロフォン40から入力される音声情報に関して、所定のアルゴリズムに基づく音声分析を行う。例えば、音声分析手法として一般的に用いられるLPC(Linear Predictive Coding:線形予測符号)分析或いはケプストラム(Cepstrum)分析等により対象となる音声情報の音声解析を行う。好適には、上記音声データベース32に記憶された音声情報から所定区間のデータを読み出し、そのデータに関してLPC分析或いはケプストラム分析等の音声分析を行うことにより、対象となる音声情報から基本波の周波数(以下、基本周波数という)及び声道特性を推定する。この声道特性とは、例えば後述する図3に示すように発声主体である人毎に固有の値をとるものであり、フォルマント(formant:声道内の空気や共鳴周波数に対応する倍音群)と呼ばれる。すなわち、前記音声分析手段58は、好適には、対象となる音声情報の基本周波数をはじめとする各種情報を推定するものであり、例えば、声道特性に対応するフォルマント周波数、基本周波数(ピッチ情報)、音量(声量)に対応する信号強度、及び有声音乃至無声音の判別に係る情報等の推定(抽出)を行う。
【0029】
図3は、人の発声における声道特性を説明するために発声の仕組みを概念的に示す図である。人の発声においては、声帯の振動によって音声が発生させられるため、図3に示すように、その音声は音源としての声帯(声帯音源)から発生させられる声帯音源波と考えることができる。この声帯音源波が声道を通過することにより声道特性が付加され、最終的に口や鼻から音声(歌声)として発せられる。すなわち、人の音声は、声帯音源波を声道特性に対応するフィルタ(声道フィルタ)に通したものであるとみなすことができる。また、人の発声が表声(地声)であるか裏声であるかは、声道の通過に起因するものではなく専ら声帯の状態によって決定されるものであると考えられている。従って、音声から発声者毎に固有の声道特性(フォルマント)を除去し、その声道特性が除去された声帯音源波を解析することで、対象となる音声における表声及び裏声の好適な判別が可能となる。
【0030】
前記声帯信号スペクトル推定手段60は、前記録音手段50により録音された音声情報から、前記音声分析手段58により推定された声道特性を除去した信号のスペクトルを推定する。好適には、上記音声データベース32から読み出された所定区間のデータに関して、前記音声分析手段58により推定された声道特性を、そのデータから除去して得られる信号のスペクトルを推定する。例えば、LPC分析においては、前記音声分析手段58により推定された声道特性(周波数伝達特性)の逆フィルタを構成する。そして、対象となる音声情報を斯かる逆フィルタに通して残差信号を得た後、その残差信号のフーリエ変換によりスペクトルを推定する。また、ケプストラム分析においては、対象となる音声情報をローパスリフタに通す処理すなわちその音声情報の低ケフレンシ(quefrency)部をリフタ(lifter)で除去することにより残差信号を得た後、その残差信号のフーリエ変換によりスペクトルを推定する。
【0031】
前記特徴量抽出手段62は、前記音声分析手段58により得られた基本周波数等に基づいて、前記マイクロフォン24から入力される音声情報における基本波及びその基本波を除く複数の高調波を抽出する。例えば、前記声帯信号スペクトル推定手段60により推定されたスペクトルから、前記音声分析手段58により推定された基本周波数に基づいて、基本波を除く余の複数の高調波を抽出する。また、好適には、基本波及び各高調波の相対レベルを抽出する。すなわち、対象となる音声情報における基本波に対応する音圧レベルと各高調波に対応する音圧レベルとの相対的な比を抽出(算出)する。
【0032】
前記評価手段54は、予め定められた関係から前記抽出手段52により抽出される基本波及び複数の高調波に基づいて前記音声情報における表声及び裏声の評価を行う。好適には、対象となる音声情報における表声及び裏声の融合率を評価する。ここで、表声とは、地声とも呼ばれるものであり、声帯音源波において基本波に対する高調波のエネルギが裏声に比べて相対的に大きい傾向にある音声のシリーズ(声区)をいう。この表声は、発声機構的には声帯を取り巻く閉鎖筋群が輪状甲状筋に対して優位に働き、声帯全体が振動することにより生じているものと考えられる。また、裏声とは、ファルセットとも呼ばれるものであり、声帯音源波において基本波に対する高調波のエネルギが表声に比べて相対的に小さい傾向にある音声のシリーズ(声区)をいう。この裏声は、発声機構的には声帯を取り巻く輪状甲状筋が閉鎖筋群に対して優位に働き、声帯の辺縁部が振動することにより生じているものと考えられる。すなわち、本実施例において、表声と裏声とはそれぞれ異なる声区に属するものと考え、各声区の音声はそれぞれひとつのメカニズム(例えば、声帯の使い方)により発声されるものと考える。対象となる音声情報における表声及び裏声の融合率の評価を行うために、前記評価手段54は、声区評価指標値算出手段64、表声/裏声発声能力評価手段66、及び換声点ショック評価手段68を備えている。以下、各制御手段による処理について分説する。
【0033】
前記声区評価指標値算出手段64は、対象となる音声情報に関して前記抽出手段52により抽出された各情報に基づいて、その音声情報における2つの声区である表声及び裏声の融合状態(融合率)を算出する。好適には、この融合状態を指標化した1つの尺度値としての声区評価指標値(以下、単に指標値という)を算出する。好適には、対象となる音声情報における複数の高調波のスペクトル重心fgを基本波の周波数(基本周波数)f0で除した値(=fg/f0)を指標値として算出する。換言すれば、対象となる音声情報に関して前記特徴量抽出手段62により抽出される基本周波数及び各高調波に対応する周波数の相対レベル(音圧レベルの相対値)からスペクトル重心を算出する。そして、その算出されたスペクトル重心と、前記基本周波数(ピッチ周波数)との比を求め、その比を上記指標値として算出する。
【0034】
図4及び図5は、母音「あ」の発声に対応する音声情報をLPC法(14次)により分析し、声道特性を除去(キャンセル)した残差信号のスペクトルを例示する図である。また、図4が表声(地声)である音声情報に、図5が裏声である音声情報にそれぞれ対応する。図4及び図5のスペクトルを比較すると、表声と裏声では声帯音源の調波構造に差異が認められる。例えば、図4に示す表声に対応するスペクトルでは、周波数275(Hz)付近における基本波の音圧レベルと、周波数550(Hz)付近における第2高調波の音圧レベルとは略等しい。すなわち、全体として基本波に対する各高調波の相対レベルが高いことが認められる。一方、図5に示す裏声に対応するスペクトルでは、周波数400(Hz)付近における基本波の音圧レベルに比べて、周波数800(Hz)付近における第2高調波の音圧レベルが低く、周波数1200(Hz)付近における第3高調波の音圧レベルは更に低くなっている。すなわち、図5に示す裏声に対応するスペクトルでは、図4に示す表声に対応するスペクトルに比べて、高調波成分の基本波に対する相対レベルが低くなっていることがわかる。本実施例において、好適には、可及的に多数の高調波成分に基づいて前記評価手段54による表声及び裏声の評価を行う。すなわち、可及的に多数の高調波成分のスペクトル重心を求め、そのスペクトル重心を表声及び裏声の評価に用いる。斯かるスペクトル重心は、基本波の周波数(ピッチ周波数)にも依存する。そこで、本実施例においては、この基本波の周波数すなわち基本周波数の影響を排除するため、上述のようにスペクトル重心をその基本周波数で除すことにより、声帯音源の調波構造を指標化(規格化)する処理を行っている。
【0035】
前記表声/裏声発声能力評価手段66は、予め定められた関係から前記抽出手段52により抽出される基本波及び複数の高調波に基づいて対象となる音声情報における表声及び裏声の融合率を評価する。具体的には、前記声区評価指標値算出手段64により算出される指標値fg/f0に基づいて斯かる評価を行う。好適には、その指標値fg/f0が高いほど表声の比率が高く裏声の比率が低いと評価する。すなわち、前記表声/裏声発声能力評価手段66による評価の基準となる上記関係は、前記指標値fg/f0が大きいほど対象となる音声情報における表声の比率が高く裏声の比率が低いと評価するように予め定められたものである。
【0036】
図6は、母音「あ」で上行、下行音階を発声した場合のピッチ(基本周波数)を時間毎にプロットした図である。また、図7は、同じ音声に対して複数の高調波成分のスペクトル重心fgを基本周波数f0で除した値(=fg/f0)を時間毎にプロットした図である。また、図7においては、裏声の発声法に習熟している人が実際に発声を聞いて、その発声が裏声であると判定された区間を斜線範囲で示している。換言すれば、図7において斜線範囲で示されない余の区間は、発声が表声であると判定された区間に相当する。図7に示す例では、表声及び裏声の両声区間でfg/f0が連続的に変化しており、また、そのfg/f0が裏声に対応する区間では比較的低く、表声に対応する区間では比較的高い値となっていることがわかる。従って、複数の高調波成分のスペクトル重心fgを基本周波数f0で除した値であるfg/f0が、表声と裏声との混ざり具合である融合率を評価できる指標値となっていることがわかる。例えば、斯かる指標値が図7に破線で示す基準値(fg/f0=2.8程度)以上である場合には表声、その基準値未満である場合には裏声であるというように基準を定めることで、客観的且つ一義的に表声と裏声とを評価することができる。
【0037】
また、前記表声/裏声発声能力評価手段66は、好適には、前記声区評価指標値算出手段64により算出される指標値fg/f0の一定時間毎の分布状況を統計することにより対象となる音声情報における表声及び裏声の融合率を評価する。例えば、表声と裏声に分けて発声された一連の音声(すなわち、表声と裏声との相互間の推移を含む音声)に対応して前記録音手段50により録音されると共に前記抽出手段52により各関係値が抽出された音声情報に対して、前記声区評価指標値算出手段64により一定時間毎に前記指標値fg/f0を算出する。そして、その指標値fg/f0の分布状態を統計してヒストグラム化する。また、そのヒストグラムにおいて、表声及び裏声それぞれに対応する分布間の距離を求め、その距離に基づいて対象となる音声情報における表声及び裏声の発声を評価する。好適には、上記分布間の距離が大きいほど表声と裏声との出し分けができていると評価する一方、その距離が小さいほど表声と裏声との出し分けができていないと評価する。また、上記分布に基づいて、対象となる音声情報の発声主体である利用者毎に、前記指標値に係る表声と裏声との境界に相当する基準値(閾値)を定めるものであってもよい。
【0038】
前記換声点ショック評価手段68は、前記声区評価指標値算出手段64により算出される指標値fg/f0の経時変化に基づいて、その音声情報における表声と裏声との相互間の推移を評価する。換言すれば、斯かる指標値fg/f0の経時変化に基づいて、対象となる音声情報において表声及び裏声相互間における声区の転換が行われる箇所における換声点ショックを評価する。すなわち、表声と裏声とが切り替わる部分における換声点ショックを評価する。この換声点ショックとは、発声時における表声と裏声との変わり目で起こる急激な声区の転換を言い、また、斯かる声区の転換に伴い声量やピッチに生じる変動を言うものである。この換声点ショックは、裏声を発する場合に優位となる輪状甲状筋と表声を発する場合に優位となる閉鎖筋群との力関係が急激に変化するために発生する現象であると考えられる。また、輪状軟骨とその上後部左右にある披裂軟骨との関節部分の複雑な動きも原因となっているものと考えられる。例えば、図7に示す例においては、破線で示す基準値(fg/f0=2.8程度)が換声点に相当し、指標値の推移がその基準値を跨ぎ越す箇所が換声点に相当する。
【0039】
前記換声点ショック評価手段68は、好適には、前記声区評価指標値算出手段64により算出される指標値fg/f0の単位時間あたりの変化率(変化量の時間微分)に基づいて、その音声情報における表声と裏声との相互間の推移を評価する。例えば、対象となる音声情報に係る指標値fg/f0の単位時間あたりの変化率が小さい(変化が滑らかである)ほど換声点ショックが小さく、表声と裏声との相互間の推移を良好に実現できていると評価する。なお、この表声と裏声との相互間の推移を巧みに行うには、裏声に表声を混ぜる発声に習熟している必要があるため、上記換声点ショックの評価は表声及び裏声の融合率の評価に関連するものとなる。また、前記換声点ショック評価手段68は、好適には、対象となる音声情報に関して前記抽出手段52により抽出される基本波の周波数及び信号強度等の単位時間あたりの変化率に基づいて、その音声情報における表声と裏声との相互間の推移を評価する。ここで、前記抽出手段52により抽出される信号強度は、対象となる音声情報の音量に対応する。例えば、対象となる音声情報に係る基本周波数及び信号強度の単位時間あたりの変化率が小さい(変化が滑らかである)ほど換声点ショックが小さく、表声と裏声との相互間の推移を良好に実現できていると評価する。
【0040】
前記表示手段56は、前記評価手段54による評価結果を前記映像出力制御部30を介して前記表示装置28に表示させる。好適には、前記評価手段54により評価された表声及び裏声の融合率の経時変化を前記表示装置28に表示させる。図8及び図9は、前記表示手段56により前記表示装置28に表示された、対象となる音声情報における表声及び裏声の融合率の経時変化を示すグラフを例示するものであり、図8は、前述した図7の解析結果に対応するものである。これら図8及び図9に示すグラフは、所定の時間間隔(図8及び図9においては0.4ms)毎に、その時間内における音声情報の解析結果に対応して算出された指標値の平均値を求め、その平均値をグラフ化したものである。これら図8及び図9を比較すると、図8においては換声点すなわち破線で示す基準値を跨ぎ越す箇所において指標値fg/f0の変化勾配すなわち単位時間あたりの変化率が比較的緩い(変化が滑らかである)のに対して、図9においては比較的急である(変化が急激である)ことが認められる。すなわち、図8においては換声点における指標値fg/f0の単位時間あたりの変化率が比較的小さく、図9においては比較的大きいことがわかり、図8に対応する音声情報においては換声点ショックが比較的小さく、図9に対応する音声情報においては換声点ショックが比較的大きいものと評価できる。すなわち、前記評価手段54により評価された表声及び裏声の融合率の経時変化をグラフ化する等して前記表示装置28に表示させることで、利用者は簡便且つ客観的に換声点ショックの評価を確認することができる。
【0041】
以下、前記発声評価装置10のCPU12による本実施例の制御をフローチャートを用いて説明する。また、制御の内容を図示しないが、前記発声評価装置10は、以下のような発声録音制御を行う。すなわち、先ず、前記マイクロフォン24から前記A/Dコンバータ26を介して音声情報の入力があったか否かが判断される。この判断が否定される場合には、それをもって本ルーチンが終了させられるが、この判断が肯定される場合には、入力された音声情報が発声主体である利用者の識別情報と関連付けられて前記ハードディスク18等に形成された音声データベース32に記憶(蓄積)された後、本ルーチンが終了させられる。
【0042】
図10は、前記発声評価装置10のCPU12による発声評価制御の要部を説明するフローチャートであり、所定の周期で繰り返し実行されるものである。
【0043】
先ず、SB1において、前記ハードディスク18等に形成された音声データベース32に記憶された音声情報から所定区間のデータが読み出される。次に、SB2において、SB1にて読み出されたデータからLPC分析等の手法により声道特性、基本波の周波数(基本周波数)、有声/無声判別、及び信号強度等の情報が算出される。次に、SB3において、SB1にて読み出されたデータからSB2にて算出された声道特性を除去して得られる信号のスペクトルが算出される。次に、SB4において、SB3にて算出されたスペクトルからSB2にて算出された基本周波数に基づいて、基本波を除く余の複数の高調波が算出され、その基本波に対応する音圧レベルと各高調波に対応する音圧レベルとの相対レベルが算出される。次に、SB5において、SB4にて算出された基本波と各高調波の相対レベルから、SB3にて算出されたスペクトルにおける複数の高調波のスペクトル重心が算出され、そのスペクトル重心と基本周波数との比が算出される。次に、SB6において、SB5にて算出されたスペクトル重心と基本周波数との比を指標値として対象となる音声情報における表声及び裏声の融合率が評価される。次に、SB7において、SB6にて評価された表声及び裏声の融合率の経時変化を表示させるか否かが判断される。このSB7の判断が否定される場合には、SB9以下の処理が実行されるが、SB7の判断が肯定される場合には、SB8において、SB6にて評価された表声及び裏声の融合率(指標値)の経時変化を示すグラフ等が作成され、前記映像出力制御部30を介して前記表示装置28に表示された後、SB9において、換声点ショックの評価が行われるか否かが判断される。このSB9の判断が否定される場合には、それをもって本ルーチンが終了させられるが、SB9の判断が肯定される場合には、SB10において、SB6にて評価された表声及び裏声の融合率、SB2にて算出された基本周波数、信号強度等の推移に基づいて、表声と裏声との切替点である換声点におけるショックが評価され、その評価結果が前記映像出力制御部30を介して前記表示装置28に表示された後、本ルーチンが終了させられる。
【0044】
以上の制御において、SB1〜SB4が前記抽出手段52の動作乃至抽出過程に、SB5、SB6、及びSB10が前記評価手段54の動作乃至評価過程に、SB8及びSB10が前記表示手段56の動作に、SB2が前記音声分析手段58の動作に、SB3が前記声帯信号スペクトル推定手段60の動作に、SB4が前記特徴量抽出手段62の動作に、SB5が前記声区評価指標値算出手段64の動作に、SB6が前記表声/裏声発声能力評価手段66の動作に、SB10が換声点ショック評価手段68の動作にそれぞれ対応する。
【0045】
このように、本実施例によれば、音声入力装置である前記マイクロフォン24から入力される音声情報における基本波及びその基本波を除く複数の高調波を抽出する抽出手段52(SB1〜SB4)と、予め定められた関係からその抽出手段52により抽出される基本波及び複数の高調波に基づいて前記音声情報における表声及び裏声の融合率を評価する評価手段54(SB5、SB6、及びSB10)とを、備えたものであることから、自分が出した声において表声と裏声とがどれほどの割合で混ざっているのかを簡便に把握することができる。すなわち、裏声に表声を混ぜる発声法を客観的に評価する発声評価装置10を提供することができる。なお、男性と女性では声区が異なり、表声と裏声の使い分けだけでは歌唱技能を評価でき難いとする説もあるが、本実施例では、男性及び女性の声区を分けずに、男女共に表声と裏声で評価できる。
【0046】
また、前記評価手段54により評価された表声及び裏声の融合率の経時変化を前記表示装置28に表示させる表示手段56(SB8及びSB10)を備えたものであるため、自分が出した声において表声と裏声とがどれほどの割合で混ざっているのかを、発声した時間を追って視覚的に把握することができ、更に効率的な発声トレーニングが実現される。
【0047】
また、表声及び裏声を混ぜて歌う部分と地声で歌う部分との繋ぎ目を上手に歌えているか否かを簡便に把握することができ、更に効率的な発声トレーニングが実現される。
【0048】
また、本実施例によれば、前記マイクロフォン24から入力される音声情報における基本波及びその基本波を除く複数の高調波を抽出する抽出過程(SB1〜SB4)と、予め定められた関係からその抽出過程において抽出される基本波及び複数の高調波に基づいて前記音声情報における表声及び裏声の融合率を評価する評価過程(SB5、SB6、及びSB10)とを、含む発声評価方法を提供することができる。
【0049】
また、本実施例によれば、前記発声評価装置10に備えられた電子制御装置のCPU12を、前記抽出手段52及び評価手段54として機能させる発声評価プログラムを提供することができる。
【0050】
以上、本発明の好適な実施例を図面に基づいて詳細に説明したが、本発明はこれに限定されるものではなく、更に別の態様においても実施される。
【0051】
例えば、前述の実施例において、前記発声評価装置10は、前記表示装置28に図7又は図8等に示すような表声及び裏声の融合率に相当する指標値の経時変化を示すグラフを表示させるものであったが、本発明はこれに限定されるものではない。例えば、前記声区評価指標値算出手段64により算出される指標値のグラフ化に加えて、或いはその代替として、予め定められた評価基準からその指標値の推移に基づいて採点を行い、前記表示手段56によりその採点結果(点数)を前記表示装置28に表示させても良い。また、「裏声に表声を上手に混ぜることができています」、「表声から裏声への切り換えが急過ぎます」等のテキスト(文字映像)を前記表示装置28に表示させる等の制御を行うものであってもよい。
【0052】
また、前述の実施例においては、前記録音手段50により録音された音声情報が前記音声データベース32に記憶され、前記抽出手段52によりその音声データベース32に記憶された音声情報を読み出して音声解析等の処理を行う態様について説明したが、前記録音手段50により録音された音声情報についてリアルタイムで前記抽出手段52及び評価手段54等による処理が行われるものであってもよい。斯かる態様においては、利用者は自分の現時点における発声に係る表声と裏声との融合率をリアルタイムで確認することができ、更に効率的なトレーニングを実現することができる。
【0053】
また、本発明の発声評価装置乃至発声評価プログラムは、携帯電話機、電子書籍リーダ、インターネットや各種情報端末上のアプリケーションにも好適に適用されるものである。
【0054】
また、本発明の発声評価装置には、必要に応じて種々の付加的な構成が備えられる。例えば、発声主体である利用者に対してトレーニングに関する指示やアドバイス、或いはガイドメロディ等を出力させる音声出力部を備えたものであってもよい。また、前記マイクロフォン24から入力された音声を増幅して出力させるアンプ及びスピーカ等の構成を備えたものであってもよい。
【0055】
また、前述の実施例においては特に言及していないが、本発明の発声評価装置(発声評価方法)は、男性(男声)、女性(女声)の別に関係なく表声と裏声との融合率を評価できるものである。また、本発明による発声評価は、例えばインターネットを介しての通信発声法講座、カラオケ装置におけるアプリケーションとしての発声トレーニングモード(発声トレーニングゲーム)、パーソナルコンピュータにインストールされて用いられるソフトウェアとしての発声トレーニングソフト等、各種形態のトレーニングメニューに広く用いられるものである。
【0056】
その他、一々例示はしないが、本発明はその趣旨を逸脱しない範囲内において種々の変更が加えられて実施されるものである。
【符号の説明】
【0057】
10:発声評価装置、24:マイクロフォン(音声入力装置)、28:表示装置、52:抽出手段、54:評価手段、56:表示手段

【特許請求の範囲】
【請求項1】
音声入力装置から入力される音声情報に基づいて発声の評価を行う発声評価装置であって、
前記音声入力装置から入力される音声情報における基本波及び該基本波を除く複数の高調波を抽出する抽出手段と、
予め定められた関係から該抽出手段により抽出される基本波及び複数の高調波に基づいて前記音声情報における表声及び裏声の融合率を評価する評価手段と
を、備えたものであることを特徴とする発声評価装置。
【請求項2】
前記評価手段は、前記複数の高調波のスペクトル重心を前記基本波の周波数で除した値を指標値として前記評価を行うものである請求項1に記載の発声評価装置。
【請求項3】
前記関係は、前記指標値が大きいほど前記音声情報における表声の比率が高く裏声の比率が低いと評価するように定められたものである請求項2に記載の発声評価装置。
【請求項4】
前記抽出手段は、前記音声情報から発声者毎の声道特性を除去して得られる残差信号における複数の高調波を抽出するものである請求項1から3の何れか1項に記載の発声評価装置。
【請求項5】
前記評価手段により評価された表声及び裏声の融合率の経時変化を表示装置に表示させる表示手段を備えたものである請求項1から4の何れか1項に記載の発声評価装置。
【請求項6】
前記評価手段は、前記音声情報における表声及び裏声の融合率の経時変化に基づいて、該音声情報における表声と裏声との相互間の推移を評価するものである請求項1から5の何れか1項に記載の発声評価装置。
【請求項7】
前記評価手段は、前記音声情報における表声と裏声との相互間の推移に際して、前記融合率の経時変化量の単位時間あたりの変化率が小さいほど該音声情報における表声と裏声との相互間の推移に係るショックが小さいと評価するものである請求項6に記載の発声評価装置。
【請求項8】
音声入力装置から入力される音声情報に基づいて発声の評価を行う発声評価方法であって、
前記音声入力装置から入力される音声情報における基本波及び該基本波を除く複数の高調波を抽出する抽出過程と、
予め定められた関係から該抽出過程において抽出される基本波及び複数の高調波に基づいて前記音声情報における表声及び裏声の融合率を評価する評価過程と
を、含むことを特徴とする発声評価方法。
【請求項9】
音声入力装置から入力される音声情報に基づいて発声の評価を行う発声評価装置に備えられた電子制御装置を、
前記音声入力装置から入力される音声情報における基本波及び該基本波を除く複数の高調波を抽出する抽出手段、
及び、予め定められた関係から該抽出手段により抽出される基本波及び複数の高調波に基づいて前記音声情報における表声及び裏声の融合率を評価する評価手段
として機能させることを特徴とする発声評価プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate


【公開番号】特開2013−45035(P2013−45035A)
【公開日】平成25年3月4日(2013.3.4)
【国際特許分類】
【出願番号】特願2011−184374(P2011−184374)
【出願日】平成23年8月26日(2011.8.26)
【出願人】(000005267)ブラザー工業株式会社 (13,856)
【出願人】(304026696)国立大学法人三重大学 (270)
【出願人】(802000042)株式会社三重ティーエルオー (20)
【Fターム(参考)】