発声評価装置、発声評価方法、及び発声評価プログラム

【課題】裏声に表声を混ぜる発声法を客観的に評価する発声評価装置、発声評価方法、及び発声評価プログラムを提供する。
【解決手段】マイクロフォン２４から入力される音声情報における基本波及びその基本波を除く複数の高調波を抽出する抽出手段５２と、予め定められた関係からその抽出手段５２により抽出される基本波及び複数の高調波に基づいて前記音声情報における表声及び裏声の融合率を評価する評価手段５４とを、備えたものであることから、自分が出した声において表声と裏声とがどれほどの割合で混ざっているのかを簡便に把握することができる。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、発声評価装置、発声評価方法、及び発声評価プログラムに関し、特に、裏声に表声を混ぜる発声法を評価するための改良に関する。
【背景技術】
【０００２】
音声入力装置から入力される音声情報に基づいて発声の評価を行う発声評価装置が知られている。例えば、特許文献１に記載された歌唱音声評価装置がそれである。この技術によれば、歌唱音声信号から抽出された周波数成分から、基本周波数成分と倍音周波数成分とがそれぞれ抽出される。抽出された基本周波数成分に対する倍音周波数成分の比率に応じて、歌唱音声の評価を示す評価値が算出される。これにより、カラオケ装置による演奏に関して人間の感性に近い演奏評価を行うことができるとされている。
【先行技術文献】
【特許文献】
【０００３】
【特許文献１】特開２００５−１０７０８８号公報
【発明の概要】
【発明が解決しようとする課題】
【０００４】
ところで、声楽における歌唱技法にファルセット（falsetto）があり、邦楽における裏声に相当する。この技法は、通常の歌唱法すなわち表声（地声）とは異なる喉の使い方をすることで比較的音高の高い音を発声可能とするものであり、例えばカウンターテナー（counter-tennor）等に代表される各種歌唱に用いられている。近年、ポピュラー音楽の歌手（アーティスト）にもこの裏声を用いて高音部を歌唱する歌手が増えてきており、また、単に裏声を出すのではなく、裏声に表声を混ぜて所謂太い声で発声することにより、地声で歌う部分との繋ぎ目を感じさせない歌い方が、玄人の趣を感じさせる技巧的な歌唱法として広く知られるようになってきた。
【０００５】
上記のような背景において、例えば歌手を志す者やカラオケが上手くなりたい者等にとって、歌唱技能の向上のためには裏声に表声を混ぜて発声する歌唱法の習得が望まれるが、前記従来の技術のような従来一般的であった歌唱評価技術では、歌唱音声に関して裏声や表声の判定を行うことができなかった。このため、裏声に表声を混ぜる発声法のトレーニングでは、斯かる発声法が正しくできているか否かをその発声法に習熟した人に聞いてもらうより他になかった。しかし、人的なレッスンには高額な費用がかかることに加え、そもそも斯かる発声法に習熟した人が周囲にいない場合にはトレーニング自体が困難であった。すなわち、裏声に表声を混ぜる発声法を客観的に評価する技術は、未だ開発されていないのが現状であり、このような課題は、歌唱能力を向上させるトレーニングに関して本発明者等が鋭意研究を続ける過程において新たに見出したものである。
【０００６】
本発明は、以上の事情を背景として為されたものであり、その目的とするところは、裏声に表声を混ぜる発声法を客観的に評価する発声評価装置、発声評価方法、及び発声評価プログラムを提供することにある。
【課題を解決するための手段】
【０００７】
斯かる目的を達成するために、本第１発明の要旨とするところは、音声入力装置から入力される音声情報に基づいて発声の評価を行う発声評価装置であって、前記音声入力装置から入力される音声情報における基本波及びその基本波を除く複数の高調波を抽出する抽出手段と、予め定められた関係からその抽出手段により抽出される基本波及び複数の高調波に基づいて前記音声情報における表声及び裏声の融合率を評価する評価手段とを、備えたことを特徴とするものである。
【０００８】
また、前記目的を達成するために、本第２発明の要旨とするところは、音声入力装置から入力される音声情報に基づいて発声の評価を行う発声評価方法であって、前記音声入力装置から入力される音声情報における基本波及びその基本波を除く複数の高調波を抽出する抽出過程と、予め定められた関係からその抽出過程において抽出される基本波及び複数の高調波に基づいて前記音声情報における表声及び裏声の融合率を評価する評価過程とを、含むことを特徴とするものである。
【０００９】
また、前記目的を達成するために、本第３発明の要旨とするところは、音声入力装置から入力される音声情報に基づいて発声の評価を行う発声評価装置に備えられた電子制御装置を、前記音声入力装置から入力される音声情報における基本波及びその基本波を除く複数の高調波を抽出する抽出手段、及び、予め定められた関係からその抽出手段により抽出される基本波及び複数の高調波に基づいて前記音声情報における表声及び裏声の融合率を評価する評価手段として機能させることを特徴とする発声評価プログラムである。
【発明の効果】
【００１０】
このように、前記第１発明によれば、前記音声入力装置から入力される音声情報における基本波及びその基本波を除く複数の高調波を抽出する抽出手段と、予め定められた関係からその抽出手段により抽出される基本波及び複数の高調波に基づいて前記音声情報における表声及び裏声の融合率を評価する評価手段とを、備えたものであることから、自分が出した声において表声と裏声とがどれほどの割合で混ざっているのかを簡便に把握することができる。すなわち、裏声に表声を混ぜる発声法を客観的に評価する発声評価装置を提供することができる。
【００１１】
ここで、前記第１発明において、好適には、前記評価手段は、前記複数の高調波のスペクトル重心を前記基本波の周波数で除した値を指標値として前記評価を行うものである。このようにすれば、評価対象となる音声情報に表声と裏声とがどれほどの割合で混ざっているのかを実用的な態様で指標化することができる。
【００１２】
また、好適には、前記関係は、前記指標値が大きいほど前記音声情報における表声の比率が高く裏声の比率が低いと評価するように定められたものである。このようにすれば、評価対象となる音声情報に表声と裏声とがどれほどの割合で混ざっているのかを実用的な態様で指標化することができる。
【００１３】
また、好適には、前記抽出手段は、前記音声情報から発声者毎の声道特性を除去して得られる残差信号における複数の高調波を抽出するものである。このようにすれば、評価対象となる音声情報に表声と裏声とがどれほどの割合で混ざっているのかを実用的な態様で指標化することができる。
【００１４】
また、好適には、前記評価手段により評価された表声及び裏声の融合率の経時変化を表示装置に表示させる表示手段を備えたものである。このようにすれば、自分が出した声において表声と裏声とがどれほどの割合で混ざっているのかを、発声した時間を追って視覚的に把握することができ、更に効率的な発声トレーニングが実現される。
【００１５】
また、好適には、前記評価手段は、前記音声情報における表声及び裏声の融合率の経時変化に基づいて、その音声情報における表声と裏声との相互間の推移を評価するものである。このようにすれば、表声及び裏声を混ぜて歌う部分と地声で歌う部分との繋ぎ目を上手に歌えているか否かを簡便に把握することができ、更に効率的な発声トレーニングが実現される。
【００１６】
また、好適には、前記評価手段は、前記音声情報における表声と裏声との相互間の推移に際して、前記融合率の経時変化量の単位時間あたりの変化率が小さいほどその音声情報における表声と裏声との相互間の推移に係るショックが小さいと評価するものである。このようにすれば、表声及び裏声を混ぜて歌う部分と地声で歌う部分との繋ぎ目を上手に歌えているか否かを実用的な態様で簡便に把握することができ、更に効率的な発声トレーニングが実現される。
【００１７】
また、前記第２発明によれば、前記音声入力装置から入力される音声情報における基本波及びその基本波を除く複数の高調波を抽出する抽出過程と、予め定められた関係からその抽出過程において抽出される基本波及び複数の高調波に基づいて前記音声情報における表声及び裏声の融合率を評価する評価過程とを、含むことから、自分が出した声において表声と裏声とがどれほどの割合で混ざっているのかを簡便に把握することができる。すなわち、裏声に表声を混ぜる発声法を客観的に評価する発声評価方法を提供することができる。
【００１８】
また、前記第３発明によれば、前記発声評価装置に備えられた電子制御装置を、前記音声入力装置から入力される音声情報における基本波及びその基本波を除く複数の高調波を抽出する抽出手段、及び、予め定められた関係からその抽出手段により抽出される基本波及び複数の高調波に基づいて前記音声情報における表声及び裏声の融合率を評価する評価手段として機能させる発声評価プログラムであることから、自分が出した声において表声と裏声とがどれほどの割合で混ざっているのかを簡便に把握することができる。すなわち、裏声に表声を混ぜる発声法を客観的に評価する発声評価プログラムを提供することができる。
【図面の簡単な説明】
【００１９】
【図１】本発明の一実施例である発声評価装置の構成を例示するブロック図である。
【図２】図１の発声評価装置のＣＰＵに備えられた制御機能の要部を説明する機能ブロック線図である。
【図３】人の発声における声道特性を説明するために発声の仕組みを概念的に示す図である。
【図４】母音「あ」の発声に対応する音声情報をＬＰＣ法により分析し、声道特性を除去した残差信号のスペクトルを例示する図であり、表声である音声情報に対応する。
【図５】母音「あ」の発声に対応する音声情報をＬＰＣ法により分析し、声道特性を除去した残差信号のスペクトルを例示する図であり、裏声である音声情報に対応する。
【図６】母音「あ」で上行、下行音階を発声した場合のピッチを時間毎にプロットした図である。
【図７】図６に示すものと同じ音声に対して複数の高調波成分のスペクトル重心を基本周波数で除した値を時間毎にプロットした図である。
【図８】図１の発声評価装置の表示装置に表示される、対象となる音声情報における表声及び裏声の融合率の経時変化を示すグラフを例示するものである。
【図９】図１の発声評価装置の表示装置に表示される、対象となる音声情報における表声及び裏声の融合率の経時変化を示すグラフを例示するものである。
【図１０】図１の発声評価装置のＣＰＵによる発声評価制御の要部を説明するフローチャートである。
【発明を実施するための形態】
【００２０】
以下、本発明の好適な実施例を図面に基づいて詳細に説明する。
【実施例】
【００２１】
図１は、本発明の一実施例である発声評価装置１０の構成を例示するブロック図である。この図１に示すように、本実施例の発声評価装置１０は、ＣＰＵ１２と、ＲＯＭ１４と、ＲＡＭ１６とを、備えている。このＣＰＵ１２は、中央演算処理装置である。また、上記ＲＯＭ１４は、読出専用メモリである。また、上記ＲＡＭ１６は、随時書込読出メモリである。また、上記発声評価装置１０は、ハードディスク１８と、操作部２０と、インターフェイス２２とを、備えている。このハードディスク１８は、記憶装置である。また、上記操作部２０は、上記発声評価装置１０における各種操作を行うための装置である。また、上記インターフェイス２２は、上記操作部２０からの入力信号を処理する装置である。また、上記発声評価装置１０は、マイクロフォン２４と、Ａ／Ｄコンバータ２６と、表示装置２８と、映像出力制御部３０とを、備えている。上記マイクロフォン２４は、音声入力装置である。また、上記Ａ／Ｄコンバータ２６は、上記マイクロフォン２４から入力された音声をディジタル信号に変換するための装置である。また、上記表示装置２８は、ＴＦＴ（Thin Film Transistor Liquid Crystal）等のディスプレイである。また、上記映像出力制御部３０は、ビデオボード（グラフィックスボード）等の装置である。
【００２２】
上記マイクロフォン２４は、人の発声する音声等の音響（振動）を電気信号に変換する装置（電気音響変換器）である。このマイクロフォン２４は、好適には、柄状（棒状）の本体の先端部に音声入力部が備えられて例えば気導音を拾う一般的なマイクロフォンが用いられる。また、好適には、人の咽喉部に接触させたパッチ状の振動ピックアップにより例えば固体伝導音を拾うマイクロフォンが用いられてもよい。また、上記Ａ／Ｄコンバータ２６は、上記マイクロフォン２４から入力されるアナログ信号としての音声情報をディジタル信号に変換して前記ＣＰＵ１２等に供給する。また、上記映像出力制御部３０は、上記ＣＰＵ１２から供給される情報に基づいて上記表示装置２８による種々の映像表示を制御する表示制御装置である。
【００２３】
前記発声評価装置１０は、前記ＣＰＵ１２により前記ＲＡＭ１６の一時記憶機能を利用しつつ前記ＲＯＭ１４に予め記憶されたプログラムに従って信号処理を行う。すなわち、前記発声評価装置１０は、所謂マイクロコンピュータ（電子制御装置）を含んで構成されている。斯かる構成により、前記ＣＰＵ１２は、後述する本実施例の発声評価制御に係る各種制御を実行する。なお、前記発声評価装置１０は、前記ＣＰＵ１２、ＲＯＭ１４、及びＲＡＭ１６等と同等の構成を備えた一般的なパーソナルコンピュータに前記マイクロフォン２４等が備えられることにより構成されるものであってもよい。また、ＭＩＤＩ（Musical Instrument Digital Interface）音源及びアンプミキサ等の構成を備え、多数の演奏曲のうちから選択される演奏曲を出力させると共にマイクロフォンにより入力される音声を増幅して出力させるカラオケ装置に本発明が適用されるものであってもよい。
【００２４】
図２は、前記発声評価装置１０のＣＰＵ１２に備えられた制御機能の要部を説明する機能ブロック線図である。この図２に示す録音手段５０、抽出手段５２、評価手段５４、及び表示手段５６は、好適には、何れも前記ＣＰＵ１２に機能的に備えられたものであるが、それぞれ個別の制御部として構成されると共に相互に情報の通信を行うことで以下に詳述する各種機能を実行するものであってもよい。更に、上記抽出手段５２に含まれる音声分析手段５８、声帯信号スペクトル推定手段６０、特徴量抽出手段６２、上記評価手段５４に含まれる声区評価指標値算出手段６４、表声／裏声発声能力評価手段６６、換声点ショック評価手段６８がそれぞれ個別の制御部として構成されると共に相互に情報の通信を行うことで以下に詳述する各種機能を実行するものであってもよい。
【００２５】
上記録音手段５０は、前記マイクロフォン２４により入力された音声情報を録音する。例えば、そのマイクロフォン２４により入力され、前記Ａ／Ｄコンバータ２６を介してディジタル信号に変換された音声情報を、前記ハードディスク１８等に形成された音声データベース３２に記憶（蓄積）する。例えば、ＡＶＩ（Audio-Video Interleaved）形式のファイルやＷＡＶＥサウンドファイル等、所定形式の音声ファイルとして各ファイルに固有の識別情報を付して記憶する。上記録音手段５０による録音乃至音声データベース３２への記憶の態様としては、前記マイクロフォン２４から入力される音声が途切れる毎（所定時間以上、音声が入力されない期間が生じる毎）に新たな音声ファイルとして記憶するものであってもよいし、予め定められた一定時間に前記マイクロフォン２４から入力された音声に対応する音声情報を１単位の音声ファイルとして記憶するものであってもよい。また、好適には、前記マイクロフォン２４により入力された音声情報を、発声主体である利用者（発声評価装置１０による評価対象となる利用者）毎に、その利用者の識別情報と対応付けて上記音声データベース３２に記憶する。
【００２６】
前記発声評価装置１０による発声評価に際して、前記録音手段５０による録音の対象となる利用者（発声主体）の声は、好適には、表声と裏声とが少なくとも１回は切り換えられる（好適にはそれぞれ１回以上繰り返される）発声に相当するものとされる。ここで、前記録音手段５０による録音の対象となる利用者の声は、前記マイクロフォン２４から入力される利用者の音声（抽出手段５２による抽出の対象乃至評価手段５４による評価の対象となる音声情報に対応する発声）に相当する。なお、利用者の習熟度によっては表声と裏声とを上手く切り換えることができず、表声だけの発声或いは裏声だけの発声となる可能性がある。斯かる場合においては、表声と裏声が切り換えられている場合よりも低い評価が示される。また、前記録音手段５０による録音の対象となる発声は、好適には、「あ」の発声を伸ばしたり上下降音階として発声する等、単一の母音に対応する発声において表声と裏声とを出し分けるものであることが好ましい。また、好適には、例えば既定の課題曲（単純なメロディ）を歌唱する等、子音を含むものであってもよい。
【００２７】
前記抽出手段５２は、前記マイクロフォン４０から入力される音声情報における基本波及びその基本波を除く複数の高調波を抽出する。好適には、上記音声データベース３２に記憶された音声情報から所定区間（例えば、予め定められた一定時間に相当する区間）のデータを読み出す。そして、その読み出されたデータに関して音声分析を行うことで基本波（フーリエ変換の結果得られる最も低い周波数に対応する成分）及びその基本波を除く複数の高調波（基本波の周波数の整数倍周波数に対応する成分）を抽出する。斯かる制御を行うために、前記抽出手段５２は、音声分析手段５８、声帯信号スペクトル推定手段６０、及び特徴量抽出手段６２を備えている。以下、各制御手段による処理について分説する。
【００２８】
前記音声分析手段５８は、前記マイクロフォン４０から入力される音声情報に関して、所定のアルゴリズムに基づく音声分析を行う。例えば、音声分析手法として一般的に用いられるＬＰＣ（Linear Predictive Coding：線形予測符号）分析或いはケプストラム（Cepstrum）分析等により対象となる音声情報の音声解析を行う。好適には、上記音声データベース３２に記憶された音声情報から所定区間のデータを読み出し、そのデータに関してＬＰＣ分析或いはケプストラム分析等の音声分析を行うことにより、対象となる音声情報から基本波の周波数（以下、基本周波数という）及び声道特性を推定する。この声道特性とは、例えば後述する図３に示すように発声主体である人毎に固有の値をとるものであり、フォルマント（formant：声道内の空気や共鳴周波数に対応する倍音群）と呼ばれる。すなわち、前記音声分析手段５８は、好適には、対象となる音声情報の基本周波数をはじめとする各種情報を推定するものであり、例えば、声道特性に対応するフォルマント周波数、基本周波数（ピッチ情報）、音量（声量）に対応する信号強度、及び有声音乃至無声音の判別に係る情報等の推定（抽出）を行う。
【００２９】
図３は、人の発声における声道特性を説明するために発声の仕組みを概念的に示す図である。人の発声においては、声帯の振動によって音声が発生させられるため、図３に示すように、その音声は音源としての声帯（声帯音源）から発生させられる声帯音源波と考えることができる。この声帯音源波が声道を通過することにより声道特性が付加され、最終的に口や鼻から音声（歌声）として発せられる。すなわち、人の音声は、声帯音源波を声道特性に対応するフィルタ（声道フィルタ）に通したものであるとみなすことができる。また、人の発声が表声（地声）であるか裏声であるかは、声道の通過に起因するものではなく専ら声帯の状態によって決定されるものであると考えられている。従って、音声から発声者毎に固有の声道特性（フォルマント）を除去し、その声道特性が除去された声帯音源波を解析することで、対象となる音声における表声及び裏声の好適な判別が可能となる。
【００３０】
前記声帯信号スペクトル推定手段６０は、前記録音手段５０により録音された音声情報から、前記音声分析手段５８により推定された声道特性を除去した信号のスペクトルを推定する。好適には、上記音声データベース３２から読み出された所定区間のデータに関して、前記音声分析手段５８により推定された声道特性を、そのデータから除去して得られる信号のスペクトルを推定する。例えば、ＬＰＣ分析においては、前記音声分析手段５８により推定された声道特性（周波数伝達特性）の逆フィルタを構成する。そして、対象となる音声情報を斯かる逆フィルタに通して残差信号を得た後、その残差信号のフーリエ変換によりスペクトルを推定する。また、ケプストラム分析においては、対象となる音声情報をローパスリフタに通す処理すなわちその音声情報の低ケフレンシ（quefrency）部をリフタ（lifter）で除去することにより残差信号を得た後、その残差信号のフーリエ変換によりスペクトルを推定する。
【００３１】
前記特徴量抽出手段６２は、前記音声分析手段５８により得られた基本周波数等に基づいて、前記マイクロフォン２４から入力される音声情報における基本波及びその基本波を除く複数の高調波を抽出する。例えば、前記声帯信号スペクトル推定手段６０により推定されたスペクトルから、前記音声分析手段５８により推定された基本周波数に基づいて、基本波を除く余の複数の高調波を抽出する。また、好適には、基本波及び各高調波の相対レベルを抽出する。すなわち、対象となる音声情報における基本波に対応する音圧レベルと各高調波に対応する音圧レベルとの相対的な比を抽出（算出）する。
【００３２】
前記評価手段５４は、予め定められた関係から前記抽出手段５２により抽出される基本波及び複数の高調波に基づいて前記音声情報における表声及び裏声の評価を行う。好適には、対象となる音声情報における表声及び裏声の融合率を評価する。ここで、表声とは、地声とも呼ばれるものであり、声帯音源波において基本波に対する高調波のエネルギが裏声に比べて相対的に大きい傾向にある音声のシリーズ（声区）をいう。この表声は、発声機構的には声帯を取り巻く閉鎖筋群が輪状甲状筋に対して優位に働き、声帯全体が振動することにより生じているものと考えられる。また、裏声とは、ファルセットとも呼ばれるものであり、声帯音源波において基本波に対する高調波のエネルギが表声に比べて相対的に小さい傾向にある音声のシリーズ（声区）をいう。この裏声は、発声機構的には声帯を取り巻く輪状甲状筋が閉鎖筋群に対して優位に働き、声帯の辺縁部が振動することにより生じているものと考えられる。すなわち、本実施例において、表声と裏声とはそれぞれ異なる声区に属するものと考え、各声区の音声はそれぞれひとつのメカニズム（例えば、声帯の使い方）により発声されるものと考える。対象となる音声情報における表声及び裏声の融合率の評価を行うために、前記評価手段５４は、声区評価指標値算出手段６４、表声／裏声発声能力評価手段６６、及び換声点ショック評価手段６８を備えている。以下、各制御手段による処理について分説する。
【００３３】
前記声区評価指標値算出手段６４は、対象となる音声情報に関して前記抽出手段５２により抽出された各情報に基づいて、その音声情報における２つの声区である表声及び裏声の融合状態（融合率）を算出する。好適には、この融合状態を指標化した１つの尺度値としての声区評価指標値（以下、単に指標値という）を算出する。好適には、対象となる音声情報における複数の高調波のスペクトル重心ｆｇを基本波の周波数（基本周波数）ｆ０で除した値（＝ｆｇ／ｆ０）を指標値として算出する。換言すれば、対象となる音声情報に関して前記特徴量抽出手段６２により抽出される基本周波数及び各高調波に対応する周波数の相対レベル（音圧レベルの相対値）からスペクトル重心を算出する。そして、その算出されたスペクトル重心と、前記基本周波数（ピッチ周波数）との比を求め、その比を上記指標値として算出する。
【００３４】
図４及び図５は、母音「あ」の発声に対応する音声情報をＬＰＣ法（１４次）により分析し、声道特性を除去（キャンセル）した残差信号のスペクトルを例示する図である。また、図４が表声（地声）である音声情報に、図５が裏声である音声情報にそれぞれ対応する。図４及び図５のスペクトルを比較すると、表声と裏声では声帯音源の調波構造に差異が認められる。例えば、図４に示す表声に対応するスペクトルでは、周波数２７５（Ｈｚ）付近における基本波の音圧レベルと、周波数５５０（Ｈｚ）付近における第２高調波の音圧レベルとは略等しい。すなわち、全体として基本波に対する各高調波の相対レベルが高いことが認められる。一方、図５に示す裏声に対応するスペクトルでは、周波数４００（Ｈｚ）付近における基本波の音圧レベルに比べて、周波数８００（Ｈｚ）付近における第２高調波の音圧レベルが低く、周波数１２００（Ｈｚ）付近における第３高調波の音圧レベルは更に低くなっている。すなわち、図５に示す裏声に対応するスペクトルでは、図４に示す表声に対応するスペクトルに比べて、高調波成分の基本波に対する相対レベルが低くなっていることがわかる。本実施例において、好適には、可及的に多数の高調波成分に基づいて前記評価手段５４による表声及び裏声の評価を行う。すなわち、可及的に多数の高調波成分のスペクトル重心を求め、そのスペクトル重心を表声及び裏声の評価に用いる。斯かるスペクトル重心は、基本波の周波数（ピッチ周波数）にも依存する。そこで、本実施例においては、この基本波の周波数すなわち基本周波数の影響を排除するため、上述のようにスペクトル重心をその基本周波数で除すことにより、声帯音源の調波構造を指標化（規格化）する処理を行っている。
【００３５】
前記表声／裏声発声能力評価手段６６は、予め定められた関係から前記抽出手段５２により抽出される基本波及び複数の高調波に基づいて対象となる音声情報における表声及び裏声の融合率を評価する。具体的には、前記声区評価指標値算出手段６４により算出される指標値ｆｇ／ｆ０に基づいて斯かる評価を行う。好適には、その指標値ｆｇ／ｆ０が高いほど表声の比率が高く裏声の比率が低いと評価する。すなわち、前記表声／裏声発声能力評価手段６６による評価の基準となる上記関係は、前記指標値ｆｇ／ｆ０が大きいほど対象となる音声情報における表声の比率が高く裏声の比率が低いと評価するように予め定められたものである。
【００３６】
図６は、母音「あ」で上行、下行音階を発声した場合のピッチ（基本周波数）を時間毎にプロットした図である。また、図７は、同じ音声に対して複数の高調波成分のスペクトル重心ｆｇを基本周波数ｆ０で除した値（＝ｆｇ／ｆ０）を時間毎にプロットした図である。また、図７においては、裏声の発声法に習熟している人が実際に発声を聞いて、その発声が裏声であると判定された区間を斜線範囲で示している。換言すれば、図７において斜線範囲で示されない余の区間は、発声が表声であると判定された区間に相当する。図７に示す例では、表声及び裏声の両声区間でｆｇ／ｆ０が連続的に変化しており、また、そのｆｇ／ｆ０が裏声に対応する区間では比較的低く、表声に対応する区間では比較的高い値となっていることがわかる。従って、複数の高調波成分のスペクトル重心ｆｇを基本周波数ｆ０で除した値であるｆｇ／ｆ０が、表声と裏声との混ざり具合である融合率を評価できる指標値となっていることがわかる。例えば、斯かる指標値が図７に破線で示す基準値（ｆｇ／ｆ０＝２．８程度）以上である場合には表声、その基準値未満である場合には裏声であるというように基準を定めることで、客観的且つ一義的に表声と裏声とを評価することができる。
【００３７】
また、前記表声／裏声発声能力評価手段６６は、好適には、前記声区評価指標値算出手段６４により算出される指標値ｆｇ／ｆ０の一定時間毎の分布状況を統計することにより対象となる音声情報における表声及び裏声の融合率を評価する。例えば、表声と裏声に分けて発声された一連の音声（すなわち、表声と裏声との相互間の推移を含む音声）に対応して前記録音手段５０により録音されると共に前記抽出手段５２により各関係値が抽出された音声情報に対して、前記声区評価指標値算出手段６４により一定時間毎に前記指標値ｆｇ／ｆ０を算出する。そして、その指標値ｆｇ／ｆ０の分布状態を統計してヒストグラム化する。また、そのヒストグラムにおいて、表声及び裏声それぞれに対応する分布間の距離を求め、その距離に基づいて対象となる音声情報における表声及び裏声の発声を評価する。好適には、上記分布間の距離が大きいほど表声と裏声との出し分けができていると評価する一方、その距離が小さいほど表声と裏声との出し分けができていないと評価する。また、上記分布に基づいて、対象となる音声情報の発声主体である利用者毎に、前記指標値に係る表声と裏声との境界に相当する基準値（閾値）を定めるものであってもよい。
【００３８】
前記換声点ショック評価手段６８は、前記声区評価指標値算出手段６４により算出される指標値ｆｇ／ｆ０の経時変化に基づいて、その音声情報における表声と裏声との相互間の推移を評価する。換言すれば、斯かる指標値ｆｇ／ｆ０の経時変化に基づいて、対象となる音声情報において表声及び裏声相互間における声区の転換が行われる箇所における換声点ショックを評価する。すなわち、表声と裏声とが切り替わる部分における換声点ショックを評価する。この換声点ショックとは、発声時における表声と裏声との変わり目で起こる急激な声区の転換を言い、また、斯かる声区の転換に伴い声量やピッチに生じる変動を言うものである。この換声点ショックは、裏声を発する場合に優位となる輪状甲状筋と表声を発する場合に優位となる閉鎖筋群との力関係が急激に変化するために発生する現象であると考えられる。また、輪状軟骨とその上後部左右にある披裂軟骨との関節部分の複雑な動きも原因となっているものと考えられる。例えば、図７に示す例においては、破線で示す基準値（ｆｇ／ｆ０＝２．８程度）が換声点に相当し、指標値の推移がその基準値を跨ぎ越す箇所が換声点に相当する。
【００３９】
前記換声点ショック評価手段６８は、好適には、前記声区評価指標値算出手段６４により算出される指標値ｆｇ／ｆ０の単位時間あたりの変化率（変化量の時間微分）に基づいて、その音声情報における表声と裏声との相互間の推移を評価する。例えば、対象となる音声情報に係る指標値ｆｇ／ｆ０の単位時間あたりの変化率が小さい（変化が滑らかである）ほど換声点ショックが小さく、表声と裏声との相互間の推移を良好に実現できていると評価する。なお、この表声と裏声との相互間の推移を巧みに行うには、裏声に表声を混ぜる発声に習熟している必要があるため、上記換声点ショックの評価は表声及び裏声の融合率の評価に関連するものとなる。また、前記換声点ショック評価手段６８は、好適には、対象となる音声情報に関して前記抽出手段５２により抽出される基本波の周波数及び信号強度等の単位時間あたりの変化率に基づいて、その音声情報における表声と裏声との相互間の推移を評価する。ここで、前記抽出手段５２により抽出される信号強度は、対象となる音声情報の音量に対応する。例えば、対象となる音声情報に係る基本周波数及び信号強度の単位時間あたりの変化率が小さい（変化が滑らかである）ほど換声点ショックが小さく、表声と裏声との相互間の推移を良好に実現できていると評価する。
【００４０】
前記表示手段５６は、前記評価手段５４による評価結果を前記映像出力制御部３０を介して前記表示装置２８に表示させる。好適には、前記評価手段５４により評価された表声及び裏声の融合率の経時変化を前記表示装置２８に表示させる。図８及び図９は、前記表示手段５６により前記表示装置２８に表示された、対象となる音声情報における表声及び裏声の融合率の経時変化を示すグラフを例示するものであり、図８は、前述した図７の解析結果に対応するものである。これら図８及び図９に示すグラフは、所定の時間間隔（図８及び図９においては０．４ｍｓ）毎に、その時間内における音声情報の解析結果に対応して算出された指標値の平均値を求め、その平均値をグラフ化したものである。これら図８及び図９を比較すると、図８においては換声点すなわち破線で示す基準値を跨ぎ越す箇所において指標値ｆｇ／ｆ０の変化勾配すなわち単位時間あたりの変化率が比較的緩い（変化が滑らかである）のに対して、図９においては比較的急である（変化が急激である）ことが認められる。すなわち、図８においては換声点における指標値ｆｇ／ｆ０の単位時間あたりの変化率が比較的小さく、図９においては比較的大きいことがわかり、図８に対応する音声情報においては換声点ショックが比較的小さく、図９に対応する音声情報においては換声点ショックが比較的大きいものと評価できる。すなわち、前記評価手段５４により評価された表声及び裏声の融合率の経時変化をグラフ化する等して前記表示装置２８に表示させることで、利用者は簡便且つ客観的に換声点ショックの評価を確認することができる。
【００４１】
以下、前記発声評価装置１０のＣＰＵ１２による本実施例の制御をフローチャートを用いて説明する。また、制御の内容を図示しないが、前記発声評価装置１０は、以下のような発声録音制御を行う。すなわち、先ず、前記マイクロフォン２４から前記Ａ／Ｄコンバータ２６を介して音声情報の入力があったか否かが判断される。この判断が否定される場合には、それをもって本ルーチンが終了させられるが、この判断が肯定される場合には、入力された音声情報が発声主体である利用者の識別情報と関連付けられて前記ハードディスク１８等に形成された音声データベース３２に記憶（蓄積）された後、本ルーチンが終了させられる。
【００４２】
図１０は、前記発声評価装置１０のＣＰＵ１２による発声評価制御の要部を説明するフローチャートであり、所定の周期で繰り返し実行されるものである。
【００４３】
先ず、ＳＢ１において、前記ハードディスク１８等に形成された音声データベース３２に記憶された音声情報から所定区間のデータが読み出される。次に、ＳＢ２において、ＳＢ１にて読み出されたデータからＬＰＣ分析等の手法により声道特性、基本波の周波数（基本周波数）、有声／無声判別、及び信号強度等の情報が算出される。次に、ＳＢ３において、ＳＢ１にて読み出されたデータからＳＢ２にて算出された声道特性を除去して得られる信号のスペクトルが算出される。次に、ＳＢ４において、ＳＢ３にて算出されたスペクトルからＳＢ２にて算出された基本周波数に基づいて、基本波を除く余の複数の高調波が算出され、その基本波に対応する音圧レベルと各高調波に対応する音圧レベルとの相対レベルが算出される。次に、ＳＢ５において、ＳＢ４にて算出された基本波と各高調波の相対レベルから、ＳＢ３にて算出されたスペクトルにおける複数の高調波のスペクトル重心が算出され、そのスペクトル重心と基本周波数との比が算出される。次に、ＳＢ６において、ＳＢ５にて算出されたスペクトル重心と基本周波数との比を指標値として対象となる音声情報における表声及び裏声の融合率が評価される。次に、ＳＢ７において、ＳＢ６にて評価された表声及び裏声の融合率の経時変化を表示させるか否かが判断される。このＳＢ７の判断が否定される場合には、ＳＢ９以下の処理が実行されるが、ＳＢ７の判断が肯定される場合には、ＳＢ８において、ＳＢ６にて評価された表声及び裏声の融合率（指標値）の経時変化を示すグラフ等が作成され、前記映像出力制御部３０を介して前記表示装置２８に表示された後、ＳＢ９において、換声点ショックの評価が行われるか否かが判断される。このＳＢ９の判断が否定される場合には、それをもって本ルーチンが終了させられるが、ＳＢ９の判断が肯定される場合には、ＳＢ１０において、ＳＢ６にて評価された表声及び裏声の融合率、ＳＢ２にて算出された基本周波数、信号強度等の推移に基づいて、表声と裏声との切替点である換声点におけるショックが評価され、その評価結果が前記映像出力制御部３０を介して前記表示装置２８に表示された後、本ルーチンが終了させられる。
【００４４】
以上の制御において、ＳＢ１〜ＳＢ４が前記抽出手段５２の動作乃至抽出過程に、ＳＢ５、ＳＢ６、及びＳＢ１０が前記評価手段５４の動作乃至評価過程に、ＳＢ８及びＳＢ１０が前記表示手段５６の動作に、ＳＢ２が前記音声分析手段５８の動作に、ＳＢ３が前記声帯信号スペクトル推定手段６０の動作に、ＳＢ４が前記特徴量抽出手段６２の動作に、ＳＢ５が前記声区評価指標値算出手段６４の動作に、ＳＢ６が前記表声／裏声発声能力評価手段６６の動作に、ＳＢ１０が換声点ショック評価手段６８の動作にそれぞれ対応する。
【００４５】
このように、本実施例によれば、音声入力装置である前記マイクロフォン２４から入力される音声情報における基本波及びその基本波を除く複数の高調波を抽出する抽出手段５２（ＳＢ１〜ＳＢ４）と、予め定められた関係からその抽出手段５２により抽出される基本波及び複数の高調波に基づいて前記音声情報における表声及び裏声の融合率を評価する評価手段５４（ＳＢ５、ＳＢ６、及びＳＢ１０）とを、備えたものであることから、自分が出した声において表声と裏声とがどれほどの割合で混ざっているのかを簡便に把握することができる。すなわち、裏声に表声を混ぜる発声法を客観的に評価する発声評価装置１０を提供することができる。なお、男性と女性では声区が異なり、表声と裏声の使い分けだけでは歌唱技能を評価でき難いとする説もあるが、本実施例では、男性及び女性の声区を分けずに、男女共に表声と裏声で評価できる。
【００４６】
また、前記評価手段５４により評価された表声及び裏声の融合率の経時変化を前記表示装置２８に表示させる表示手段５６（ＳＢ８及びＳＢ１０）を備えたものであるため、自分が出した声において表声と裏声とがどれほどの割合で混ざっているのかを、発声した時間を追って視覚的に把握することができ、更に効率的な発声トレーニングが実現される。
【００４７】
また、表声及び裏声を混ぜて歌う部分と地声で歌う部分との繋ぎ目を上手に歌えているか否かを簡便に把握することができ、更に効率的な発声トレーニングが実現される。
【００４８】
また、本実施例によれば、前記マイクロフォン２４から入力される音声情報における基本波及びその基本波を除く複数の高調波を抽出する抽出過程（ＳＢ１〜ＳＢ４）と、予め定められた関係からその抽出過程において抽出される基本波及び複数の高調波に基づいて前記音声情報における表声及び裏声の融合率を評価する評価過程（ＳＢ５、ＳＢ６、及びＳＢ１０）とを、含む発声評価方法を提供することができる。
【００４９】
また、本実施例によれば、前記発声評価装置１０に備えられた電子制御装置のＣＰＵ１２を、前記抽出手段５２及び評価手段５４として機能させる発声評価プログラムを提供することができる。
【００５０】
以上、本発明の好適な実施例を図面に基づいて詳細に説明したが、本発明はこれに限定されるものではなく、更に別の態様においても実施される。
【００５１】
例えば、前述の実施例において、前記発声評価装置１０は、前記表示装置２８に図７又は図８等に示すような表声及び裏声の融合率に相当する指標値の経時変化を示すグラフを表示させるものであったが、本発明はこれに限定されるものではない。例えば、前記声区評価指標値算出手段６４により算出される指標値のグラフ化に加えて、或いはその代替として、予め定められた評価基準からその指標値の推移に基づいて採点を行い、前記表示手段５６によりその採点結果（点数）を前記表示装置２８に表示させても良い。また、「裏声に表声を上手に混ぜることができています」、「表声から裏声への切り換えが急過ぎます」等のテキスト（文字映像）を前記表示装置２８に表示させる等の制御を行うものであってもよい。
【００５２】
また、前述の実施例においては、前記録音手段５０により録音された音声情報が前記音声データベース３２に記憶され、前記抽出手段５２によりその音声データベース３２に記憶された音声情報を読み出して音声解析等の処理を行う態様について説明したが、前記録音手段５０により録音された音声情報についてリアルタイムで前記抽出手段５２及び評価手段５４等による処理が行われるものであってもよい。斯かる態様においては、利用者は自分の現時点における発声に係る表声と裏声との融合率をリアルタイムで確認することができ、更に効率的なトレーニングを実現することができる。
【００５３】
また、本発明の発声評価装置乃至発声評価プログラムは、携帯電話機、電子書籍リーダ、インターネットや各種情報端末上のアプリケーションにも好適に適用されるものである。
【００５４】
また、本発明の発声評価装置には、必要に応じて種々の付加的な構成が備えられる。例えば、発声主体である利用者に対してトレーニングに関する指示やアドバイス、或いはガイドメロディ等を出力させる音声出力部を備えたものであってもよい。また、前記マイクロフォン２４から入力された音声を増幅して出力させるアンプ及びスピーカ等の構成を備えたものであってもよい。
【００５５】
また、前述の実施例においては特に言及していないが、本発明の発声評価装置（発声評価方法）は、男性（男声）、女性（女声）の別に関係なく表声と裏声との融合率を評価できるものである。また、本発明による発声評価は、例えばインターネットを介しての通信発声法講座、カラオケ装置におけるアプリケーションとしての発声トレーニングモード（発声トレーニングゲーム）、パーソナルコンピュータにインストールされて用いられるソフトウェアとしての発声トレーニングソフト等、各種形態のトレーニングメニューに広く用いられるものである。
【００５６】
その他、一々例示はしないが、本発明はその趣旨を逸脱しない範囲内において種々の変更が加えられて実施されるものである。
【符号の説明】
【００５７】
１０：発声評価装置、２４：マイクロフォン（音声入力装置）、２８：表示装置、５２：抽出手段、５４：評価手段、５６：表示手段

【特許請求の範囲】
【請求項１】
音声入力装置から入力される音声情報に基づいて発声の評価を行う発声評価装置であって、
前記音声入力装置から入力される音声情報における基本波及び該基本波を除く複数の高調波を抽出する抽出手段と、
予め定められた関係から該抽出手段により抽出される基本波及び複数の高調波に基づいて前記音声情報における表声及び裏声の融合率を評価する評価手段と
を、備えたものであることを特徴とする発声評価装置。
【請求項２】
前記評価手段は、前記複数の高調波のスペクトル重心を前記基本波の周波数で除した値を指標値として前記評価を行うものである請求項１に記載の発声評価装置。
【請求項３】
前記関係は、前記指標値が大きいほど前記音声情報における表声の比率が高く裏声の比率が低いと評価するように定められたものである請求項２に記載の発声評価装置。
【請求項４】
前記抽出手段は、前記音声情報から発声者毎の声道特性を除去して得られる残差信号における複数の高調波を抽出するものである請求項１から３の何れか１項に記載の発声評価装置。
【請求項５】
前記評価手段により評価された表声及び裏声の融合率の経時変化を表示装置に表示させる表示手段を備えたものである請求項１から４の何れか１項に記載の発声評価装置。
【請求項６】
前記評価手段は、前記音声情報における表声及び裏声の融合率の経時変化に基づいて、該音声情報における表声と裏声との相互間の推移を評価するものである請求項１から５の何れか１項に記載の発声評価装置。
【請求項７】
前記評価手段は、前記音声情報における表声と裏声との相互間の推移に際して、前記融合率の経時変化量の単位時間あたりの変化率が小さいほど該音声情報における表声と裏声との相互間の推移に係るショックが小さいと評価するものである請求項６に記載の発声評価装置。
【請求項８】
音声入力装置から入力される音声情報に基づいて発声の評価を行う発声評価方法であって、
前記音声入力装置から入力される音声情報における基本波及び該基本波を除く複数の高調波を抽出する抽出過程と、
予め定められた関係から該抽出過程において抽出される基本波及び複数の高調波に基づいて前記音声情報における表声及び裏声の融合率を評価する評価過程と
を、含むことを特徴とする発声評価方法。
【請求項９】
音声入力装置から入力される音声情報に基づいて発声の評価を行う発声評価装置に備えられた電子制御装置を、
前記音声入力装置から入力される音声情報における基本波及び該基本波を除く複数の高調波を抽出する抽出手段、
及び、予め定められた関係から該抽出手段により抽出される基本波及び複数の高調波に基づいて前記音声情報における表声及び裏声の融合率を評価する評価手段
として機能させることを特徴とする発声評価プログラム。

【図１】

【図２】

【図３】

【図４】

【図５】

【図６】

【図７】

【図８】

【図９】

【図１０】

【公開番号】特開２０１３−４５０３５（Ｐ２０１３−４５０３５Ａ）
【公開日】平成２５年３月４日（２０１３．３．４）
【国際特許分類】

物理学 (1,541,580)
- 楽器；音響 (32,226)
  - 音を発生する装置；騒音または他の音響波を防ぎ，または減衰させる... (6,167)
    - 他に分類されない音響 (3,640)
      - 音を発生する装置 (2,327)
- 教育；暗号方法；表示；広告；シール (131,780)
  - 教育用または教示用の器具；盲人，聾者または唖者の教習，または意... (19,563)
    - このサブクラスの他のメイングループに包含されない教習 (1,268)
    - 音楽の教習 (468)

【出願番号】特願２０１１−１８４３７４（Ｐ２０１１−１８４３７４）
【出願日】平成２３年８月２６日（２０１１．８．２６）
【出願人】（０００００５２６７）ブラザー工業株式会社 (13,856)
【出願人】（３０４０２６６９６）国立大学法人三重大学 (270)
【出願人】（８０２００００４２）株式会社三重ティーエルオー (20)
【Ｆターム（参考）】

他に分類されない音響（残響、カラオケ等） (4,843)
- カラオケ装置の機能 (758)
  - カラオケ採点 (310)
    - 採点結果の表示、採点結果による制御 (115)

[ Back to top ]

発声評価装置、発声評価方法、及び発声評価プログラム

メニュー

スポンサーリンク

次の公報 »

« 前の公報

発声評価装置、発声評価方法、及び発声評価プログラム

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク