説明

音声特徴量算出装置

【課題】語学学習において、学習者の音声の抑揚を、お手本の音声の抑揚に近づけられるようにする。
【解決手段】語学学習装置は、表示した例文の一つが選択されると、例文を発話した時の模範音声を再生する。そして、模範音声のピッチの時間的変化を示す第1ピッチ曲線を生成し、第1ピッチ曲線の道程を算出する。語学学習装置は模範音声の再生が終了すると、例文の発話を学習者に促す。語学学習装置1は、学習者の音声が入力されると入力された音声を記憶する。語学学習装置1は、記憶した学習者の音声の時間的変化を示す第2ピッチ曲線を生成し、第2ピッチ曲線の道程を算出する。この後、語学学習装置は、第1ピッチ曲線の道程と、第2ピッチ曲線の道程とを比較し、その道程の差に応じて、模範音声のピッチと学習者音声のピッチとの相違点を学習者へ出力する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、お手本の発音の抑揚と学習者の発音の抑揚とを比較して評価する技術に関する。
【背景技術】
【0002】
語学学習において、発音練習を行う際には、CD(CompactDisk)等の記録媒体に記録された模範音声を再生し、その模範音声の真似をして発音するという学習方法が広く用いられている。これは模範音声の真似をすることで正しい発音を身につけることを目的とするものである。このような学習を行う場合、学習者は自分の発音を把握し、模範音声との違いを認識して発音を改善していくこととなるが、模範音声と同じ発音ができているか否かを学習者自身が自分の発音を聞いて客観的に把握するのは難しい。
そこで、例えば、特許文献1に開示されているように、学習者が客観的に自分の音声を把握できるようにする技術が考案されている。特許文献1に開示されている語学学習装置は、発音のお手本となる音声と、学習者の音声とから抑揚等の音声情報を抽出する。そして、お手本の音声と、学習者の音声の類似度を求め、その類似度によって学習者の発音を採点し、抑揚等の採点結果をディスプレイに表示する。特許文献1に開示された技術によれば、学習者の発音が客観的に評価され、その評価結果が表示されるため、学習者は、自信の発音がお手本に近いものか否かを知ることができる。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2000−347560号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
さて、特許文献1においては、手本の音声の抑揚を示す曲線と、学習者の音声の抑揚を示す曲線とを重ね合わせて、抑揚の類似度を判断する方法が開示されており、自身の発音がお手本に近いものか否かを知ることが可能となっている。しかしながら、類似度だけでは、似ているか否かしか知ることができず、どのようにすればお手本の発音に近づけられるかを知ることはできない。このため、お手本の発音に一致した発音ができるようになるまでには、試行錯誤して発音の改善と評価とを繰り返すという、根気のいる学習を行うこととなる。
【0005】
本発明は、上述した背景の下になされたものであり、語学学習において、学習者の音声の抑揚を、お手本の音声の抑揚に近づけられるようにする技術を提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明は、音声が入力される音声入力手段と、前記音声入力手段に入力された音声のピッチの時間的変化を示すピッチ曲線を生成し、生成したピッチ曲線の道程を算出する算出手段と、前記算出手段により算出された道程を出力する出力手段とを有する音声特徴量算出装置を提供する。
この態様においては、前記算出手段は、前記音声入力手段に入力された音声の無声区間については、該無声区間の前後の音声のピッチによって該無声区間のピッチを補間してピッチ曲線を生成するようにしてもよい。
【発明の効果】
【0007】
本発明によれば、語学学習において、学習者は音声の抑揚を、お手本の音声の抑揚に近づけることができる。
【図面の簡単な説明】
【0008】
【図1】本発明の実施形態に係る語学学習装置のハードウェア構成を示した図である。
【図2】例文テーブルTB1のフォーマットを例示した図である。
【図3】第1実施形態に係わるCPU102がプログラムを実行することにより実現する機能ブロックの構成を例示した図である。
【図4】第1実施形態に係わるCPU102が行う処理の流れを示したフローチャートである。
【図5】ステップSA6の処理を説明するための図である。
【図6】第2実施形態に係わるCPU102がプログラムを実行することにより実現する機能ブロックの構成を例示した図である。
【図7】第2実施形態に係わるCPU102が行う処理の流れを示したフローチャートである。
【図8】学習者の音声のピッチ曲線と、模範音声のピッチ曲線を例示した図である。
【発明を実施するための形態】
【0009】
以下、図面を参照して本発明の実施形態について説明する。
【0010】
[第1実施形態]
[実施形態の構成]
図1は、本発明の実施形態に係る語学学習装置1のハードウェア構成を例示したブロック図である。図1に示したように、語学学習装置1の各部は、バス101に接続されており、このバス101を介して各部間で信号やデータの授受を行う。
【0011】
マイクロホン109は、音声処理部108に接続されており、入力される音声をアナログの電気信号(以下、音声信号と称する)に変換して音声処理部108へ出力する。スピーカ110は、音声処理部108に接続されており、音声処理部108から出力される信号に対応した音を出力する。音声処理部108は、マイクロホン109から入力される音声信号をデジタルデータ(以下、学習者データと称する)に変換して出力する機能や、音声を表すデジタルデータをアナログの音声信号に変換し、スピーカ110へ出力する機能を備えている。
【0012】
表示部106は、例えば、液晶ディスプレイ等の表示デバイスを備えており、CPU102の制御の下、文字列や各種メッセージ、語学学習装置1を操作するためのメニュー画面等を表示する。入力部107は、キーボードやマウス等(いずれも図示略)の入力装置を具備しており、キーの押下やマウスの操作等に応じて操作内容に対応した信号をCPU102へ出力する。
【0013】
記憶部105は、データを永続的に記憶するHDD(Hard Disk Drive)装置を備えており、各種データを記憶する。具体的には、記憶部105は、音声処理部108から出力される学習者データを記憶する。また、記憶部105は、語学学習に用いられる例文を表す例文テキストデータと、ネイティブスピーカが例文を読み上げた時の音声(以下、模範音声と称する)を表すデジタルデータ(以下、模範音声データと称する)とを記憶している。記憶部105は、図2に例示したフォーマットの例文テーブルTB1を記憶しており、このテーブルに例文テキストデータと、模範音声データのファイル名と、各例文テキストデータを一意に識別する識別子とを対応付けて格納している。
【0014】
CPU(Central Processing Unit)102は、ROM(Read Only Memory)103に記憶されているプログラムを、RAM(Random Access Memory)104を作業エリアにして実行する。CPU102がプログラムを実行すると、CPU102によって各部が制御され、模範音声と、入力される学習者の音声(以下、学習者音声と称する)とを比較し、学習者音声の抑揚の評価結果を出力する機能が実現する。
【0015】
図3は、プログラムを実行することにより実現する機能の構成を示した機能ブロック図である。時間軸補正部10は、模範音声データが表す音声の発音時間と、記憶部105に記憶された学習者データが表す音声の発音時間とが同じとなるように、学習者データが表す音声を補正する。ピッチ抽出部20は、入力されるデータが示す音声を、再生時間軸上において所定の時間間隔で複数のフレームに分割し、分割されたフレーム毎に、各フレームの音声のピッチを抽出する。ピッチ補間部30は、無声区間や、無声子音の発音区間等、ピッチ抽出部20においてピッチを抽出することができなかったフレームについて、これらのフレームに隣接するフレームとの間で直線補間や3次スプライン補間等の補間を行い、これらのフレームのピッチを定める。ピッチ曲線生成部40は、ピッチ抽出部20でフレーム毎に求められたピッチと、ピッチ補間部30で補間されたピッチとを結んでピッチ曲線を生成する。道程計算部50は、ピッチ曲線生成部40で生成されたピッチ曲線の道程を計算する。
【0016】
[実施形態の動作]
次に本実施形態の動作について説明する。まず、学習者が例文の一覧の表示を指示する操作を行うと、CPU102は例文テーブルTB1に格納されている例文テキストデータを読み出し(図4:ステップSA1)、読み出したデータが表す例文の一覧を表示部106に表示する(ステップSA2)。この後、学習者が入力部107を操作し、表示された例文の一つを選択する操作を行うと(ステップSA3;YES)、CPU102は、表示部106に表示されている画面と、入力部107から送られる信号に基づいて、選択された例文を特定する(ステップSA4)。CPU102は、選択された例文を特定すると、例文テーブルTB1において、選択された例文に対応付けて格納されている模範音声データのファイル名を読み出す(ステップSA5)。例えば、図2に示したテーブルにおいて、識別子が「001」である例文が選択された場合、ファイル名「a001」が読み出される。
【0017】
次にCPU102は、読み出したファイル名で特定される模範音声データを記憶部105から読み出し、読み出したデータが示す音声のピッチを抽出する。具体的には、まずCPU102は、模範音声データが示す音声を、図5に示したように、その再生時間軸上において所定の時間間隔(例えば、5msec)で分割する(ステップSA6)(以下、各分割された区間をフレームと称する)。次にCPU102は、分割されたフレーム毎に、各フレームの音声のピッチを抽出する(ステップSA7)。なお、1フレームの時間間隔は、5msecではなく、10msec等、他の時間間隔であってもよい。CPU102は、分割されたフレーム毎にピッチを抽出すると、フレーム毎に求められたピッチを結んだピッチ曲線を生成し(以下、このピッチ曲線を第1ピッチ曲線と称する)、生成した第1ピッチ曲線を示す曲線データを記憶部105に記憶する(ステップSA8)。なお、無声区間や、無声子音の発音区間等、ピッチを抽出することができないフレームにおいては、直線補間や3次スプライン補間等の補間を行い、第1ピッチ曲線を生成する。
【0018】
CPU102は、第1ピッチ曲線の生成が終了すると、読み出したファイル名で特定される模範音声データを記憶部105から読み出し、読み出した模範音声データを音声処理部108へ出力する(ステップSA9)。音声処理部108に模範音声データが入力されると、デジタルデータである模範音声データがアナログの信号に変換されてスピーカ110へ出力され、スピーカ110から模範音声が再生される。
【0019】
CPU102は、模範音声の再生が終了すると、表示部106を制御し、例えば、「キーを押してから発音し、発音が終わったら再度キーを押してください」という、例文の発音を促すメッセージを表示する(ステップSA10)。学習者は、スピーカ110から出力された模範音声を聞いた後、メッセージに従って入力部107を操作し、模範音声を真似て例文を読み上げる。学習者が発音すると、学習者の音声がマイクロホン109によって音声信号に変換され、変換された信号が音声処理部108へ出力される。音声処理部108は、マイクロホン109から出力された音声信号が入力されると、音声信号をデジタルデータである学習者データに変換する。この学習者データは、音声処理部108から出力されて記憶部105に記憶される。
【0020】
次にCPU102は、入力部107から送られる信号を監視し、学習者が発音を終了したか否かを判断する。学習者が発音を終了して入力部107を操作すると(ステップSA11;YES)、CPU102は、模範音声データが表す音声の発音時間と、記憶部105に記憶された学習者データが表す音声の発音時間とが同じとなるように、学習者データが表す音声を補正する(ステップSA12)。
【0021】
次にCPU102は、学習者データが示す音声を、ステップSA6の処理と同様にして、その再生時間軸上において複数のフレームに区切り(ステップSA13)、区切られたフレーム毎に、各フレームにおける音声のピッチを抽出する(ステップSA14)。CPU102は、フレーム毎にピッチを抽出すると、ステップSA8と同様にして、フレーム毎に求められたピッチを結んだピッチ曲線(以下、第2ピッチ曲線と称する)を生成し、生成した第2ピッチ曲線を 示すデータを記憶部105に記憶する(ステップSA15)。なお、ここでも、無声区間や、無声子音の発音区間等においては、直線補間や3次スプライン補間等の補間を行い、第2ピッチ曲線を生成する。
【0022】
CPU102は、第2ピッチ曲線の生成が終了すると、第1ピッチ曲線の道程を算出し、次に第2ピッチ曲線の道程を算出する(ステップSA16)。ピッチ曲線の道程は、図8に示したように、ピッチ曲線f(t)の1階微分の絶対値の積分を算出すると求まる。図8に示したように、抑揚の変化が大きな音声はピッチの変化が大きくなるため、ピッチ曲線の道程が長くなり、一方、抑揚の変化が小さな音声はピッチの変化が小さくなるため、ピッチ曲線の道程が短くなる。即ち、ピッチ曲線の道程は、抑揚の変化の大きさを表しているといえる。
【0023】
次に、CPU102は、第1ピッチ曲線の道程と、第2ピッチ曲線の道程とを比較する(ステップSA17)。ピッチ曲線の道程は、抑揚の変化の大きさを表しているため、ピッチ曲線の道程を比較することにより、模範音声の抑揚と学習者音声の抑揚とで、どちらが抑揚の変化が大きいかを知ることができる。図8に示したように、第1ピッチ曲線の道程が第2ピッチ曲線の道程より長い場合、学習者音声の抑揚の変化量が模範音声の抑揚の変化量より小さいため、例えば、「抑揚の変化が少ない音声です」というメッセージを表示部106に表示し、発音を改善するのに有用な情報を学習者へ出力する(ステップSA18)。また、第2ピッチ曲線の道程が第1ピッチ曲線の道程より長い場合、学習者音声の抑揚の変化量が模範音声の抑揚の変化量より大きいため、例えば、「抑揚の変化が大きすぎます」というメッセージを表示部106に表示し、発音を改善するのに有用な情報を学習者へ出力する(ステップSA18)。また、第1ピッチ曲線の道程と第2ピッチ曲線の道程が同じ場合、学習者音声の抑揚の変化量が模範音声の抑揚の変化量と同じであるため、例えば、「良い発音です」というメッセージを表示部106に表示する(ステップSA18)。
【0024】
CPU102は、学習者へのメッセージの出力が終了すると、表示部106を制御し、選択した例文の発音練習を再度行うのか、他の例文の発音練習を行うのかを確認するメニュー画面を表示する(ステップSA19)。学習者が入力部107を操作し、別の例文の発音練習を行う旨の操作を行った場合(ステップ SA20;YES)、CPU102は、ステップSA1に処理の流れを戻し、ステップSA1以降の処理を再び実行する。また、学習者が入力部107を操作し、選択した例文の発音練習を再度行う旨の操作を行った場合(ステップSA21;YES)、CPU102は、ステップSA6に処理の流れを戻し、ステップSA6以降の処理を再び実行する。
【0025】
以上説明したように本実施形態によれば、具体的にどのように発音を改善すれば良いのかが学習者へ出力されるため、試行錯誤して発音の改善と評価とを繰り返すことなく、発音を模範音声に近づけることが可能となる。
【0026】
[第2実施形態]
[実施形態の構成]
次に本発明の第2実施形態について説明する。本実施形態に係わる語学学習装置1Aのハードウェア構成は、第1実施形態に係わる語学学習装置1と同じとなっている。このため、ハードウェア構成については、その説明を省略する。本実施形態においては、CPU102がプログラムを実行することにより実現する機能が第1実施形態と異なる。
【0027】
図6は、CPU102がプログラムを実行することにより実現する機能の構成を示した機能ブロック図である。図6において、第1実施形態と同じ機能ブロックについては、図3において付した符号と同じ符号を付し、その説明を省略する。Hz→Cent変換部60は、Hzで表されているピッチをCentに変換する。フィルタ部70は、ローパスフィルタとして機能し、ピッチの微細な変化を除去する。
【0028】
[実施形態の動作]
次に、本実施形態の動作について説明する。図7は、本実施形態におけるCPU102の処理の流れを例示したフローチャートである。なお、図7において、第1実施形態と同じ処理については、第1実施形態と同じ符号を付している。
【0029】
CPU102は、学習者により例文が選択されると、選択された例文に対応した模範音声データを記憶部105から読み出す(ステップSA1〜ステップSA5)。そして、模範音声データが示す音声を、その再生時間軸上において所定の時間間隔で分割する(ステップSA6)。次にCPU102は、分割されたフレーム毎に、各フレームの音声のピッチを抽出する(ステップSA7)。CPU102は、分割されたフレーム毎にピッチを抽出すると、抽出したピッチの単位をHzからCentに変換する(ステップSB1)。CPU102は、HzからCentへの変換を終了すると、フレーム毎に発音のゆらぎ等のピッチの微細な変化を除去する(ステップSB2)。そして、CPU102は、フレーム毎に求められたピッチを結んだピッチ曲線(第1ピッチ曲線)を生成し、生成した第1ピッチ曲線を示す曲線データを記憶部105に記憶する(ステップSA8)。なお、無声区間や、無声子音の発音区間等、ピッチを抽出することができないフレームにおいては、直線補間や3次スプライン補間等の補間を行い、第1ピッチ曲線を生成する。
【0030】
この後、CPU102は、例文の発音を促すメッセージを表示する(ステップSA10)。学習者が、模範音声を真似て例文を読み上げると、学習者音声が学習者データに変換される。CPU102は、入力部107から送られる信号を監視し、学習者が発音を終了して入力部107を操作すると(ステップSA11;YES)、模範音声データが表す音声の発音時間と、記憶部105に記憶された学習者データが表す音声の発音時間とが同じとなるように、学習者データが表す音声を補正する(ステップSA12)。
【0031】
次にCPU102は、学習者データが示す音声を、ステップSA6の処理と同様にして、その再生時間軸上において複数のフレームに分割する(ステップSA13)。そしてCPU102は、分割されたフレーム毎に、各フレームの音声のピッチを抽出する(ステップSA14)。CPU102は、分割されたフレーム毎にピッチを抽出すると、抽出したピッチの単位をHzからCentに変換する(ステップSB3)。CPU102は、HzからCentへの変換を終了すると、フレーム毎に発音のゆらぎ等のピッチの微細な変化を除去する(ステップSB4)。そして、CPU102は、フレーム毎に求められたピッチを結んだピッチ曲線(第2ピッチ曲線)を生成し、生成した第2ピッチ曲線を示す曲線データを記憶部105に記憶する(ステップSA15)。なお、無声区間や、無声子音の発音区間等、ピッチを抽出することができないフレームにおいては、直線補間や3次スプライン補間等の補間を行い、第2ピッチ曲線を生成する。
ステップSA15以降の処理の流れは、第1実施形態と同じであるため、その説明を省略する。
【0032】
以上説明したように本実施形態によっても、具体的にどのように発音を改善すれば良いのかが学習者へ出力されるため、試行錯誤して発音の改善と評価とを繰り返すことなく、発音を模範音声に近づけることが可能となる。また、ピッチをCentの単位で比較するので、より人間の聴感に近い評価が可能となる。
【0033】
[変形例]
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されることなく、他の様々な形態で実施可能である。例えば、上述の実施形態を以下のように変形して本発明を実施してもよい。
【0034】
上述した実施形態においては、ステップSA12の処理、即ち、模範音声の発音時間と学習者音声の発音時間とを合わせる処理を行わないようにしてもよい。また、ステップSA12の処理においては、模範音声中における各単語の発音時間と、学習者音声中における各単語の発音時間とが同じとなるようにしてもよい。また、ステップSA12の処理においては、模範音声中における各音素の発音時間と、学習者音声中における各音素の発音時間とが同じとなるようにしてもよい。
また、第1ピッチ曲線と第2ピッチ曲線の道程を比較する際、比較する時間区間は、例文全体の区間でもよいし、予め指定された例文の一部区間、またはユーザが指定した一部区間であってもよい。
【0035】
上述した実施形態においては、第1ピッチ曲線の道程と第2ピッチ曲線の道程とを比較し、比較結果に応じて、例えば「もう少し抑揚をつけて発音しましょう」というような、発音の改善ポイントを表示するようにしてもよい。また、上述した実施形態においては、例えば音声中の単語を認識し、単語毎に抑揚の評価結果を表示するようにしてもよい。
【0036】
上述した実施形態においては、学習者の音声についてのみピッチ曲線を生成してピッチ曲線の道程を求め、求めた道程を出力するようにしてもよい。
【符号の説明】
【0037】
1・・・語学学習装置、101・・・バス、102・・・CPU、103・・・ROM、104・・・RAM、105・・・記憶部、106・・・表示部、107・・・入力部、108・・・音声処理部、109・・・マイクロホン、110・・・スピーカ

【特許請求の範囲】
【請求項1】
音声が入力される音声入力手段と、
前記音声入力手段に入力された音声のピッチの時間的変化を示すピッチ曲線を生成し、生成したピッチ曲線の道程を算出する算出手段と、
前記算出手段により算出された道程を出力する出力手段と
を有する音声特徴量算出装置。
【請求項2】
前記算出手段は、前記音声入力手段に入力された音声の無声区間については、該無声区間の前後の音声のピッチによって該無声区間のピッチを補間してピッチ曲線を生成すること
を特徴とする請求項1に記載の音声特徴量算出装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2012−234201(P2012−234201A)
【公開日】平成24年11月29日(2012.11.29)
【国際特許分類】
【出願番号】特願2012−171737(P2012−171737)
【出願日】平成24年8月2日(2012.8.2)
【分割の表示】特願2011−158220(P2011−158220)の分割
【原出願日】平成17年11月9日(2005.11.9)
【出願人】(000004075)ヤマハ株式会社 (5,930)