再生装置
【課題】学習者の音声のリズムと、お手本の音声のリズムとの違いを学習者が把握できるようにする。
【解決手段】語学学習装置は、表示した例文の一つが選択されると、例文を発話した時の模範音声を再生し、選択された例文を表示すると共に、表示された例文中において発音されている部分を、模範音声の再生に同期して表示する。模範音声の再生が終了すると、語学学習装置1は、例文の発話を学習者に促す。語学学習装置1は、学習者の音声が入力されると入力された音声を記憶する。語学学習装置1は、記憶した学習者の音声を再生し、例文を表示すると共に、表示された例文中において発音されている部分を、学習者の音声の再生に同期して表示する。
【解決手段】語学学習装置は、表示した例文の一つが選択されると、例文を発話した時の模範音声を再生し、選択された例文を表示すると共に、表示された例文中において発音されている部分を、模範音声の再生に同期して表示する。模範音声の再生が終了すると、語学学習装置1は、例文の発話を学習者に促す。語学学習装置1は、学習者の音声が入力されると入力された音声を記憶する。語学学習装置1は、記憶した学習者の音声を再生し、例文を表示すると共に、表示された例文中において発音されている部分を、学習者の音声の再生に同期して表示する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、手本となる音と学習者が発する音との違いを学習者に示す技術に関する。
【背景技術】
【0002】
語学学習において、発音練習を行う際には、CD(Compact Disk)等の記録媒体に記録された模範音声を再生し、その模範音声の真似をして発音するという学習方法が広く用いられている。これは模範音声の真似をすることで正しい発音を身につけることを目的とするものである。このような学習を行う場合、学習者は自分の発音を客観的に把握し、模範音声との違いを認識して発音を改善していくこととなるが、模範音声と同じ発音ができているか否かを学習者自身が自分の発音を聞いて客観的に把握するのは難しい。そこで、例えば、特許文献1に開示されているように、学習者が客観的に自分の音声を把握できるようにする技術が考案されている。特許文献1に開示されている語学学習装置は、学習者の音声から母音を抽出し、抽出した母音のピッチや発話時間をグラフ化している。
【特許文献1】特開平5−232856号公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
さて、正しい発音を行うには、発音のピッチやリズム等の動的な変化を模範音声に合わせることが重要であると言われている。特許文献1に開示された技術によれば、母音のピッチや発話時間・発音タイミング等の静的なデータがグラフ化されるため、学習者は自分の音声を客観的に把握することができる。しかしながら、静的なデータが表示されるのみであり、例えば、発音リズム等の発音の動的な変化を把握することは難しいため、特許文献1に開示されている技術では、学習者と模範音声との発音リズムの動的な違いを把握し、どの点を改善すれば良いのかを見つけるのが難しいという問題がある。
【0004】
本発明は、上述した背景の下になされたものであり、その目的は、学習者の音声のリズムと、お手本の音声のリズムとの違いを学習者が把握できるようにすることにある。
【課題を解決するための手段】
【0005】
上述した課題を解決するために本発明は、発音すべき音に対応した音データを予め定められた区間に区切って記憶する記憶手段と、前記記憶手段から前記音データを読み出して再生処理をする再生手段と、収音した音に対応するデータを収音データとして生成する収音データ生成手段と、前記収音データに対して前記音データの区切りに対応する部分を認識し、対応する区切りを付加する位置付加手段と、前記各区間の時間長に対応した表示幅を有する表示区間を連ねて形成されるスケールを表示する表示手段と、前記再生手段による再生処理に同期して、前記音データの各区間における再生位置を前記スケールの各表示区間に対して表示させる第1表示制御手段と、前記収音データを再生処理する収音データ再生処理手段と、前記収音データ再生処理手段に同期して、前記位置付加手段により区切られた前記収音データの各区間における再生位置を前記スケールの各表示区間に対して表示する第2表示制御手段とを具備することを特徴とする再生装置を提供する。
【0006】
この態様においては、前記記憶手段は複数の異なる音データを記憶し、前記記憶手段に記憶された複数の音データのひとつを選択する選択手段を有し、前記再生手段は、前記選択手段により選択された音データを前記記憶手段から読み出して再生処理をするようにしてもよい。
【発明の効果】
【0007】
本発明によれば、学習者は、学習者の音声のリズムと、お手本の音声のリズムとの違いを把握することができる。
【発明を実施するための最良の形態】
【0008】
以下、図面を参照して本発明の実施形態について説明する。
【0009】
[実施形態の構成]
図1は、本発明の実施形態に係る語学学習装置1のハードウェア構成を例示したブロック図である。図1に示したように、語学学習装置1の各部は、バス101に接続されており、このバス101を介して各部間で信号やデータの授受を行う。
【0010】
マイクロホン109は、音声処理部108に接続されており、入力される音声を電気信号(以下、音声信号と称する)に変換して音声処理部108へ出力する。スピーカ110は、音声処理部108に接続されており、音声処理部108から出力される信号に対応した音を出力する。音声処理部108は、マイクロホン109から入力される音声信号をデジタルデータに変換して出力する機能や、音声を表すデジタルデータをアナログの音声信号に変換し、スピーカ110へ出力する機能を備えている。ここで、マイクロホン109には、語学学習装置1を使用する学習者の音声が入力されるため、音声処理部108において変換される音声信号のデジタルデータを学習者データと称し、マイクロホン109に入力された音声(学習者データが示す音声)を学習者音声と称する。
【0011】
表示部106は、例えば、液晶ディスプレイ等の表示デバイスを備えており、CPU102の制御の下、文字列や各種メッセージ、語学学習装置1を操作するためのメニュー画面等を表示する。入力部107は、キーボードやマウス等(いずれも図示略)の入力装置を具備しており、キーの押下やマウスの操作等に応じて操作内容に対応した信号をCPU102へ出力する。
【0012】
記憶部105は、HDD(Hard Disk Drive)装置を備えており、各種データを記憶する。具体的には、記憶部105は、音声処理部108から出力される学習者データを記憶する。また、記憶部105は、語学学習に用いられる例文を表す例文テキストデータと、ネイティブスピーカが例文を読み上げた時の音声(以下、模範音声と称する)を表すデジタルデータ(以下、模範音声データと称する)とを記憶している。記憶部105は、図2に例示したフォーマットの例文テーブルTB1を記憶しており、このテーブルに例文テキストデータと、模範音声データのファイル名と、各例文テキストデータを一意に識別する識別子とを対応付けて格納している。
【0013】
また、記憶部105は、記憶している例文に対応して、図3に例示したフォーマットのピッチテーブルTB2を記憶している。ピッチテーブルTB2において、識別子フィールドには、例文テキストデータを一意に識別する識別子が格納されている。なお、この識別子は、例文テーブルTB1に格納されている識別子と同じ識別子である。
また、フレーム番号フィールドには、識別子フィールドの識別子で特定される例文の模範音声を、時間軸上で所定の時間枠(フレーム)で分割した時の各フレームを示す番号が格納される。例えば、1フレーム=100msecである場合、模範音声において「One centimeter is ten millimeters.」という例文が2.6秒で読み上げられていると、図4に示したように、音声は26のフレームに分割される。ピッチテーブルTB2には、この26の各フレームを示す1〜26の数字が格納される。
【0014】
また、ピッチフィールドには、模範音声の各フレーム時点における音声のピッチを示すピッチデータが格納される。例えば、図4に示したように、模範音声の時間軸上の3フレーム目の時点での音声のピッチがXである場合、図3に示したように、フレーム番号「3」が格納されている行に「X」が格納される。
また、単語フィールドには、どのフレームが、例文中のどの単語に対応しているかを示すデータが格納されている。例えば、「One centimeter is ten millimeters.」において、模範音声の時間軸上の1フレーム目の音声と、2フレーム目の音声とが例文の「One」に対応している場合、図3に示したように、フレーム番号「1」と「2」が格納されている行に「One」という文字列が格納される。
【0015】
また、記憶部105は、図5に例示したフォーマットの単語テーブルTB3を記憶しており、このテーブルに、例文を示す識別子と、例文に含まれている各単語のテキストデータと、各単語の発話開始時間とを対応付けて格納している。
【0016】
CPU(Central Processing Unit)102は、ROM(Read Only Memory)103に記憶されているプログラムを、RAM(Random Access Memory)104を作業エリアにして実行する。
【0017】
[実施形態の動作]
次に本実施形態の動作について説明する。
まず、学習者が例文の一覧の表示を指示する操作を行うと、CPU102は例文テーブルTB1に格納されている例文テキストデータを読み出し(図6:ステップSA1)、読み出したデータが表す例文の一覧を表示部106に表示する(ステップSA2)。この後、学習者が入力部107を操作し、表示された例文の一つを選択する操作を行うと(ステップSA3;YES)、CPU102は、表示部106に表示されている画面と、入力部107から送られる信号に基づいて、選択された例文を特定する(ステップSA4)。CPU102は、選択された例文を特定すると、例文テーブルTB1において、選択された例文に対応付けて格納されている模範音声データのファイル名を読み出す(ステップSA5)。例えば、図2に示したテーブルにおいて、識別子が「001」である例文が選択された場合、ファイル名「a001」が読み出される。
【0018】
次にCPU102は、読み出したファイル名で特定される模範音声データを記憶部105から読み出し、読み出した模範音声データを音声処理部108へ出力する(ステップSA6)。また、CPU102は、表示部106を制御し、選択された例文と、例文の模範音声のピッチとを表示する(ステップSA7)。ここでは、識別子が「001」である例文が選択されているので、識別子「001」に対応付けて例文テーブルTB1に格納されている例文テキストデータが読み出され、識別子「001」が格納されているピッチテーブルTB2からピッチデータが読み出される。そして、図7に示したように、読み出された例文テキストデータに従って、選択された例文が表示され、読み出されたピッチデータに従って、例文の模範音声のピッチが表示される。
なお、図7において、表示される例文の長さ、およびピッチの長さは、模範音声データの全体の再生時間長に対応しており、例文の左端およびピッチ表示の左端が模範音声の再生開始時点を示しており、例文の右端およびピッチ表示の右端が模範音声の再生終了時点を表している。また、表示されるピッチは、各フレームのピッチをつないだ波形として表示される。
【0019】
音声処理部108に模範音声データが入力されると、デジタルデータである模範音声データがアナログの信号に変換されてスピーカ110へ出力され、スピーカ110から模範音声が再生される。CPU102は、模範音声の再生が開始されると、表示部106を制御し、表示した例文において音声再生されている部分を示すバー10を表示する(ステップSA8)。例えば、CPU102は、フレーム「3」の部分(発音開始時点から見て200msec〜300msecの間)の音声が再生されているタイミングでは、図7(a)に示したように、フレーム「3」のピッチが表示されている部分を100msecの時間をかけてバー10が移動するように表示し、フレーム「4」の部分(発音開始時点から見て300msec〜400msecの間)の音声が再生されているタイミングでは、図7(b)に示したように、フレーム「4」のピッチが表示されている部分を100msecの時間をかけてバー10が移動するように表示する。このように、再生されるフレーム番号に同期してバー10の横方向の表示位置が制御される。
【0020】
CPU102は、模範音声の再生が終了すると、表示部106を制御し、例えば、「キーを押してから発音し、発音が終わったら再度キーを押してください」という、例文の発音を促すメッセージを表示する(ステップSA9)。学習者は、スピーカ110から出力された模範音声を聞いた後、メッセージに従って入力部107を操作し、模範音声を真似て例文を読み上げる。学習者の音声はマイクロホン109によって音声信号に変換され、変換された信号が音声処理部108へ出力される。音声処理部108は、マイクロホン109から出力された音声信号が入力されると、音声信号をデジタルデータである学習者データに変換する。この学習者データは、音声処理部108から出力され、記憶部105に記憶される。
【0021】
学習者が発音を終了して入力部107を操作すると(ステップSA10;YES)、CPU102は、学習者データが示す音声の長さを調整し、模範音声データが示す模範音声の長さと、学習者データが示す学習者の音声の長さとが同じとなるように学習者データを処理する(ステップSA11)。図8は、模範音声の波形とマイクロホン109に入力された学習者音声の波形とを例示した図である。図8においては、模範音声の波形および学習者音声の波形は同じ例文を発話した時のものを示しているが、発話速度が異なっているため、音声波形の長さが異なっている。CPU102は、模範音声データと学習者データを解析し、模範音声の長さと学習者音声の長さ(図8のΔt)を求める。図8に示したように、学習者音声の長さが模範音声の長さよりΔt長い場合、学習者音声の長さをΔt分だけ縮める処理を行う。
【0022】
次にCPU102は、模範音声の波形と学習者音声の波形とを、図9に示したように所定の時間間隔(100msec)で区切って複数のフレームに分割する。そして、模範音声の各フレームの音声波形と、学習者音声の各フレームの音声波形との対応付けをDP(Dynamic Programming)マッチング法を用いて行う(ステップSA12)。例えば、図9に例示した波形においては、模範音声のフレームA1は、学習者音声のフレームB1に対応付けされ、模範音声のフレームA3は、学習者音声のフレームB4に対応付けされる。
【0023】
CPU102は、模範音声と学習者音声との対応付けが終了すると、各音声波形を単語の発音毎に分割する(ステップSA13)。具体的には、まず、模範音声については、単語テーブルTB3から発話開始時間を読み出す。ここで、学習者が選択した例文が「One centimeter is ten centimeter.」であるので、まず、「One」の発話開始時間「0.0sec」が単語テーブルTB3から読み出される。CPU102は、図9に示したように、音声波形の「0.0sec」の位置のフレームに(フレームA1)単語の区切りを示す情報(以下、単語区切り情報Cと称する)を付加する。次にCPU102は「centimeter」の発話開始時間「0.2sec」を単語テーブルTB3から読み出し、発音開始から0.2sec後の位置に対応したフレーム(フレームA3)に単語区切り情報Cを付加する。
【0024】
CPU102は、模範音声について最後の単語「millimeters」まで単語区切り情報Cを付加すると、次に、学習者音声について単語区切り情報を付加する。まず、CPU102は、模範音声において単語区切り情報が付加されたフレームを抽出する。そして、抽出されたフレームに対応したフレームを、学習者音声において特定し、特定したフレームに単語区切り情報Cを付加する。例えば、単語区切り情報Cが付加されたフレームA1が抽出されると、上述したステップSA12の処理によってフレームA1はフレームB1に対応付けされているので、CPU102は、フレームA1に対応しているフレームB1を特定し、このフレームB1に単語区切り情報を付加する。また、単語区切り情報が付加されたフレームA3が抽出されると、上述したステップSA12の処理によってフレームA3はフレームB4に対応付けされているので、CPU102は、フレームA3に対応付けされたフレームB4を特定し、このフレームB4に単語区切り情報Cを付加する。
【0025】
CPU102は、フレームに単語区切り情報を付加して音声波形を単語の発音毎に分割すると、学習者音声について、各単語の音声のピッチと発話時間とを算出する(ステップSA14)。例えば、学習者音声の「One」の場合、「One」の発音を表す音声波形として、フレームB1〜フレームB3までの音声波形が抽出される。そして、抽出した音声波形が解析され、音声のピッチと各単語の発話時間とが算出される。
【0026】
次にCPU102は、記憶部105に記憶した学習者データを音声処理部108へ出力する(ステップSA15)。また、CPU102は表示部106を制御し、選択された例文と、ステップSA14で求めた学習者の音声のピッチとを、模範音声のピッチを表示した時と同様に表示する(ステップSA16)。ここで、例文の各単語およびピッチの横方向の表示長さは、模範音声のピッチを表示した時の表示長さと同じ長さにされる。
なお、表示される画面においては、例文の左端およびピッチ表示の左端が模範音声の再生開始時点を示しており、例文の右端およびピッチ表示の右端が模範音声の再生終了時点を表している。
【0027】
音声処理部108に学習者データが入力されると、デジタルデータである学習者データがアナログの信号に変換されてスピーカ110へ出力され、スピーカ110から学習者の音声が再生される。CPU102は、学習者の音声が再生されると、表示部106を制御し、表示した例文において音声再生されている部分を示すバーを表示する(ステップSA17)。
【0028】
ここでCPU102は、学習者の「One」の発話時間が、模範音声の「One」の発話時間と同じである場合、模範音声を再生した時と同じ速度で「One」のピッチの表示区間を移動するようにバー10を表示する。即ち、学習者の「One」の発話時間が、模範音声の「One」の発話時間と同じ200msecであった場合、バー10は、「One」のピッチの表示区間を200msecの時間をかけて移動するように表示される。一方、学習者の「One」の発話時間が、模範音声の「One」の発話時間と異なり、例えば、300msecであった場合、バー10は、「One」のピッチの表示区間を300msecの時間をかけて移動するように表示される。即ち、表示画面において「One」の区間を移動するバー10の速度が、模範音声を再生した時のバー10の移動速度より遅くなるので、このバー10の移動を見た学習者は、自分の「One」の発話時間が模範音声の「One」の発話時間より長くなっていることを知ることができる。また、学習者の「One」の発話時間が例えば模範音声の「One」の発音より短い100msecあった場合、「One」のピッチの表示区間を100msecの時間をかけて移動するようにバー10が表示される。即ち、表示画面において「One」の区間を移動するバー10の速度が、模範音声を再生した時のバー10の移動速度より早くなるので、このバー10の移動を見た学習者は、自分の「One」の発話時間が模範音声の「One」の発話時間より短くなっていることを知ることができる。
【0029】
CPU102は、他の単語についても同様に、ステップSA14で算出した発話時間に従ってバー10を移動させて表示し、学習者の音声の再生が終了すると、表示部106を制御し、選択した例文の発音練習を再度行うのか、他の例文の発音練習を行うのかを確認するメニュー画面を表示する(ステップSA18)。学習者が入力部107を操作し、別の例文の発音練習を行う旨の操作を行った場合(ステップSA19;YES)、CPU102は、ステップSA1に処理の流れを戻し、ステップSA1以降の処理を再び実行する。また、学習者が入力部107を操作し、選択した例文の発音練習を再度行う旨の操作を行った場合(ステップSA20;YES)、CPU102は、ステップSA9に処理の流れを戻し、ステップSA9以降の処理を再び実行する。
【0030】
以上説明したように、本実施形態によれば、模範音声における発音リズムの動的な変化と、学習者の音声における発音リズムの動的な変化とが表示されるので、学習者は、自身の音声と、模範音声との発音リズムの違いを把握することができる。そして、模範音声との発音リズムの違いを把握することができるようになるので、発音を模範音声に近づけることが容易となる。
【0031】
[変形例]
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されることなく、以下のように、他の様々な形態で実施可能である。
【0032】
上述した実施形態においては、学習者の音声の再生位置を示すバーを表示する際、模範音声の再生位置を示すバーを同時に表示するようにしてもよい。このような態様によれば、模範音声に対してどの程度早く(遅く)発音しているかを具体的に知ることができる。また、学習者の音声のピッチを表示する際には、図10に示したように、模範音声のピッチを重ねて表示するようにしてもよい。
【0033】
上述した実施形態では、語学学習装置1は、フランス語やドイツ語等、英語だけでなく他の言語の例文と模範音声とを記憶して再生するようにしてもよい。
【0034】
上述した実施形態においては、模範音声および学習者の音声のピッチを表示しているが、ピッチを表示しないようにし、バー10を表示されている例文上に表示するようにしてもよい。また、ピッチを表示する代わりに時間軸を表示するようにしてもよい。
【0035】
上述した実施形態においては、バー10により音声の再生部分を表しているが、再生済みの部分の色を、再生されていない部分の色とは異なる色に変えるようにして音声の再生位置を表すようにしてもよい。
また、上述した実施形態においては、1フレームの時間間隔を100msecとしているが、1フレームの時間間隔は、100msec以外であってもよい。
また、上述した実施形態においては、例文を表示する際に単語毎に区切りを表示しているが、音素毎に区切りを表示するようにしてもよい。
また、上述した実施形態においては、音声のパワーの時間的変化を解析し、ピッチに替えて解析した音声パワーの時間的変化を表示するようにしてもよい。
【0036】
上述した実施形態においては、CPU102が実行するプログラムを記憶部105に記憶させ、CPU102は記憶部105からプログラムを読み出して実行するようにしてもよい。また、語学学習装置1に通信機能を持たせ、CPU102が実行するプログラムを通信ネットワークを介してダウンロードして記憶部105に記憶させるようにしてもよい。また、語学学習装置1は、CD−ROM等の記録媒体に記録されたプログラムを読みとり、読みとったプログラムを記憶部105に記憶するようにしてもよい。
【図面の簡単な説明】
【0037】
【図1】本発明の実施形態に係る学習装置のブロック図である。
【図2】例文テーブルTB1のフォーマットを例示した図である。
【図3】ピッチテーブルTB2のフォーマットを例示した図である。
【図4】模範音声におけるピッチの変化を例示した図である。
【図5】単語テーブルTB3のフォーマットを例示した図である。
【図6】CPU102が行う処理の流れを示したフローチャートである。
【図7】表示部106に表示される画面を例示した図である
【図8】模範音声の波形と学習者音声の波形とを例示した図である。
【図9】模範音声の波形と学習者音声の波形とを複数のフレームに分割した時の図である。
【図10】変形例における画面表示を例示した図である。
【符号の説明】
【0038】
1・・・語学学習装置、101・・・バス、102・・・CPU、103・・・ROM、104・・・RAM、105・・・記憶部、106・・・表示部、107・・・入力部、108・・・音声処理部、109・・・マイクロホン、110・・・スピーカ。
【技術分野】
【0001】
本発明は、手本となる音と学習者が発する音との違いを学習者に示す技術に関する。
【背景技術】
【0002】
語学学習において、発音練習を行う際には、CD(Compact Disk)等の記録媒体に記録された模範音声を再生し、その模範音声の真似をして発音するという学習方法が広く用いられている。これは模範音声の真似をすることで正しい発音を身につけることを目的とするものである。このような学習を行う場合、学習者は自分の発音を客観的に把握し、模範音声との違いを認識して発音を改善していくこととなるが、模範音声と同じ発音ができているか否かを学習者自身が自分の発音を聞いて客観的に把握するのは難しい。そこで、例えば、特許文献1に開示されているように、学習者が客観的に自分の音声を把握できるようにする技術が考案されている。特許文献1に開示されている語学学習装置は、学習者の音声から母音を抽出し、抽出した母音のピッチや発話時間をグラフ化している。
【特許文献1】特開平5−232856号公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
さて、正しい発音を行うには、発音のピッチやリズム等の動的な変化を模範音声に合わせることが重要であると言われている。特許文献1に開示された技術によれば、母音のピッチや発話時間・発音タイミング等の静的なデータがグラフ化されるため、学習者は自分の音声を客観的に把握することができる。しかしながら、静的なデータが表示されるのみであり、例えば、発音リズム等の発音の動的な変化を把握することは難しいため、特許文献1に開示されている技術では、学習者と模範音声との発音リズムの動的な違いを把握し、どの点を改善すれば良いのかを見つけるのが難しいという問題がある。
【0004】
本発明は、上述した背景の下になされたものであり、その目的は、学習者の音声のリズムと、お手本の音声のリズムとの違いを学習者が把握できるようにすることにある。
【課題を解決するための手段】
【0005】
上述した課題を解決するために本発明は、発音すべき音に対応した音データを予め定められた区間に区切って記憶する記憶手段と、前記記憶手段から前記音データを読み出して再生処理をする再生手段と、収音した音に対応するデータを収音データとして生成する収音データ生成手段と、前記収音データに対して前記音データの区切りに対応する部分を認識し、対応する区切りを付加する位置付加手段と、前記各区間の時間長に対応した表示幅を有する表示区間を連ねて形成されるスケールを表示する表示手段と、前記再生手段による再生処理に同期して、前記音データの各区間における再生位置を前記スケールの各表示区間に対して表示させる第1表示制御手段と、前記収音データを再生処理する収音データ再生処理手段と、前記収音データ再生処理手段に同期して、前記位置付加手段により区切られた前記収音データの各区間における再生位置を前記スケールの各表示区間に対して表示する第2表示制御手段とを具備することを特徴とする再生装置を提供する。
【0006】
この態様においては、前記記憶手段は複数の異なる音データを記憶し、前記記憶手段に記憶された複数の音データのひとつを選択する選択手段を有し、前記再生手段は、前記選択手段により選択された音データを前記記憶手段から読み出して再生処理をするようにしてもよい。
【発明の効果】
【0007】
本発明によれば、学習者は、学習者の音声のリズムと、お手本の音声のリズムとの違いを把握することができる。
【発明を実施するための最良の形態】
【0008】
以下、図面を参照して本発明の実施形態について説明する。
【0009】
[実施形態の構成]
図1は、本発明の実施形態に係る語学学習装置1のハードウェア構成を例示したブロック図である。図1に示したように、語学学習装置1の各部は、バス101に接続されており、このバス101を介して各部間で信号やデータの授受を行う。
【0010】
マイクロホン109は、音声処理部108に接続されており、入力される音声を電気信号(以下、音声信号と称する)に変換して音声処理部108へ出力する。スピーカ110は、音声処理部108に接続されており、音声処理部108から出力される信号に対応した音を出力する。音声処理部108は、マイクロホン109から入力される音声信号をデジタルデータに変換して出力する機能や、音声を表すデジタルデータをアナログの音声信号に変換し、スピーカ110へ出力する機能を備えている。ここで、マイクロホン109には、語学学習装置1を使用する学習者の音声が入力されるため、音声処理部108において変換される音声信号のデジタルデータを学習者データと称し、マイクロホン109に入力された音声(学習者データが示す音声)を学習者音声と称する。
【0011】
表示部106は、例えば、液晶ディスプレイ等の表示デバイスを備えており、CPU102の制御の下、文字列や各種メッセージ、語学学習装置1を操作するためのメニュー画面等を表示する。入力部107は、キーボードやマウス等(いずれも図示略)の入力装置を具備しており、キーの押下やマウスの操作等に応じて操作内容に対応した信号をCPU102へ出力する。
【0012】
記憶部105は、HDD(Hard Disk Drive)装置を備えており、各種データを記憶する。具体的には、記憶部105は、音声処理部108から出力される学習者データを記憶する。また、記憶部105は、語学学習に用いられる例文を表す例文テキストデータと、ネイティブスピーカが例文を読み上げた時の音声(以下、模範音声と称する)を表すデジタルデータ(以下、模範音声データと称する)とを記憶している。記憶部105は、図2に例示したフォーマットの例文テーブルTB1を記憶しており、このテーブルに例文テキストデータと、模範音声データのファイル名と、各例文テキストデータを一意に識別する識別子とを対応付けて格納している。
【0013】
また、記憶部105は、記憶している例文に対応して、図3に例示したフォーマットのピッチテーブルTB2を記憶している。ピッチテーブルTB2において、識別子フィールドには、例文テキストデータを一意に識別する識別子が格納されている。なお、この識別子は、例文テーブルTB1に格納されている識別子と同じ識別子である。
また、フレーム番号フィールドには、識別子フィールドの識別子で特定される例文の模範音声を、時間軸上で所定の時間枠(フレーム)で分割した時の各フレームを示す番号が格納される。例えば、1フレーム=100msecである場合、模範音声において「One centimeter is ten millimeters.」という例文が2.6秒で読み上げられていると、図4に示したように、音声は26のフレームに分割される。ピッチテーブルTB2には、この26の各フレームを示す1〜26の数字が格納される。
【0014】
また、ピッチフィールドには、模範音声の各フレーム時点における音声のピッチを示すピッチデータが格納される。例えば、図4に示したように、模範音声の時間軸上の3フレーム目の時点での音声のピッチがXである場合、図3に示したように、フレーム番号「3」が格納されている行に「X」が格納される。
また、単語フィールドには、どのフレームが、例文中のどの単語に対応しているかを示すデータが格納されている。例えば、「One centimeter is ten millimeters.」において、模範音声の時間軸上の1フレーム目の音声と、2フレーム目の音声とが例文の「One」に対応している場合、図3に示したように、フレーム番号「1」と「2」が格納されている行に「One」という文字列が格納される。
【0015】
また、記憶部105は、図5に例示したフォーマットの単語テーブルTB3を記憶しており、このテーブルに、例文を示す識別子と、例文に含まれている各単語のテキストデータと、各単語の発話開始時間とを対応付けて格納している。
【0016】
CPU(Central Processing Unit)102は、ROM(Read Only Memory)103に記憶されているプログラムを、RAM(Random Access Memory)104を作業エリアにして実行する。
【0017】
[実施形態の動作]
次に本実施形態の動作について説明する。
まず、学習者が例文の一覧の表示を指示する操作を行うと、CPU102は例文テーブルTB1に格納されている例文テキストデータを読み出し(図6:ステップSA1)、読み出したデータが表す例文の一覧を表示部106に表示する(ステップSA2)。この後、学習者が入力部107を操作し、表示された例文の一つを選択する操作を行うと(ステップSA3;YES)、CPU102は、表示部106に表示されている画面と、入力部107から送られる信号に基づいて、選択された例文を特定する(ステップSA4)。CPU102は、選択された例文を特定すると、例文テーブルTB1において、選択された例文に対応付けて格納されている模範音声データのファイル名を読み出す(ステップSA5)。例えば、図2に示したテーブルにおいて、識別子が「001」である例文が選択された場合、ファイル名「a001」が読み出される。
【0018】
次にCPU102は、読み出したファイル名で特定される模範音声データを記憶部105から読み出し、読み出した模範音声データを音声処理部108へ出力する(ステップSA6)。また、CPU102は、表示部106を制御し、選択された例文と、例文の模範音声のピッチとを表示する(ステップSA7)。ここでは、識別子が「001」である例文が選択されているので、識別子「001」に対応付けて例文テーブルTB1に格納されている例文テキストデータが読み出され、識別子「001」が格納されているピッチテーブルTB2からピッチデータが読み出される。そして、図7に示したように、読み出された例文テキストデータに従って、選択された例文が表示され、読み出されたピッチデータに従って、例文の模範音声のピッチが表示される。
なお、図7において、表示される例文の長さ、およびピッチの長さは、模範音声データの全体の再生時間長に対応しており、例文の左端およびピッチ表示の左端が模範音声の再生開始時点を示しており、例文の右端およびピッチ表示の右端が模範音声の再生終了時点を表している。また、表示されるピッチは、各フレームのピッチをつないだ波形として表示される。
【0019】
音声処理部108に模範音声データが入力されると、デジタルデータである模範音声データがアナログの信号に変換されてスピーカ110へ出力され、スピーカ110から模範音声が再生される。CPU102は、模範音声の再生が開始されると、表示部106を制御し、表示した例文において音声再生されている部分を示すバー10を表示する(ステップSA8)。例えば、CPU102は、フレーム「3」の部分(発音開始時点から見て200msec〜300msecの間)の音声が再生されているタイミングでは、図7(a)に示したように、フレーム「3」のピッチが表示されている部分を100msecの時間をかけてバー10が移動するように表示し、フレーム「4」の部分(発音開始時点から見て300msec〜400msecの間)の音声が再生されているタイミングでは、図7(b)に示したように、フレーム「4」のピッチが表示されている部分を100msecの時間をかけてバー10が移動するように表示する。このように、再生されるフレーム番号に同期してバー10の横方向の表示位置が制御される。
【0020】
CPU102は、模範音声の再生が終了すると、表示部106を制御し、例えば、「キーを押してから発音し、発音が終わったら再度キーを押してください」という、例文の発音を促すメッセージを表示する(ステップSA9)。学習者は、スピーカ110から出力された模範音声を聞いた後、メッセージに従って入力部107を操作し、模範音声を真似て例文を読み上げる。学習者の音声はマイクロホン109によって音声信号に変換され、変換された信号が音声処理部108へ出力される。音声処理部108は、マイクロホン109から出力された音声信号が入力されると、音声信号をデジタルデータである学習者データに変換する。この学習者データは、音声処理部108から出力され、記憶部105に記憶される。
【0021】
学習者が発音を終了して入力部107を操作すると(ステップSA10;YES)、CPU102は、学習者データが示す音声の長さを調整し、模範音声データが示す模範音声の長さと、学習者データが示す学習者の音声の長さとが同じとなるように学習者データを処理する(ステップSA11)。図8は、模範音声の波形とマイクロホン109に入力された学習者音声の波形とを例示した図である。図8においては、模範音声の波形および学習者音声の波形は同じ例文を発話した時のものを示しているが、発話速度が異なっているため、音声波形の長さが異なっている。CPU102は、模範音声データと学習者データを解析し、模範音声の長さと学習者音声の長さ(図8のΔt)を求める。図8に示したように、学習者音声の長さが模範音声の長さよりΔt長い場合、学習者音声の長さをΔt分だけ縮める処理を行う。
【0022】
次にCPU102は、模範音声の波形と学習者音声の波形とを、図9に示したように所定の時間間隔(100msec)で区切って複数のフレームに分割する。そして、模範音声の各フレームの音声波形と、学習者音声の各フレームの音声波形との対応付けをDP(Dynamic Programming)マッチング法を用いて行う(ステップSA12)。例えば、図9に例示した波形においては、模範音声のフレームA1は、学習者音声のフレームB1に対応付けされ、模範音声のフレームA3は、学習者音声のフレームB4に対応付けされる。
【0023】
CPU102は、模範音声と学習者音声との対応付けが終了すると、各音声波形を単語の発音毎に分割する(ステップSA13)。具体的には、まず、模範音声については、単語テーブルTB3から発話開始時間を読み出す。ここで、学習者が選択した例文が「One centimeter is ten centimeter.」であるので、まず、「One」の発話開始時間「0.0sec」が単語テーブルTB3から読み出される。CPU102は、図9に示したように、音声波形の「0.0sec」の位置のフレームに(フレームA1)単語の区切りを示す情報(以下、単語区切り情報Cと称する)を付加する。次にCPU102は「centimeter」の発話開始時間「0.2sec」を単語テーブルTB3から読み出し、発音開始から0.2sec後の位置に対応したフレーム(フレームA3)に単語区切り情報Cを付加する。
【0024】
CPU102は、模範音声について最後の単語「millimeters」まで単語区切り情報Cを付加すると、次に、学習者音声について単語区切り情報を付加する。まず、CPU102は、模範音声において単語区切り情報が付加されたフレームを抽出する。そして、抽出されたフレームに対応したフレームを、学習者音声において特定し、特定したフレームに単語区切り情報Cを付加する。例えば、単語区切り情報Cが付加されたフレームA1が抽出されると、上述したステップSA12の処理によってフレームA1はフレームB1に対応付けされているので、CPU102は、フレームA1に対応しているフレームB1を特定し、このフレームB1に単語区切り情報を付加する。また、単語区切り情報が付加されたフレームA3が抽出されると、上述したステップSA12の処理によってフレームA3はフレームB4に対応付けされているので、CPU102は、フレームA3に対応付けされたフレームB4を特定し、このフレームB4に単語区切り情報Cを付加する。
【0025】
CPU102は、フレームに単語区切り情報を付加して音声波形を単語の発音毎に分割すると、学習者音声について、各単語の音声のピッチと発話時間とを算出する(ステップSA14)。例えば、学習者音声の「One」の場合、「One」の発音を表す音声波形として、フレームB1〜フレームB3までの音声波形が抽出される。そして、抽出した音声波形が解析され、音声のピッチと各単語の発話時間とが算出される。
【0026】
次にCPU102は、記憶部105に記憶した学習者データを音声処理部108へ出力する(ステップSA15)。また、CPU102は表示部106を制御し、選択された例文と、ステップSA14で求めた学習者の音声のピッチとを、模範音声のピッチを表示した時と同様に表示する(ステップSA16)。ここで、例文の各単語およびピッチの横方向の表示長さは、模範音声のピッチを表示した時の表示長さと同じ長さにされる。
なお、表示される画面においては、例文の左端およびピッチ表示の左端が模範音声の再生開始時点を示しており、例文の右端およびピッチ表示の右端が模範音声の再生終了時点を表している。
【0027】
音声処理部108に学習者データが入力されると、デジタルデータである学習者データがアナログの信号に変換されてスピーカ110へ出力され、スピーカ110から学習者の音声が再生される。CPU102は、学習者の音声が再生されると、表示部106を制御し、表示した例文において音声再生されている部分を示すバーを表示する(ステップSA17)。
【0028】
ここでCPU102は、学習者の「One」の発話時間が、模範音声の「One」の発話時間と同じである場合、模範音声を再生した時と同じ速度で「One」のピッチの表示区間を移動するようにバー10を表示する。即ち、学習者の「One」の発話時間が、模範音声の「One」の発話時間と同じ200msecであった場合、バー10は、「One」のピッチの表示区間を200msecの時間をかけて移動するように表示される。一方、学習者の「One」の発話時間が、模範音声の「One」の発話時間と異なり、例えば、300msecであった場合、バー10は、「One」のピッチの表示区間を300msecの時間をかけて移動するように表示される。即ち、表示画面において「One」の区間を移動するバー10の速度が、模範音声を再生した時のバー10の移動速度より遅くなるので、このバー10の移動を見た学習者は、自分の「One」の発話時間が模範音声の「One」の発話時間より長くなっていることを知ることができる。また、学習者の「One」の発話時間が例えば模範音声の「One」の発音より短い100msecあった場合、「One」のピッチの表示区間を100msecの時間をかけて移動するようにバー10が表示される。即ち、表示画面において「One」の区間を移動するバー10の速度が、模範音声を再生した時のバー10の移動速度より早くなるので、このバー10の移動を見た学習者は、自分の「One」の発話時間が模範音声の「One」の発話時間より短くなっていることを知ることができる。
【0029】
CPU102は、他の単語についても同様に、ステップSA14で算出した発話時間に従ってバー10を移動させて表示し、学習者の音声の再生が終了すると、表示部106を制御し、選択した例文の発音練習を再度行うのか、他の例文の発音練習を行うのかを確認するメニュー画面を表示する(ステップSA18)。学習者が入力部107を操作し、別の例文の発音練習を行う旨の操作を行った場合(ステップSA19;YES)、CPU102は、ステップSA1に処理の流れを戻し、ステップSA1以降の処理を再び実行する。また、学習者が入力部107を操作し、選択した例文の発音練習を再度行う旨の操作を行った場合(ステップSA20;YES)、CPU102は、ステップSA9に処理の流れを戻し、ステップSA9以降の処理を再び実行する。
【0030】
以上説明したように、本実施形態によれば、模範音声における発音リズムの動的な変化と、学習者の音声における発音リズムの動的な変化とが表示されるので、学習者は、自身の音声と、模範音声との発音リズムの違いを把握することができる。そして、模範音声との発音リズムの違いを把握することができるようになるので、発音を模範音声に近づけることが容易となる。
【0031】
[変形例]
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されることなく、以下のように、他の様々な形態で実施可能である。
【0032】
上述した実施形態においては、学習者の音声の再生位置を示すバーを表示する際、模範音声の再生位置を示すバーを同時に表示するようにしてもよい。このような態様によれば、模範音声に対してどの程度早く(遅く)発音しているかを具体的に知ることができる。また、学習者の音声のピッチを表示する際には、図10に示したように、模範音声のピッチを重ねて表示するようにしてもよい。
【0033】
上述した実施形態では、語学学習装置1は、フランス語やドイツ語等、英語だけでなく他の言語の例文と模範音声とを記憶して再生するようにしてもよい。
【0034】
上述した実施形態においては、模範音声および学習者の音声のピッチを表示しているが、ピッチを表示しないようにし、バー10を表示されている例文上に表示するようにしてもよい。また、ピッチを表示する代わりに時間軸を表示するようにしてもよい。
【0035】
上述した実施形態においては、バー10により音声の再生部分を表しているが、再生済みの部分の色を、再生されていない部分の色とは異なる色に変えるようにして音声の再生位置を表すようにしてもよい。
また、上述した実施形態においては、1フレームの時間間隔を100msecとしているが、1フレームの時間間隔は、100msec以外であってもよい。
また、上述した実施形態においては、例文を表示する際に単語毎に区切りを表示しているが、音素毎に区切りを表示するようにしてもよい。
また、上述した実施形態においては、音声のパワーの時間的変化を解析し、ピッチに替えて解析した音声パワーの時間的変化を表示するようにしてもよい。
【0036】
上述した実施形態においては、CPU102が実行するプログラムを記憶部105に記憶させ、CPU102は記憶部105からプログラムを読み出して実行するようにしてもよい。また、語学学習装置1に通信機能を持たせ、CPU102が実行するプログラムを通信ネットワークを介してダウンロードして記憶部105に記憶させるようにしてもよい。また、語学学習装置1は、CD−ROM等の記録媒体に記録されたプログラムを読みとり、読みとったプログラムを記憶部105に記憶するようにしてもよい。
【図面の簡単な説明】
【0037】
【図1】本発明の実施形態に係る学習装置のブロック図である。
【図2】例文テーブルTB1のフォーマットを例示した図である。
【図3】ピッチテーブルTB2のフォーマットを例示した図である。
【図4】模範音声におけるピッチの変化を例示した図である。
【図5】単語テーブルTB3のフォーマットを例示した図である。
【図6】CPU102が行う処理の流れを示したフローチャートである。
【図7】表示部106に表示される画面を例示した図である
【図8】模範音声の波形と学習者音声の波形とを例示した図である。
【図9】模範音声の波形と学習者音声の波形とを複数のフレームに分割した時の図である。
【図10】変形例における画面表示を例示した図である。
【符号の説明】
【0038】
1・・・語学学習装置、101・・・バス、102・・・CPU、103・・・ROM、104・・・RAM、105・・・記憶部、106・・・表示部、107・・・入力部、108・・・音声処理部、109・・・マイクロホン、110・・・スピーカ。
【特許請求の範囲】
【請求項1】
発音すべき音に対応した音データを予め定められた区間に区切って記憶する記憶手段と、
前記記憶手段から前記音データを読み出して再生処理をする再生手段と、
収音した音に対応するデータを収音データとして生成する収音データ生成手段と、
前記収音データに対して前記音データの区切りに対応する部分を認識し、対応する区切りを付加する位置付加手段と、
前記各区間の時間長に対応した表示幅を有する表示区間を連ねて形成されるスケールを表示する表示手段と、
前記再生手段による再生処理に同期して、前記音データの各区間における再生位置を前記スケールの各表示区間に対して表示させる第1表示制御手段と、
前記収音データを再生処理する収音データ再生処理手段と、
前記収音データ再生処理手段に同期して、前記位置付加手段により区切られた前記収音データの各区間における再生位置を前記スケールの各表示区間に対して表示する第2表示制御手段と
を具備することを特徴とする再生装置。
【請求項2】
前記記憶手段は複数の異なる音データを記憶し、
前記記憶手段に記憶された複数の音データのひとつを選択する選択手段を有し、
前記再生手段は、前記選択手段により選択された音データを前記記憶手段から読み出して再生処理をすること
を特徴とする請求項1に記載の再生装置。
【請求項1】
発音すべき音に対応した音データを予め定められた区間に区切って記憶する記憶手段と、
前記記憶手段から前記音データを読み出して再生処理をする再生手段と、
収音した音に対応するデータを収音データとして生成する収音データ生成手段と、
前記収音データに対して前記音データの区切りに対応する部分を認識し、対応する区切りを付加する位置付加手段と、
前記各区間の時間長に対応した表示幅を有する表示区間を連ねて形成されるスケールを表示する表示手段と、
前記再生手段による再生処理に同期して、前記音データの各区間における再生位置を前記スケールの各表示区間に対して表示させる第1表示制御手段と、
前記収音データを再生処理する収音データ再生処理手段と、
前記収音データ再生処理手段に同期して、前記位置付加手段により区切られた前記収音データの各区間における再生位置を前記スケールの各表示区間に対して表示する第2表示制御手段と
を具備することを特徴とする再生装置。
【請求項2】
前記記憶手段は複数の異なる音データを記憶し、
前記記憶手段に記憶された複数の音データのひとつを選択する選択手段を有し、
前記再生手段は、前記選択手段により選択された音データを前記記憶手段から読み出して再生処理をすること
を特徴とする請求項1に記載の再生装置。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【公開番号】特開2007−140079(P2007−140079A)
【公開日】平成19年6月7日(2007.6.7)
【国際特許分類】
【出願番号】特願2005−333324(P2005−333324)
【出願日】平成17年11月17日(2005.11.17)
【出願人】(000004075)ヤマハ株式会社 (5,930)
【Fターム(参考)】
【公開日】平成19年6月7日(2007.6.7)
【国際特許分類】
【出願日】平成17年11月17日(2005.11.17)
【出願人】(000004075)ヤマハ株式会社 (5,930)
【Fターム(参考)】
[ Back to top ]