説明

語学学習装置

【課題】語学学習において、学習者の音声と、お手本の音声との違いを学習者が把握できる技術を提供する。
【解決手段】語学学習装置1の制御部11は、模範音声データおよび学習者データについて、それぞれが示す音声のピッチを抽出し、ピッチの時間的変化を示す第1ピッチ曲線および第2ピッチ曲線をそれぞれ生成する。そして、制御部11は、生成した2つのピッチ曲線を表示部14に表示させる。このとき、第1ピッチ曲線と第2ピッチ曲線とは、双方のピッチの平均値が縦軸のゼロ点(例えば横軸の位置)に一致するように上下方向の表示位置が調節される。これにより、学習者は、模範音声と自身の発音におけるピッチの時間的変化(イントネーション)の差異を視覚的に把握することができる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、手本となる音と学習者が発する音との違いを学習者に示す技術に関する。
【背景技術】
【0002】
従来より、語学学習を支援する種々のシステムが提案されている。例えば、特許文献1には、学習者の発音内容を示す音声信号とネイティブスピーカの発音内容を示す音声信号とを比較することによって発音の良否を評価する発音学習方法が開示されている。この方法によれば、学習者は、自身の発音能力に対する客観的な評価数値を得ることができる。
【特許文献1】特開2002−40926号公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
しかしながら、特許文献1に記載の技術においては、学習者に発音の評価数値を示すのみであったため、学習者は、自身の発音能力に対する客観的な評価数値を得ることができるものの、具体的にお手本の発音と自分の発音がどのように違っているのかを知ることはできない。このため、お手本の発音に一致した発音ができるようになるまでには、試行錯誤して発音の改善と評価を繰り返すという、根気のいる学習を行うこととなる。
【0004】
本発明は上述した背景の下になされたものであり、語学学習において、学習者の音声と、お手本の音声との違いを学習者が把握できる技術を提供することを目的とする。
【課題を解決するための手段】
【0005】
上記課題を解決するため、本発明は、入力される音声を発話音声データとして出力する音声入力手段と、複数の単語の音声を示す模範音声データから音声のピッチの時間的変化を示す第1ピッチ曲線を生成する第1ピッチ曲線生成手段と、前記発話音声データのピッチの時間的変化を表す第2ピッチ曲線を生成する第2ピッチ曲線生成手段と、前記第1ピッチ曲線の平均値を第1平均値として特定する第1ピッチ平均値特定手段と、前記第2ピッチ曲線の平均値を第2平均値として特定する第2ピッチ平均値特定手段と、ピッチの高低を上下方向に示し、時間的変化を左右方向に示すように前記第1ピッチ曲線と前記第2ピッチ曲線とを表示し、かつ、前記第1ピッチ曲線と前記第2ピッチ曲線とを、前記第1ピッチ曲線における前記第1平均値の上下方向の表示位置と、前記第2ピッチ曲線における前記第2平均値の上下方向の表示位置とが一致する位置関係で表示する表示手段とを備えることを特徴とする語学学習装置を提供する。
【0006】
本発明の好ましい態様においては、前記表示手段は、前記第2ピッチ曲線の左右方向の長さが、前記第1ピッチ曲線の左右方向の長さと等しくなるように前記第2ピッチ曲線を表示することを特徴とする。
本発明の別の好ましい態様においては、前記模範音声データと前記発話音声データを所定のフレーム単位で解析し、両者の対応するフレームを特定するフレーム特定手段を備え、前記表示手段は、前記フレーム特定手段によって特定された各フレームについて、前記模範音声データと前記発話音声データの対応するフレームのピッチが同じ左右方向位置になるように、前記第1ピッチ曲線と前記第2ピッチ曲線とを表示することを特徴とする。
本発明の更に好ましい態様においては、前記模範音声データは、前記各単語の音声の発話時間を示す第1単語区切り情報を含み、前記第1単語区切り情報と前記フレーム特定手段によって特性されたフレームとに基づいて、前記発話音声データ中の各単語に対応する音声の発話時間を第2単語区切り情報として特定する特定手段と、前記第1ピッチ曲線について、前記第1単語区切り情報に基づく区間毎に一つの代表値を特定し、前記第2ピッチ曲線について、前記第2単語区切り情報に基づく区間毎に一つの代表値を特定する単語ピッチ特定手段と、前記模範音声データ中の各単語に対応する図形を、前記単語ピッチ特定手段によって特定された各単語のピッチの高低に応じた位置に表示するとともに、前記発話音声データ中の各単語に対応する図形を、前記単語ピッチ特定手段によって特定された各単語のピッチの高低に応じた位置に表示する図形表示手段とを備えることを特徴とする。
【0007】
本発明の更に好ましい態様においては、前記第1ピッチ曲線と前記第2ピッチ曲線の相違部分を検出する検出手段を備え、前記表示手段は、前記検出手段が検出した相違部分を識別表示することを特徴とする。
本発明の更に好ましい態様においては、前記第1ピッチ曲線と前記第2ピッチ曲線のピッチの差分値が所定値以上である単語を検出し、当該単語を特定する情報を表示する相違点表示手段と、操作者によって操作される操作手段と、前記相違点表示手段によって表示された1または複数の情報のうち、前記操作手段の操作に応じていずれか一つを選択する選択手段と、前記模範音声データおよび前記発話音声データを記憶する記憶手段と、前記選択手段によって選択された情報が示す単語に対応する前記模範音声データまたは前記発話音声データを前記記憶手段から読み出して出力する出力手段とを備えることを特徴とする。
【0008】
また、本発明は、複数の単語の音声を示すとともに、前記各単語に対応する発話時間を示す第1単語区切り情報を含む模範音声データを記憶する模範音声データ記憶手段と、入力される音声を発話音声データとして出力する音声入力手段と、前記発話音声データに対し、前記各単語に対応する音声の発話時間を第2単語区切り情報として特定する特定手段と、前記模範音声データ中の各単語に対応する図形を、前記第1単語区切り情報に基づく長さで一列に表示するとともに、前記発話音声データ中の各単語に対応する図形を、前記第2区切り情報に基づく長さで一列に、かつ前記模範音声データに対応する図形の列に平行して表示する図形表示手段と、前記図形表示手段が表示している図形のうち、前記発話音声データに対応するものを一つ選択する選択手段と、模範音声データについての図形であって、前記選択手段によって選択された図形に対応する図形を特定し、両者の図形の右または左の表示位置を一致させるように表示位置をシフトする単語表示位置変更手段とを備えることを特徴とする語学学習装置を提供する。
【発明の効果】
【0009】
本発明によれば、語学学習において、学習者の音声とお手本の音声との違いを学習者が把握することができる。
【発明を実施するための最良の形態】
【0010】
<A:構成>
図1は、この発明の一実施形態である語学学習装置1のハードウェア構成を例示したブロック図である。図において、11は、例えばCPU(Central Processing Unit)等の演算装置や、ROM(Read Only Memory)やRAM(Random Access Memory)などの各種メモリを備えた制御部である。12は、例えばハードディスクなどの大容量記憶装置で構成された記憶部である。制御部11の演算装置は、ROM等のメモリや記憶部12に記憶されているコンピュータプログラムを読み出して実行することにより、バス13を介して語学学習装置1の各部を制御する。
【0011】
14は例えば液晶ディスプレイ等で構成される表示部であり、制御部11の制御の下、文字列や各種メッセージ、語学学習装置1を操作するためのメニュー画面等を表示する。15はキーボードやマウス等の入力装置を備える入力部であり、キーの押下やマウスの操作等に応じて操作内容に対応した信号を制御部11へ出力する。16は音声を収音するマイクロフォンであり、17は音声処理部である。マイクロフォン16は音声処理部17に接続されており、音声処理部17は、マイクロフォン16から入力される音声(以下、学習者音声と称する)をデジタルデータ(以下、学習者データと称する)に変換して制御部11に供給する。18は、音声処理部17に接続されたスピーカであり、音声処理部17から出力される信号に対応した音を出力する。
【0012】
語学学習装置1の記憶部12には、テーブルTBL1が記憶されている。図2は、テーブルTBL1の構造の一例を示す図である。このテーブルには、図示のように、「例文テキストデータ」と「模範音声データ」と「単語区切り情報」との各項目が互いに関連付けて記憶されている。これらの項目のうち、「例文テキストデータ」の項目には、語学学習に用いられる例文を表すテキストデータが記憶される。「模範音声データ」の項目には、ネイティブスピーカが例文を読み上げたときの音声(以下、模範音声と称する)を表すWAVE形式のデジタルデータ(以下、模範音声データと称する)が記憶される。「単語区切り情報」の項目には、模範音声中における各単語の発話時間を示す情報(以下、第1単語区切り情報と称する)が記憶される。
【0013】
次に、語学学習装置1の制御部11が表示部14に表示する画面について説明する。図3は、語学学習装置1の表示部14に表示される画面の一例を示す図である。図示のように、この画面は、画面上段のピッチ表示部分100と、画面中段のリズム表示部分200と、画面下段の操作ボタン表示部分300とに分けられている。
【0014】
ピッチ表示部分100は、模範音声と学習者音声のピッチ(音高)の時間的変化を対応付けて表示する部分である。このピッチ表示部分100は、更に、ラジオボタン表示部分110と、ピッチグラフ表示部分120とに分けられている。
ラジオボタン表示部分110には、ピッチグラフ表示部分120に表示される内容を切り替えるためのラジオボタン111が表示される。このラジオボタン111は、「グラフ表示」と「単語表示」のいずれか一方を選択できるようになっている。このラジオボタン111が表示されている領域にマウスポインタを移動し左クリックする等の操作が学習者によって行われると、制御部11は、ピッチグラフ表示部分120に表示する内容を切り替える。
ラジオボタン111において「グラフ表示」が選択されている場合は、ピッチグラフ表示部分120には、図3に示すような、模範音声と学習者音声のピッチの時間的変化を示すグラフ(ピッチ曲線)が表示される。逆に、ラジオボタン111において「単語表示」が選択されている場合は、ピッチグラフ表示部分120には、図4に示すような、模範音声と学習者音声のピッチの時間的変化を単語毎に示す帯状の図形が表示される。
【0015】
次に、リズム表示部分200は、模範音声と学習者音声の発音のリズム(発話時間)を対応付けて表示する部分である。このリズム表示部分200は、更に、ラジオボタン表示部分210と、リズムグラフ表示部分220とに分けられている。
ラジオボタン表示部分210には、リズムグラフ表示部分220に表示される図形を切り替えるためのラジオボタン211が表示される。このラジオボタン211は、「単語比較」と「等倍比較」と「全文比較」とのいずれか一つを選択できるようになっている。
ラジオボタン211において「単語比較」が選択されている場合は、リズムグラフ表示部分220には、図3に示すような、模範音声と学習者音声の例文全体の発話時間における各単語の発話時間の比率を比較するための帯状の図形が表示される。
また、「等倍比較」が選択されている場合は、リズムグラフ表示部分220には、各単語の発音時間の絶対的な長さを比較するための図形が表示される。具体的には、図5に示すような、模範音声と学習者音声における各単語の発話時間を示す帯状の図形が表示される。
また、「全文比較」が選択されている場合は、図4に示すような、模範音声と学習者音声の例文全体の発話時間を示す帯状の図形が表示される。
【0016】
このように、ピッチグラフ表示部分120とリズムグラフ表示部分220は、ラジオボタン111,211によって適宜その表示内容を変更することが可能となっており、これらの表示内容は任意のものを組み合わせて表示させることが可能である。
【0017】
次に、図3における操作ボタン表示部分300には、録音操作や再生操作等の各種操作を学習者に行わせるための各種のボタンが表示される。図3に示す操作ボタン表示部分300において、301は、音声入力の開始指示または終了指示を入力するためのボタンである。302は、模範音声の再生指示を入力するためのボタンである。303は、模範音声の再生における再生スピードを選択するためのラジオボタンであり、「通常再生」と「スロー再生」と「録音に合わせる」のいずれかを選択できるようになっている。「録音に合わせる」が選択されている場合は、録音された学習者音声の例文の発話時間と同じ発話時間となるようにタイムストレッチ処理が施された模範音声が再生される。「スロー再生」が選択されている場合は、所定の比率でタイムストレッチ処理が施された模範音声が再生される。
304は、録音した学習者音声の再生指示を入力するためのボタンである。305は、学習者音声の採点指示を入力するためのボタンであり、306は、学習者の発音音声に対する評価結果を表示する評価結果表示部分である。ボタン305がクリックされたことを検知すると、制御部11は、模範音声データと学習者データとを比較してその一致度に基づいて所定のアルゴリズムにより点数を算出し、算出された点数を評価結果表示部分306に表示させる。
307は、採点詳細の表示指示を入力するためのボタンである。このボタンがクリックされたことを検知すると、制御部11は、採点結果の詳細を表示する。これは例えば、「ピッチ」や「リズム」といった複数の項目の採点結果を項目毎に表示するようにしてもよく、例文に含まれる単語毎の採点結果を単語毎に表示するようにしてもよい。
【0018】
308は、模範音声と学習者音声との相違点において、その差異が顕著である単語の音声出力を指示するためのボタンである。このボタンがクリックされたことを検知すると、語学学習装置1の制御部11は、模範音声と学習者音声において、ピッチ比較においてその差異が最も顕著であった単語をそれぞれ再生する。更に、リズム比較においてその差異が最も顕著であって単語についてもそれぞれ再生する。
以上が表示部14に表示される画面の説明である。
【0019】
<B:動作>
次に、本実施形態の動作について、図6を参照しつつ説明する。
<B−1:ピッチグラフ表示処理>
図6は、語学学習装置1の制御部11が行う処理の流れを示すフローチャートである。まず、学習者は、語学学習装置1の入力部15を操作して例文の一覧の表示指示を入力する。語学学習装置1の制御部11は、例文の一覧の表示指示が入力されたことを検知すると、テーブルTBL1に格納されている例文テキストデータを読出し(ステップSA1)、読み出したデータが表す例文の一覧を表示部14に表示する(ステップSA2)。この後、学習者が入力部15を操作し、表示された例文の一つを選択する操作を行うと(ステップSA3;YES)、制御部11は、表示部14に表示されている画面と、入力部15から送られる信号に基づいて、選択された例文を特定する(ステップSA4)。制御部11は、選択された例文を特定すると、テーブルTBL1において、選択された例文に対応付けて格納されている模範音声データを読み出す(ステップSA5)。
【0020】
次に、制御部11は、読み出した模範音声データが示す音声のピッチを抽出し、ピッチの時間的変化を示すピッチ曲線を生成する(ステップSA6)。ピッチ曲線の生成は具体的には以下のようにして行う。まず、制御部11は、読み出した模範音声データが示す音声を、その再生時間軸上において所定の時間間隔(例えば、100msec)で分割する(以下、各分割された区間をフレームと称する)。次に制御部11は、分割された区間毎に、各区間の音声のピッチを抽出する。分割されたフレーム毎にピッチを抽出すると、フレーム毎に求められたピッチを結んだピッチ曲線を生成し(以下、このピッチ曲線を第1ピッチ曲線と称する)、生成した第1ピッチ曲線を示す曲線データを記憶部12に記憶する。
【0021】
続けて、制御部11は、表示部14を制御し、例えば、「キーを押してから発音し、発音が終わったら再度キーを押してください」という、例文の発音を促すメッセージを表示する(ステップSA8)。
【0022】
学習者は、表示部14に表示されたメッセージに従って入力部15を操作し、例文を読み上げる。学習者が発音すると、学習者の音声がマイクロフォン16によって音声信号に変換され、変換された信号が音声処理部17へ出力される。音声処理部17は、マイクロフォン16から出力された音声信号をデジタルデータに変換して、学習者データとする。この学習者データは、音声処理部17から出力されて記憶部12に記憶される。
【0023】
次に、制御部11は、入力部15から送られる信号を監視し、学習者が発音を終了したか否かを判断する。学習者が発音を終了して入力部15を操作したことを検知すると(ステップSA9;YES)、制御部11は、模範音声データと学習者データとの両者の波形同士を直接対比して、例えばDTW(Dynamic Time Warping)等により、模範音声データと、学習者音声データとの時間的な対応付けをフレーム毎に行い、この対応付けの結果と第1単語区切り情報に基づき学習者データ中における各単語の発話時間を示す情報(以下、第2単語区切り情報と称する)を特定する(ステップSA10)。例えば、図7に示すように、模範音声と学習者音声の2つの波形の対応付けを行う。
【0024】
続けて、語学学習装置1の制御部11は、学習者データに対してステップSA6と同様の処理を行って、学習者データのピッチを抽出してピッチ曲線(以下、第2ピッチ曲線と称する)を生成し、生成した第2ピッチ曲線を示すデータを記憶部12に記憶する(ステップSA11)。
【0025】
次に、制御部11は、記憶部12に記憶された模範音声データのピッチの平均値を算出する(ステップSA12)。具体的には、例えばステップSA6において分割されたフレーム毎のピッチの値の平均値を算出する。また、制御部11は、記憶部12に記憶された学習者データについても同様の処理を行って、学習者データのピッチの平均値を算出する(ステップSA13)。
【0026】
次に、制御部11は、表示部14を制御して、図3に例示するように、選択された例文と第1ピッチ曲線と第2ピッチ曲線とをピッチグラフ表示部分120に表示させる(ステップSA14)。このとき、制御部11は、学習者データにおける各フレームの発話時間が、第1ピッチ曲線において対応するフレームの発話時間と一致するように、第2ピッチ曲線をフレーム毎に時間軸方向に伸縮または伸張して表示させる。また、制御部11は、第1ピッチ曲線におけるピッチの平均値の表示位置と、第2ピッチ曲線におけるピッチの平均値の表示位置とが一致する位置関係で、第1ピッチ曲線と第2ピッチ曲線とを表示する。
【0027】
図3に示すピッチグラフ表示部分120において、鎖線で示す曲線は第1ピッチ曲線を表し、実線で示す曲線は第2ピッチ曲線を表している。図示のように、第1ピッチ曲線と第2ピッチ曲線とは、双方のピッチの平均値が縦軸のゼロ点(例えば横軸の位置)に一致するように上下方向の表示位置が調節される。これにより、学習者は、模範音声と自身の発音におけるピッチの時間的変化(イントネーション)の差異を視覚的に把握することができる。
【0028】
また、制御部11は、模範音声と学習者音声においてピッチが異なる箇所を抽出し、抽出した箇所を示すアイコンを表示させる。この抽出処理は、例えば、第1ピッチ曲線と第2ピッチ曲線との対応箇所におけるピッチの値の差分値を算出し、算出した差分値が所定値以上である箇所を特定することによって行われる。そして、制御部11は、図3に示すように、模範音声とは発音のピッチが異なることを報知するアイコンI1,I2を、両者のピッチ差が所定値以上の部分に表示するとともに、第2ピッチ曲線におけるその部分を、色を変えたり、太さを変えたりして表示する。なお、図3においては、第2ピッチ曲線における該当箇所を太い実線で示している。
【0029】
このとき、学習者は、入力部15を操作して、相違箇所を音声出力する旨の操作を行うことができる。これは例えば、表示されたアイコンI1,I2が表示されている領域にマウスポインタを移動し左クリックする等の操作によって行われる。語学学習装置1の制御部11は、音声出力する旨の操作が行われたことを検知すると、選択された相違箇所を含む単語について、模範音声におけるその単語部分の音声データと、学習者音声におけるその単語部分の音声データとを記憶部12から順次読み出して音声処理部17に供給する。これにより、両者の音声がスピーカ18を介して順次出力される。
例えば、図3において、アイコンI1が左クリックされた場合は、制御部11は、模範音声における「One」という音声と、学習者の発話音声中の「One」という音声を、順次スピーカ18を介して出力する。なお、音声を出力する単位は、単語毎でなくてもよく、例えば、問題のある単語の前後の単語を含む区間の音声を出力するようにしてもよい。このようにすると、一連の単語の流れの中で発音の違いを理解することができる。
【0030】
ところで、学習者音声のピッチ曲線と模範音声のピッチ曲線とを表示する場合において、学習者の発話時間と模範音声の発話時間との差異が大きい場合等は、図9に示すように、それぞれのピッチ曲線を上下または左右に並べて表示すると、ピッチ曲線のどの箇所が対応しているのか、自身の発音と模範音声とのどの部分が異なっているのかを、学習者が視覚的に把握することは困難であった。
更に、これらのピッチ曲線を同じスケール上に重ね合わせて表示しても、一般的に模範音声と学習者音声の平均ピッチは異なっているから、両者には上下方向のずれが生じ、修正すべき部分を把握することは難しい。特に、模範音声と学習者との性別が異なる場合等は、模範音声の平均ピッチと学習者音声の平均ピッチとが大きく異なり、2つのピッチ曲線を重ね合わせても、具体的にどのように修正すればいいのかを学習者が把握することは困難であった。
【0031】
これに対し本実施形態においては、図3に示すように、第1ピッチ曲線と第2ピッチ曲線とが、双方のピッチの平均値の表示位置が一致する位置関係で表示されることから、学習者の発音と模範音声の発音におけるイントネーションの差異が視覚的に把握しやすい。
【0032】
また、学習者データにおける各フレームの発話時間が、第1ピッチ曲線の対応するフレームの発話時間と一致するように、第2ピッチ曲線をフレーム毎に伸縮または伸張して表示させることにより、学習者の発話時間と模範音声の発話時間との時間長の差異が大きい場合であっても、グラフのどの箇所とどの箇所とが対応しているのかを視覚的に把握することができ、どの部分(どの単語)のピッチ(イントネーション)を修正すべきかを容易に知ることが可能となる。
【0033】
また、模範音声と異なるピッチの箇所がアイコンで表示されることにより、学習者は、お手本と自身の発音の相違点を視覚的に把握することが可能となり、どの箇所の発音を修正すべきかを容易に把握することができる。更に、その相違箇所の単語が、模範音声と学習者音声のそれぞれについて音声出力されることにより、学習者は、修正すべき単語とその修正内容を容易に把握することが可能となる。
【0034】
<B−2:リズム単語比率表示処理>
図6の説明に戻る。語学学習装置1の制御部11は、ピッチグラフの表示と併せて、図3に示すような、リズムを示す帯状の図形をリズムグラフ表示部分220に表示させる(ステップSA15)。具体的には、模範音声の例文全体の発話時間における各単語の発話時間の比率を示す帯状の図形と、学習者音声の例文全体の発話時間における各単語の発話時間の比率を示す帯状の図形とを、リズムグラフ表示部分220に表示させる。
図3に示すリズムグラフ表示部220において、単語が内部に表示されている帯は、模範音声の例文全体の発話時間における各単語の発音時間の比率を表し、網掛けで示す帯は学習者の例文全体の発話時間における各単語の発音時間の比率を表している。
単語が内部に表示されている帯の長さは、テーブルTBL1に記憶されている単語毎の発話時間(第1単語区切り情報)に応じて決定され、内部が塗りつぶされている帯の長さは、ステップSA10で求めた発話時間(第2単語区切り情報)に応じて決定される。具体的には、各帯の長さは単語の発話時間の比率に対応しており、発話時間の比率が大きいと帯は長く表示され、発話時間の比率が小さいと帯は短く表示される。
更に、制御部11は、模範音声と学習者音声においてリズム(単語の発話時間)が異なる箇所を抽出し、図3に示すように、抽出した箇所の近傍にアイコンI3を表示させる。
【0035】
このように、模範音声と学習者音声のそれぞれについて、各単語の発話時間の比率を表示させることにより、学習者音声と模範音声のリズム(単語の発話時間)の差異が視覚的に把握しやすくなり、学習者は、どの単語の発話時間(発音スピード)を修正すべきかを視覚的に知ることが容易となる。
【0036】
<B−3:ピッチ単語グラフ表示処理>
次に、ピッチグラフ表示部分120におけるピッチ単語グラフの表示処理について、以下に説明する。
図3に示す画面が表示部14に表示されている状態において、学習者が入力部15を操作してラジオボタン111の「単語表示」を選択する操作を行うと、語学学習装置1の制御部11は、操作された内容を検知して、ピッチグラフ表示部分120の表示を、ピッチ単語グラフ表示に切り替える。具体的には、まず、制御部11は、模範音声データの各単語について、その単語におけるピッチの最高値を特定する。次に、学習者データの各単語について、その単語におけるピッチの最高値を特定する。そして、制御部11は、ピッチグラフ表示部分120に、図4に示すような、各単語の発話時間を示す帯を表示させる。
【0037】
図4のピッチグラフ表示部分120において、単語が内部に表示されている帯は、模範音声の発音を表し、網掛けされた帯は学習者の発音を表している。単語が内部に表示されている帯の上下方向の配置位置は、単語毎のピッチの最高値に応じて決定される。具体的には、各帯は、画面の所定の表示位置を基準にして発音のピッチの高低に応じて画面上に配置され、ピッチが高いと帯は上方向に表示され、ピッチが低いと帯は下方向に表示される。また、この場合、各帯は、模範音声データのピッチの平均値の表示位置と学習者データのピッチの平均値の表示位置とが一致する位置関係で表示される。
【0038】
このように、各単語のそれぞれについて、その単語のピッチの高低に応じた位置に帯状の図形を表示することにより、学習者にどの単語のピッチがお手本の発音のピッチとずれているのかを視覚的に提示することが可能となる。
【0039】
<B−4:リズム等倍比較表示処理>
続けて、リズム等倍比較表示処理について説明する。図3に示す画面が表示部14に表示されている状態において、学習者が入力部15を操作してラジオボタン211の「等倍比較」を選択する操作を行うと、語学学習装置1の制御部11は、リズムグラフ表示部分220の表示をリズム等倍比較表示に切り替える。具体的には、制御部11は、図5に示すような、模範音声データと学習者データにおける各単語の発話時間を示す帯状の図形をリズムグラフ表示部分220に表示する。図5に示すリズムグラフ表示部分220において、単語が内部に表示されている帯は、模範音声における各単語の発話時間を表し、網掛けで示す帯は学習者の発話音声における各単語の発話時間を表す。
【0040】
このとき、学習者は、表示部14に表示される画面を確認しながら、入力部15を操作して、リズムグラフ表示部分220に表示された、学習者音声中の単語の発話時間を示す帯を選択することができる。これは例えばその帯が表示されている領域にマウスポインタを移動し左クリックする等の操作によって行われる。語学学習装置1の制御部11は、選択された帯について、図6のステップSA20,SA21に示す処理を行ってその帯の表示位置を変更する。この表示位置の変更処理について図6を参照しつつ以下に説明する。
【0041】
まず、制御部11は、帯を選択する旨の操作が行われたことを検知すると(ステップSA20;YES)、選択された帯が表す単語と同一の単語であって、模範音声に含まれる単語の発話時間を表す帯の左端の描画位置(以下、左端座標と称する)を取得する。例えば、図5に示す例において帯B1が選択された場合は、帯B2の左端座標を取得する。そして、制御部11は、選択された帯の左端座標を、取得した左端座標に変更して帯を描き直す(ステップSA21)。図8に示す例においては、「ten」という単語と対応する帯が選択された場合に表示される画面を示している。
【0042】
図5に示す画面おいては、模範音声による「ten」という単語の発話時間と、学習者の発音による「ten」という単語の発話時間との、どちらの発話時間の方が長いかを、一見して把握することは困難であった。これに対し、図8に示す例においては、「ten」という単語と対応する帯の左端の描画位置が同じになっているため、どちらの単語の発話時間が長いかを一目で容易に把握することが可能となる。これにより、学習者は、単語の発音を長くすべきか短くすべきかを視覚的に把握することが可能となる。
【0043】
<B−5:リズム全文比較表示処理>
続けて、リズム全文比較表示処理について説明する。図3に示す画面において、ラジオボタン211の「全文比較」を選択する操作を行うと、語学学習装置1の制御部11は、図4に示すような、模範音声の例文全体の発話時間を示す帯状の図形と、学習者音声の例文全体の発話時間を示す帯状の図形とを、リズムグラフ表示部分220に表示させる。これにより、学習者は、模範音声と自身の音声とにおける文章全体の発音時間の差異を視覚的に把握することが可能となる。
【0044】
以上説明したように本実施形態においては、語学学習において、学習者の発音におけるイントネーション(ピッチの時間的変化)やリズムを、お手本のイントネーションやリズムと比較しやすい形に視覚化して表示することにより、学習者に自分の発音をお手本の発音に近づけるために何をすればよいかを認識させることが可能となる。
【0045】
<C:変形例>
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されることなく、他の様々な形態で実施可能である。以下にその一例を示す。
(1)上述した実施形態においては、一つの画面にピッチとリズムとの両方を表示しているが、ピッチのみ、またはリズムのみを表示するようにしてもよく、また、ピッチとリズムのどちらを表示するか、学習者の操作により選択できるようにしてもよい。
【0046】
(2)上述した実施形態においては、例文を発音したときの模範音声を示す模範音声データと、模範音声中における各単語の発話時間を示す単語区切り情報と、例文を示すテキストデータとを、語学学習装置の記憶部に記憶させておくようにしたが、これらのデータを予め記憶部に記憶させておくようにせず、学習者が入力部15を操作して入力するようにしてもよい。
【0047】
(3)上述した実施形態においては、ピッチ表示またはリズム表示において、各単語(または例文全体)に対応する帯状の図形を表示部に表示するようにした。単語(または例文全体)に対応する図形は、帯状の図形に限定されるものではなく、例えば、図10に示すように、円状の図形を複数つなげて表示するようにしてもよい。または、各単語(または例文全体)の発話開始と終了とを示す図形(例えば、人の顔を文字で模した図形(顔文字)等)を該当箇所に表示するようにし、途中の区間にはつなぎ図形を表示して各単語(または例文全体)を表すようにしてもよい。要するに、各単語(または例文全体)と対応する図形であればどのようなものであってもよい。
【0048】
(4)上述した実施形態においては、記憶部12に記憶される模範音声データはWAVE形式のデータとしたが、データの形式はこれに限定されるものではなく、音声を示すデータであればどのような形式のデータであってもよい。
なお、上述した実施形態においては、模範音声データと学習者データとをデジタルデータとしたが、アナログデータを用いるようにしてもよい。
【0049】
(5)上述した実施形態では、語学学習装置1が、本発明に係るピッチ曲線生成処理や、ピッチ曲線表示処理等を行うようになっていた。これに対し、通信ネットワークで接続された2以上の装置が上記実施形態に係る機能を分担するようにし、それら複数の装置を備えるシステムが同実施形態の語学学習装置1を実現するようにしてもよい。
例えば、マイクロフォンや、スピーカ、表示装置および入力装置等を備えるコンピュータ装置と、模範音声データを記憶して模範音声データと音声データとの比較処理を行うサーバ装置とが通信ネットワークで接続されたシステムとして構成されていてもよい。この場合は、コンピュータ装置が、マイクロフォンから入力された音声を音声データに変換してサーバ装置に送信し、サーバ装置が受信した音声データと模範音声データとの比較処理を行い、ピッチ曲線等を生成して語学学習装置1に送信するようにすればよい。
【0050】
(6)上述した実施形態における語学学習装置1の制御部11によって実行されるプログラムは、磁気テープ、磁気ディスク、フロッピー(登録商標)ディスク、光記録媒体、光磁気記録媒体、CD(Compact Disk)−ROM、DVD(Digital Versatile Disk)、RAMなどの記録媒体に記憶した状態で提供し得る。
【図面の簡単な説明】
【0051】
【図1】本発明の第1実施形態である語学学習装置のハードウェア構成の一例を示すブロック図である。
【図2】同実施形態の記憶部に記憶されるテーブルのデータ構造の一例を示す図である。
【図3】同実施形態の表示部に表示される画面の一例を示す図である。
【図4】本発明の第2実施形態である語学学習装置の表示部に表示される画面の一例を示す図である。
【図5】同実施形態の表示部に表示される画面の一例を示す図である。
【図6】同実施形態の制御部が行う処理の流れを示すフローチャートである。
【図7】模範音声の波形と学習者音声の波形との一例を示す図である。
【図8】同実施形態の表示部に表示される画面の一例を示す図である。
【図9】ピッチグラフの一例を示す図である。
【図10】本発明の変形例に係る画面の一例を示す図である。
【符号の説明】
【0052】
1…語学学習装置、11…制御部、12…記憶部、13…バス、14…表示部、15…入力部、16…マイクロフォン、17…音声処理部、18…スピーカ。

【特許請求の範囲】
【請求項1】
入力される音声を発話音声データとして出力する音声入力手段と、
複数の単語の音声を示す模範音声データから音声のピッチの時間的変化を示す第1ピッチ曲線を生成する第1ピッチ曲線生成手段と、
前記発話音声データのピッチの時間的変化を表す第2ピッチ曲線を生成する第2ピッチ曲線生成手段と、
前記第1ピッチ曲線の平均値を第1平均値として特定する第1ピッチ平均値特定手段と、
前記第2ピッチ曲線の平均値を第2平均値として特定する第2ピッチ平均値特定手段と、
ピッチの高低を上下方向に示し、時間的変化を左右方向に示すように前記第1ピッチ曲線と前記第2ピッチ曲線とを表示し、かつ、前記第1ピッチ曲線と前記第2ピッチ曲線とを、前記第1ピッチ曲線における前記第1平均値の上下方向の表示位置と、前記第2ピッチ曲線における前記第2平均値の上下方向の表示位置とが一致する位置関係で表示する表示手段と
を備えることを特徴とする語学学習装置。
【請求項2】
前記表示手段は、前記第2ピッチ曲線の左右方向の長さが、前記第1ピッチ曲線の左右方向の長さと等しくなるように前記第2ピッチ曲線を表示する
ことを特徴とする請求項1に記載の語学学習装置。
【請求項3】
前記模範音声データと前記発話音声データを所定のフレーム単位で解析し、両者の対応するフレームを特定するフレーム特定手段を備え、
前記表示手段は、前記フレーム特定手段によって特定された各フレームについて、前記模範音声データと前記発話音声データの対応するフレームのピッチが同じ左右方向位置になるように、前記第1ピッチ曲線と前記第2ピッチ曲線とを表示する
ことを特徴とする請求項1に記載の語学学習装置。
【請求項4】
前記模範音声データは、前記各単語の音声の発話時間を示す第1単語区切り情報を含み、
前記第1単語区切り情報と前記フレーム特定手段によって特性されたフレームとに基づいて、前記発話音声データ中の各単語に対応する音声の発話時間を第2単語区切り情報として特定する特定手段と、
前記第1ピッチ曲線について、前記第1単語区切り情報に基づく区間毎に一つの代表値を特定し、前記第2ピッチ曲線について、前記第2単語区切り情報に基づく区間毎に一つの代表値を特定する単語ピッチ特定手段と、
前記模範音声データ中の各単語に対応する図形を、前記単語ピッチ特定手段によって特定された各単語のピッチの高低に応じた位置に表示するとともに、前記発話音声データ中の各単語に対応する図形を、前記単語ピッチ特定手段によって特定された各単語のピッチの高低に応じた位置に表示する図形表示手段と
を備えることを特徴とする請求項3に記載の語学学習装置。
【請求項5】
前記第1ピッチ曲線と前記第2ピッチ曲線の相違部分を検出する検出手段を備え、
前記表示手段は、前記検出手段が検出した相違部分を識別表示することを特徴とする請求項1から4いずれかに記載の語学学習装置。
【請求項6】
前記第1ピッチ曲線と前記第2ピッチ曲線のピッチの差分値が所定値以上である単語を検出し、当該単語を特定する情報を表示する相違点表示手段と、
操作者によって操作される操作手段と、
前記相違点表示手段によって表示された1または複数の情報のうち、前記操作手段の操作に応じていずれか一つを選択する選択手段と、
前記模範音声データおよび前記発話音声データを記憶する記憶手段と、
前記選択手段によって選択された情報が示す単語に対応する前記模範音声データまたは前記発話音声データを前記記憶手段から読み出して出力する出力手段と
を備えることを特徴とする請求項1から5いずれかに記載の語学学習装置。
【請求項7】
複数の単語の音声を示すとともに、前記各単語に対応する発話時間を示す第1単語区切り情報を含む模範音声データを記憶する模範音声データ記憶手段と、
入力される音声を発話音声データとして出力する音声入力手段と、
前記発話音声データに対し、前記各単語に対応する音声の発話時間を第2単語区切り情報として特定する特定手段と、
前記模範音声データ中の各単語に対応する図形を、前記第1単語区切り情報に基づく長さで一列に表示するとともに、前記発話音声データ中の各単語に対応する図形を、前記第2区切り情報に基づく長さで一列に、かつ前記模範音声データに対応する図形の列に平行して表示する図形表示手段と、
前記図形表示手段が表示している図形のうち、前記発話音声データに対応するものを一つ選択する選択手段と、
模範音声データについての図形であって、前記選択手段によって選択された図形に対応する図形を特定し、両者の図形の右または左の表示位置を一致させるように表示位置をシフトする単語表示位置変更手段と
を備えることを特徴とする語学学習装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate


【公開番号】特開2007−147783(P2007−147783A)
【公開日】平成19年6月14日(2007.6.14)
【国際特許分類】
【出願番号】特願2005−339398(P2005−339398)
【出願日】平成17年11月24日(2005.11.24)
【出願人】(000004075)ヤマハ株式会社 (5,930)
【Fターム(参考)】