再生装置

【課題】学習者の音声のリズムと、お手本の音声のリズムとの違いを学習者が把握できるようにする。
【解決手段】語学学習装置は、表示した例文の一つが選択されると、例文を発話した時の模範音声を再生し、選択された例文を表示すると共に、表示された例文中において発音されている部分を、模範音声の再生に同期して表示する。模範音声の再生が終了すると、語学学習装置１は、例文の発話を学習者に促す。語学学習装置１は、学習者の音声が入力されると入力された音声を記憶する。語学学習装置１は、記憶した学習者の音声を再生し、例文を表示すると共に、表示された例文中において発音されている部分を、学習者の音声の再生に同期して表示する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、手本となる音と学習者が発する音との違いを学習者に示す技術に関する。
【背景技術】
【０００２】
語学学習において、発音練習を行う際には、ＣＤ（Compact Disk）等の記録媒体に記録された模範音声を再生し、その模範音声の真似をして発音するという学習方法が広く用いられている。これは模範音声の真似をすることで正しい発音を身につけることを目的とするものである。このような学習を行う場合、学習者は自分の発音を客観的に把握し、模範音声との違いを認識して発音を改善していくこととなるが、模範音声と同じ発音ができているか否かを学習者自身が自分の発音を聞いて客観的に把握するのは難しい。そこで、例えば、特許文献１に開示されているように、学習者が客観的に自分の音声を把握できるようにする技術が考案されている。特許文献１に開示されている語学学習装置は、学習者の音声から母音を抽出し、抽出した母音のピッチや発話時間をグラフ化している。
【特許文献１】特開平５−２３２８５６号公報
【発明の開示】
【発明が解決しようとする課題】
【０００３】
さて、正しい発音を行うには、発音のピッチやリズム等の動的な変化を模範音声に合わせることが重要であると言われている。特許文献１に開示された技術によれば、母音のピッチや発話時間・発音タイミング等の静的なデータがグラフ化されるため、学習者は自分の音声を客観的に把握することができる。しかしながら、静的なデータが表示されるのみであり、例えば、発音リズム等の発音の動的な変化を把握することは難しいため、特許文献１に開示されている技術では、学習者と模範音声との発音リズムの動的な違いを把握し、どの点を改善すれば良いのかを見つけるのが難しいという問題がある。
【０００４】
本発明は、上述した背景の下になされたものであり、その目的は、学習者の音声のリズムと、お手本の音声のリズムとの違いを学習者が把握できるようにすることにある。
【課題を解決するための手段】
【０００５】
上述した課題を解決するために本発明は、発音すべき音に対応した音データを予め定められた区間に区切って記憶する記憶手段と、前記記憶手段から前記音データを読み出して再生処理をする再生手段と、収音した音に対応するデータを収音データとして生成する収音データ生成手段と、前記収音データに対して前記音データの区切りに対応する部分を認識し、対応する区切りを付加する位置付加手段と、前記各区間の時間長に対応した表示幅を有する表示区間を連ねて形成されるスケールを表示する表示手段と、前記再生手段による再生処理に同期して、前記音データの各区間における再生位置を前記スケールの各表示区間に対して表示させる第１表示制御手段と、前記収音データを再生処理する収音データ再生処理手段と、前記収音データ再生処理手段に同期して、前記位置付加手段により区切られた前記収音データの各区間における再生位置を前記スケールの各表示区間に対して表示する第２表示制御手段とを具備することを特徴とする再生装置を提供する。
【０００６】
この態様においては、前記記憶手段は複数の異なる音データを記憶し、前記記憶手段に記憶された複数の音データのひとつを選択する選択手段を有し、前記再生手段は、前記選択手段により選択された音データを前記記憶手段から読み出して再生処理をするようにしてもよい。
【発明の効果】
【０００７】
本発明によれば、学習者は、学習者の音声のリズムと、お手本の音声のリズムとの違いを把握することができる。
【発明を実施するための最良の形態】
【０００８】
以下、図面を参照して本発明の実施形態について説明する。
【０００９】
［実施形態の構成］
図１は、本発明の実施形態に係る語学学習装置１のハードウェア構成を例示したブロック図である。図１に示したように、語学学習装置１の各部は、バス１０１に接続されており、このバス１０１を介して各部間で信号やデータの授受を行う。
【００１０】
マイクロホン１０９は、音声処理部１０８に接続されており、入力される音声を電気信号（以下、音声信号と称する）に変換して音声処理部１０８へ出力する。スピーカ１１０は、音声処理部１０８に接続されており、音声処理部１０８から出力される信号に対応した音を出力する。音声処理部１０８は、マイクロホン１０９から入力される音声信号をデジタルデータに変換して出力する機能や、音声を表すデジタルデータをアナログの音声信号に変換し、スピーカ１１０へ出力する機能を備えている。ここで、マイクロホン１０９には、語学学習装置１を使用する学習者の音声が入力されるため、音声処理部１０８において変換される音声信号のデジタルデータを学習者データと称し、マイクロホン１０９に入力された音声（学習者データが示す音声）を学習者音声と称する。
【００１１】
表示部１０６は、例えば、液晶ディスプレイ等の表示デバイスを備えており、ＣＰＵ１０２の制御の下、文字列や各種メッセージ、語学学習装置１を操作するためのメニュー画面等を表示する。入力部１０７は、キーボードやマウス等（いずれも図示略）の入力装置を具備しており、キーの押下やマウスの操作等に応じて操作内容に対応した信号をＣＰＵ１０２へ出力する。
【００１２】
記憶部１０５は、ＨＤＤ（Hard Disk Drive）装置を備えており、各種データを記憶する。具体的には、記憶部１０５は、音声処理部１０８から出力される学習者データを記憶する。また、記憶部１０５は、語学学習に用いられる例文を表す例文テキストデータと、ネイティブスピーカが例文を読み上げた時の音声（以下、模範音声と称する）を表すデジタルデータ（以下、模範音声データと称する）とを記憶している。記憶部１０５は、図２に例示したフォーマットの例文テーブルＴＢ１を記憶しており、このテーブルに例文テキストデータと、模範音声データのファイル名と、各例文テキストデータを一意に識別する識別子とを対応付けて格納している。
【００１３】
また、記憶部１０５は、記憶している例文に対応して、図３に例示したフォーマットのピッチテーブルＴＢ２を記憶している。ピッチテーブルＴＢ２において、識別子フィールドには、例文テキストデータを一意に識別する識別子が格納されている。なお、この識別子は、例文テーブルＴＢ１に格納されている識別子と同じ識別子である。
また、フレーム番号フィールドには、識別子フィールドの識別子で特定される例文の模範音声を、時間軸上で所定の時間枠（フレーム）で分割した時の各フレームを示す番号が格納される。例えば、１フレーム＝１００ｍｓｅｃである場合、模範音声において「One centimeter is ten millimeters.」という例文が２．６秒で読み上げられていると、図４に示したように、音声は２６のフレームに分割される。ピッチテーブルＴＢ２には、この２６の各フレームを示す１〜２６の数字が格納される。
【００１４】
また、ピッチフィールドには、模範音声の各フレーム時点における音声のピッチを示すピッチデータが格納される。例えば、図４に示したように、模範音声の時間軸上の３フレーム目の時点での音声のピッチがＸである場合、図３に示したように、フレーム番号「３」が格納されている行に「Ｘ」が格納される。
また、単語フィールドには、どのフレームが、例文中のどの単語に対応しているかを示すデータが格納されている。例えば、「One centimeter is ten millimeters.」において、模範音声の時間軸上の１フレーム目の音声と、２フレーム目の音声とが例文の「One」に対応している場合、図３に示したように、フレーム番号「１」と「２」が格納されている行に「One」という文字列が格納される。
【００１５】
また、記憶部１０５は、図５に例示したフォーマットの単語テーブルＴＢ３を記憶しており、このテーブルに、例文を示す識別子と、例文に含まれている各単語のテキストデータと、各単語の発話開始時間とを対応付けて格納している。
【００１６】
ＣＰＵ（Central Processing Unit）１０２は、ＲＯＭ（Read Only Memory）１０３に記憶されているプログラムを、ＲＡＭ（Random Access Memory）１０４を作業エリアにして実行する。
【００１７】
［実施形態の動作］
次に本実施形態の動作について説明する。
まず、学習者が例文の一覧の表示を指示する操作を行うと、ＣＰＵ１０２は例文テーブルＴＢ１に格納されている例文テキストデータを読み出し（図６：ステップＳＡ１）、読み出したデータが表す例文の一覧を表示部１０６に表示する（ステップＳＡ２）。この後、学習者が入力部１０７を操作し、表示された例文の一つを選択する操作を行うと（ステップＳＡ３；ＹＥＳ）、ＣＰＵ１０２は、表示部１０６に表示されている画面と、入力部１０７から送られる信号に基づいて、選択された例文を特定する（ステップＳＡ４）。ＣＰＵ１０２は、選択された例文を特定すると、例文テーブルＴＢ１において、選択された例文に対応付けて格納されている模範音声データのファイル名を読み出す（ステップＳＡ５）。例えば、図２に示したテーブルにおいて、識別子が「００１」である例文が選択された場合、ファイル名「ａ００１」が読み出される。
【００１８】
次にＣＰＵ１０２は、読み出したファイル名で特定される模範音声データを記憶部１０５から読み出し、読み出した模範音声データを音声処理部１０８へ出力する（ステップＳＡ６）。また、ＣＰＵ１０２は、表示部１０６を制御し、選択された例文と、例文の模範音声のピッチとを表示する（ステップＳＡ７）。ここでは、識別子が「００１」である例文が選択されているので、識別子「００１」に対応付けて例文テーブルＴＢ１に格納されている例文テキストデータが読み出され、識別子「００１」が格納されているピッチテーブルＴＢ２からピッチデータが読み出される。そして、図７に示したように、読み出された例文テキストデータに従って、選択された例文が表示され、読み出されたピッチデータに従って、例文の模範音声のピッチが表示される。
なお、図７において、表示される例文の長さ、およびピッチの長さは、模範音声データの全体の再生時間長に対応しており、例文の左端およびピッチ表示の左端が模範音声の再生開始時点を示しており、例文の右端およびピッチ表示の右端が模範音声の再生終了時点を表している。また、表示されるピッチは、各フレームのピッチをつないだ波形として表示される。
【００１９】
音声処理部１０８に模範音声データが入力されると、デジタルデータである模範音声データがアナログの信号に変換されてスピーカ１１０へ出力され、スピーカ１１０から模範音声が再生される。ＣＰＵ１０２は、模範音声の再生が開始されると、表示部１０６を制御し、表示した例文において音声再生されている部分を示すバー１０を表示する（ステップＳＡ８）。例えば、ＣＰＵ１０２は、フレーム「３」の部分（発音開始時点から見て２００ｍｓｅｃ〜３００ｍｓｅｃの間）の音声が再生されているタイミングでは、図７（ａ）に示したように、フレーム「３」のピッチが表示されている部分を１００ｍｓｅｃの時間をかけてバー１０が移動するように表示し、フレーム「４」の部分（発音開始時点から見て３００ｍｓｅｃ〜４００ｍｓｅｃの間）の音声が再生されているタイミングでは、図７（ｂ）に示したように、フレーム「４」のピッチが表示されている部分を１００ｍｓｅｃの時間をかけてバー１０が移動するように表示する。このように、再生されるフレーム番号に同期してバー１０の横方向の表示位置が制御される。
【００２０】
ＣＰＵ１０２は、模範音声の再生が終了すると、表示部１０６を制御し、例えば、「キーを押してから発音し、発音が終わったら再度キーを押してください」という、例文の発音を促すメッセージを表示する（ステップＳＡ９）。学習者は、スピーカ１１０から出力された模範音声を聞いた後、メッセージに従って入力部１０７を操作し、模範音声を真似て例文を読み上げる。学習者の音声はマイクロホン１０９によって音声信号に変換され、変換された信号が音声処理部１０８へ出力される。音声処理部１０８は、マイクロホン１０９から出力された音声信号が入力されると、音声信号をデジタルデータである学習者データに変換する。この学習者データは、音声処理部１０８から出力され、記憶部１０５に記憶される。
【００２１】
学習者が発音を終了して入力部１０７を操作すると（ステップＳＡ１０；ＹＥＳ）、ＣＰＵ１０２は、学習者データが示す音声の長さを調整し、模範音声データが示す模範音声の長さと、学習者データが示す学習者の音声の長さとが同じとなるように学習者データを処理する（ステップＳＡ１１）。図８は、模範音声の波形とマイクロホン１０９に入力された学習者音声の波形とを例示した図である。図８においては、模範音声の波形および学習者音声の波形は同じ例文を発話した時のものを示しているが、発話速度が異なっているため、音声波形の長さが異なっている。ＣＰＵ１０２は、模範音声データと学習者データを解析し、模範音声の長さと学習者音声の長さ（図８のΔｔ）を求める。図８に示したように、学習者音声の長さが模範音声の長さよりΔｔ長い場合、学習者音声の長さをΔｔ分だけ縮める処理を行う。
【００２２】
次にＣＰＵ１０２は、模範音声の波形と学習者音声の波形とを、図９に示したように所定の時間間隔（１００ｍｓｅｃ）で区切って複数のフレームに分割する。そして、模範音声の各フレームの音声波形と、学習者音声の各フレームの音声波形との対応付けをＤＰ（Dynamic Programming）マッチング法を用いて行う（ステップＳＡ１２）。例えば、図９に例示した波形においては、模範音声のフレームＡ１は、学習者音声のフレームＢ１に対応付けされ、模範音声のフレームＡ３は、学習者音声のフレームＢ４に対応付けされる。
【００２３】
ＣＰＵ１０２は、模範音声と学習者音声との対応付けが終了すると、各音声波形を単語の発音毎に分割する（ステップＳＡ１３）。具体的には、まず、模範音声については、単語テーブルＴＢ３から発話開始時間を読み出す。ここで、学習者が選択した例文が「One centimeter is ten centimeter.」であるので、まず、「One」の発話開始時間「０．０sec」が単語テーブルＴＢ３から読み出される。ＣＰＵ１０２は、図９に示したように、音声波形の「０．０sec」の位置のフレームに（フレームＡ１）単語の区切りを示す情報（以下、単語区切り情報Ｃと称する）を付加する。次にＣＰＵ１０２は「centimeter」の発話開始時間「０．２sec」を単語テーブルＴＢ３から読み出し、発音開始から０．２sec後の位置に対応したフレーム（フレームＡ３）に単語区切り情報Ｃを付加する。
【００２４】
ＣＰＵ１０２は、模範音声について最後の単語「millimeters」まで単語区切り情報Ｃを付加すると、次に、学習者音声について単語区切り情報を付加する。まず、ＣＰＵ１０２は、模範音声において単語区切り情報が付加されたフレームを抽出する。そして、抽出されたフレームに対応したフレームを、学習者音声において特定し、特定したフレームに単語区切り情報Ｃを付加する。例えば、単語区切り情報Ｃが付加されたフレームＡ１が抽出されると、上述したステップＳＡ１２の処理によってフレームＡ１はフレームＢ１に対応付けされているので、ＣＰＵ１０２は、フレームＡ１に対応しているフレームＢ１を特定し、このフレームＢ１に単語区切り情報を付加する。また、単語区切り情報が付加されたフレームＡ３が抽出されると、上述したステップＳＡ１２の処理によってフレームＡ３はフレームＢ４に対応付けされているので、ＣＰＵ１０２は、フレームＡ３に対応付けされたフレームＢ４を特定し、このフレームＢ４に単語区切り情報Ｃを付加する。
【００２５】
ＣＰＵ１０２は、フレームに単語区切り情報を付加して音声波形を単語の発音毎に分割すると、学習者音声について、各単語の音声のピッチと発話時間とを算出する（ステップＳＡ１４）。例えば、学習者音声の「One」の場合、「One」の発音を表す音声波形として、フレームＢ１〜フレームＢ３までの音声波形が抽出される。そして、抽出した音声波形が解析され、音声のピッチと各単語の発話時間とが算出される。
【００２６】
次にＣＰＵ１０２は、記憶部１０５に記憶した学習者データを音声処理部１０８へ出力する（ステップＳＡ１５）。また、ＣＰＵ１０２は表示部１０６を制御し、選択された例文と、ステップＳＡ１４で求めた学習者の音声のピッチとを、模範音声のピッチを表示した時と同様に表示する（ステップＳＡ１６）。ここで、例文の各単語およびピッチの横方向の表示長さは、模範音声のピッチを表示した時の表示長さと同じ長さにされる。
なお、表示される画面においては、例文の左端およびピッチ表示の左端が模範音声の再生開始時点を示しており、例文の右端およびピッチ表示の右端が模範音声の再生終了時点を表している。
【００２７】
音声処理部１０８に学習者データが入力されると、デジタルデータである学習者データがアナログの信号に変換されてスピーカ１１０へ出力され、スピーカ１１０から学習者の音声が再生される。ＣＰＵ１０２は、学習者の音声が再生されると、表示部１０６を制御し、表示した例文において音声再生されている部分を示すバーを表示する（ステップＳＡ１７）。
【００２８】
ここでＣＰＵ１０２は、学習者の「One」の発話時間が、模範音声の「One」の発話時間と同じである場合、模範音声を再生した時と同じ速度で「One」のピッチの表示区間を移動するようにバー１０を表示する。即ち、学習者の「One」の発話時間が、模範音声の「One」の発話時間と同じ２００ｍｓｅｃであった場合、バー１０は、「One」のピッチの表示区間を２００ｍｓｅｃの時間をかけて移動するように表示される。一方、学習者の「One」の発話時間が、模範音声の「One」の発話時間と異なり、例えば、３００ｍｓｅｃであった場合、バー１０は、「One」のピッチの表示区間を３００ｍｓｅｃの時間をかけて移動するように表示される。即ち、表示画面において「One」の区間を移動するバー１０の速度が、模範音声を再生した時のバー１０の移動速度より遅くなるので、このバー１０の移動を見た学習者は、自分の「One」の発話時間が模範音声の「One」の発話時間より長くなっていることを知ることができる。また、学習者の「One」の発話時間が例えば模範音声の「One」の発音より短い１００ｍｓｅｃあった場合、「One」のピッチの表示区間を１００ｍｓｅｃの時間をかけて移動するようにバー１０が表示される。即ち、表示画面において「One」の区間を移動するバー１０の速度が、模範音声を再生した時のバー１０の移動速度より早くなるので、このバー１０の移動を見た学習者は、自分の「One」の発話時間が模範音声の「One」の発話時間より短くなっていることを知ることができる。
【００２９】
ＣＰＵ１０２は、他の単語についても同様に、ステップＳＡ１４で算出した発話時間に従ってバー１０を移動させて表示し、学習者の音声の再生が終了すると、表示部１０６を制御し、選択した例文の発音練習を再度行うのか、他の例文の発音練習を行うのかを確認するメニュー画面を表示する（ステップＳＡ１８）。学習者が入力部１０７を操作し、別の例文の発音練習を行う旨の操作を行った場合（ステップＳＡ１９；ＹＥＳ）、ＣＰＵ１０２は、ステップＳＡ１に処理の流れを戻し、ステップＳＡ１以降の処理を再び実行する。また、学習者が入力部１０７を操作し、選択した例文の発音練習を再度行う旨の操作を行った場合（ステップＳＡ２０；ＹＥＳ）、ＣＰＵ１０２は、ステップＳＡ９に処理の流れを戻し、ステップＳＡ９以降の処理を再び実行する。
【００３０】
以上説明したように、本実施形態によれば、模範音声における発音リズムの動的な変化と、学習者の音声における発音リズムの動的な変化とが表示されるので、学習者は、自身の音声と、模範音声との発音リズムの違いを把握することができる。そして、模範音声との発音リズムの違いを把握することができるようになるので、発音を模範音声に近づけることが容易となる。
【００３１】
［変形例］
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されることなく、以下のように、他の様々な形態で実施可能である。
【００３２】
上述した実施形態においては、学習者の音声の再生位置を示すバーを表示する際、模範音声の再生位置を示すバーを同時に表示するようにしてもよい。このような態様によれば、模範音声に対してどの程度早く（遅く）発音しているかを具体的に知ることができる。また、学習者の音声のピッチを表示する際には、図１０に示したように、模範音声のピッチを重ねて表示するようにしてもよい。
【００３３】
上述した実施形態では、語学学習装置１は、フランス語やドイツ語等、英語だけでなく他の言語の例文と模範音声とを記憶して再生するようにしてもよい。
【００３４】
上述した実施形態においては、模範音声および学習者の音声のピッチを表示しているが、ピッチを表示しないようにし、バー１０を表示されている例文上に表示するようにしてもよい。また、ピッチを表示する代わりに時間軸を表示するようにしてもよい。
【００３５】
上述した実施形態においては、バー１０により音声の再生部分を表しているが、再生済みの部分の色を、再生されていない部分の色とは異なる色に変えるようにして音声の再生位置を表すようにしてもよい。
また、上述した実施形態においては、１フレームの時間間隔を１００ｍｓｅｃとしているが、１フレームの時間間隔は、１００ｍｓｅｃ以外であってもよい。
また、上述した実施形態においては、例文を表示する際に単語毎に区切りを表示しているが、音素毎に区切りを表示するようにしてもよい。
また、上述した実施形態においては、音声のパワーの時間的変化を解析し、ピッチに替えて解析した音声パワーの時間的変化を表示するようにしてもよい。
【００３６】
上述した実施形態においては、ＣＰＵ１０２が実行するプログラムを記憶部１０５に記憶させ、ＣＰＵ１０２は記憶部１０５からプログラムを読み出して実行するようにしてもよい。また、語学学習装置１に通信機能を持たせ、ＣＰＵ１０２が実行するプログラムを通信ネットワークを介してダウンロードして記憶部１０５に記憶させるようにしてもよい。また、語学学習装置１は、ＣＤ−ＲＯＭ等の記録媒体に記録されたプログラムを読みとり、読みとったプログラムを記憶部１０５に記憶するようにしてもよい。
【図面の簡単な説明】
【００３７】
【図１】本発明の実施形態に係る学習装置のブロック図である。
【図２】例文テーブルＴＢ１のフォーマットを例示した図である。
【図３】ピッチテーブルＴＢ２のフォーマットを例示した図である。
【図４】模範音声におけるピッチの変化を例示した図である。
【図５】単語テーブルＴＢ３のフォーマットを例示した図である。
【図６】ＣＰＵ１０２が行う処理の流れを示したフローチャートである。
【図７】表示部１０６に表示される画面を例示した図である
【図８】模範音声の波形と学習者音声の波形とを例示した図である。
【図９】模範音声の波形と学習者音声の波形とを複数のフレームに分割した時の図である。
【図１０】変形例における画面表示を例示した図である。
【符号の説明】
【００３８】
１・・・語学学習装置、１０１・・・バス、１０２・・・ＣＰＵ、１０３・・・ＲＯＭ、１０４・・・ＲＡＭ、１０５・・・記憶部、１０６・・・表示部、１０７・・・入力部、１０８・・・音声処理部、１０９・・・マイクロホン、１１０・・・スピーカ。

【特許請求の範囲】
【請求項１】
発音すべき音に対応した音データを予め定められた区間に区切って記憶する記憶手段と、
前記記憶手段から前記音データを読み出して再生処理をする再生手段と、
収音した音に対応するデータを収音データとして生成する収音データ生成手段と、
前記収音データに対して前記音データの区切りに対応する部分を認識し、対応する区切りを付加する位置付加手段と、
前記各区間の時間長に対応した表示幅を有する表示区間を連ねて形成されるスケールを表示する表示手段と、
前記再生手段による再生処理に同期して、前記音データの各区間における再生位置を前記スケールの各表示区間に対して表示させる第１表示制御手段と、
前記収音データを再生処理する収音データ再生処理手段と、
前記収音データ再生処理手段に同期して、前記位置付加手段により区切られた前記収音データの各区間における再生位置を前記スケールの各表示区間に対して表示する第２表示制御手段と
を具備することを特徴とする再生装置。
【請求項２】
前記記憶手段は複数の異なる音データを記憶し、
前記記憶手段に記憶された複数の音データのひとつを選択する選択手段を有し、
前記再生手段は、前記選択手段により選択された音データを前記記憶手段から読み出して再生処理をすること
を特徴とする請求項１に記載の再生装置。

【図１】