説明

語学学習装置およびプログラム

【課題】簡素な構成で、学習者の発した音声と手本となる模範音声との相違部分および相違の度合いをその学習者に具体的に把握させることを可能にする。
【解決手段】音声信号が入力される入力手段と、前記入力手段へ入力された音声信号の示す音声の発声時間を予め定められた模範音声の発声時間に一致させるように、その音声信号を時間軸方向に圧縮または伸長するタイムストレッチ手段と、前記タイムストレッチ手段により圧縮または伸長された音声信号と前記模範音声を示す音声信号とを比較し、両者の相違部分を特定する特定手段と、前記入力手段へ入力された音声信号と前記模範音声を示す音声信号の何れか一方に、前記特定手段により特定された相違部分を強調する所定の信号処理を施す信号処理手段と、前記信号処理手段により前記所定の信号処理が施された音声信号を出力する出力手段と、を有することを特徴とする語学学習装置を提供する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声データを用いて語学学習を支援する技術に関し、特に、学習者の発した音声と手本となる模範音声との相違をその学習者へ報知する技術に関する。
【背景技術】
【0002】
近年、音声データを用いて、英会話の習得等の語学学習を支援する技術が一般に普及しており、その一例としては特許文献1〜3に開示された技術が挙げられる。
特許文献1には、学習者の発声音声を音声認識により音節単位に分割し、予め記憶されている標準音声と音節単位で比較して、両者で異なっている箇所および異なる度合いを示す数値を画面表示することによって、学習者に標準音声との発声が異なっている箇所および異なる度合いを自覚させ、その学習者が、自身の発声を標準音声に近づけるように練習することを可能にする技術が開示されている。
特許文献2には、ユーザの発音を複数の単語によって構成される文字データに変換する音声認識部と、複数の単語によって構成される例文データと上記文字データとを単語毎に比較する比較部と、比較部による比較の結果、一致する単語と一致しない単語とを視覚的に区別して表示させる表示部とを備えた発音学習システムが開示されている。この発音学習システムによれば、ユーザによる発音が全体として不良であっても、どの部分の発音に問題があったのかをユーザに把握させることが可能になる。
特許文献3には、学習者の発声した音声を入力する音声入力部と、その音声入力部から入力された音声を認識するとともに、音声分析を行う音声認識部と、音声判定の基準や発声難易度等の特徴事項が登録されている音声認識リソース部と、その学習者の発声した音声についての音声認識結果を表示する音声表示部とを有し、その学習者の母語と学習する言語との特徴から困難な発音を強調して学習するとともに、その学習者の音声を音声認識リソース部の登録内容と比較し、発音が異なる言語を強調して表示する外国語自律学習システムが開示されている。
【特許文献1】特開2003−162291号公報
【特許文献2】特開2002−175095号公報
【特許文献3】特開2001−249679号公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
しかしながら、特許文献2や3に開示された技術では、手本となる音声との相違部分のみが提示されるため、その相違部分についてどの程度異なっているのか、また、どのように改善すれば良いのかを学習者が把握することができない、といった問題点がある。また、特許文献1に開示された技術によれば、相違部分に加え、相違の度合いも提示されるのであるが、その相違の度合いが数値化されて表示されるため、どのように改善すれば良いのかを学習者が具体的に把握することができないといった問題点がある。
また、特許文献1〜3に開示された技術では、学習者の発した音声と手本となる音声(以下、模範音声)とを比較する際に、学習者の発した音声に対して音声認識を行うことを前提としているが、音声認識のアルゴリズムは一般に極めて複雑であるため、そのようなアルゴリズムを実行する装置の構成も複雑になってしまうといった問題点もある。
本発明は上記課題に鑑みて為されたものであり、簡素な構成で、学習者の発した音声と手本となる模範音声との相違部分および相違の度合いをその学習者に具体的に把握させることを可能にする技術を提供することを目的としている。
【課題を解決するための手段】
【0004】
上記課題を解決するために、本発明は、音声信号が入力される入力手段と、前記入力手段へ入力された音声信号の示す音声の発声時間を予め定められた模範音声の発声時間に一致させるように、その音声信号を時間軸方向に圧縮または伸長するタイムストレッチ手段と、前記タイムストレッチ手段により圧縮または伸長された音声信号と前記模範音声を示す音声信号とを比較し、両者の相違部分を特定する特定手段と、前記入力手段へ入力された音声信号と前記模範音声を示す音声信号の何れか一方に、前記特定手段により特定された相違部分を強調する所定の信号処理を施す信号処理手段と、前記信号処理手段により前記所定の信号処理が施された音声信号を出力する音声信号出力手段と、を有することを特徴とする語学学習装置、を提供する。
【0005】
このような語学学習装置によれば、ユーザが発声した音声を示す音声信号を上記入力手段へ入力すると、その音声と予め定められた模範音声との相違部分が強調された音声信号が上記出力手段から出力される。このようにして出力される音声信号をスピーカなどの放音装置に供給しその音声信号に応じた音声を放音させることによって、上記ユーザに上記相違部分および相違の度合いを具体的に把握させることが可能になる。
なお、前記所定の信号処理としては、所定の音素を示す信号を前記相違部分の前後に挿入する処理、または、前記相違部分の音量を大きくする処理、または、前記相違部分を他方の音声信号の該当部分で置き換える処理や、前記相違部分以外の部分にホワイトノイズを重畳させる処理、または、相違部分以外の部分を他方の音声信号の該当部分で置き換える処理が挙げられる。
【0006】
より好ましい態様においては、前記タイムストレッチ手段は、前記入力手段へ入力された音声信号の示す音声の発声時間と前記模範音声の発声時間とを、所定の時間区間単位で比較し、その比較結果に応じてその時間区間に対応する部分を時間軸方向に圧縮または伸長する、ことを特徴としている。なお、上記所定の時間区間の一例としては、無音で区切られるフレーズが挙げられる。このような態様においては、模範音声に比較して発声時間が異なっている時間区間(例えば、模範音声に比較して間延びした時間区間)についてのみ、その時間区間に対応する音声信号の圧縮または伸長が行われる。
【0007】
また、別の好ましい態様においては、前記タイムストレッチ手段は、前記入力手段へ入力された音声信号と前記模範音声を示す音声信号とを前記時間区間単位で比較し、両者の乖離度が所定の閾値以上である場合に、その時間区間に対応する部分を時間軸方向に圧縮または伸長する、こと特徴としている。
【0008】
また、別の好ましい態様においては、前記出力手段は、第1のスピーカが接続される第1のチャネルと前記第1のスピーカとは異なる第2のスピーカが接続される第2のチャネルとを有し、前記信号処理手段により所定の信号処理が施された音声信号を前記第1のチャネルへ出力する一方、他方の音声信号を前記第2のチャネルへ出力すること、を特徴としている。
【0009】
また、上記課題を解決するために本発明は、コンピュータ装置に、入力された音声信号の示す音声の発声時間を予め定められた模範音声の発声時間に一致させるように、その音声信号を時間軸方向に圧縮または伸長する第1のステップと、前記第1のステップにて圧縮または伸長された音声信号と前記模範音声を示す音声信号とを比較し、両者の相違部分を特定する第2のステップと、前記入力された音声信号と前記模範音声を示す音声信号の何れか一方に、前記第2のステップにて特定された相違部分を強調する所定の信号処理を施して出力する第3のステップと、を実行させることを特徴とするプログラム、を提供する。
【0010】
このようなプログラムによれば、そのプログラムを一般的なコンピュータ装置へインストールすることによって、そのコンピュータ装置に本発明に係る語学学習装置と同一の機能を付与することが可能になる。なお、上記プログラムを配布する際には、例えばCD−ROM(Compact Disk-Read Only Memory)などのコンピュータ装置読み取り可能な記録媒体に上記プログラムを書き込んで配布するとしても良く、また、インターネットなどの電気通信回線を介したダウンロードにより上記プログラムを配布するとしても良い。
【発明の効果】
【0011】
本発明によれば、学習者の発した音声と模範音声との相違部分が強調されるとともに、その相違部分および相違の度合いが音声で報知されるため、その学習者に、上記相違部分をどのように、また、どの程度改善すれば良いかを具体的に把握させることが可能になる、といった効果を奏する。
また、本発明によれば、学習者の発した音声について音声認識を行う必要がないため、音声認識を要する従来の技術に比較して簡素な構成の装置で語学学習を支援することが可能になる、といった効果を奏する。
【発明を実施するための最良の形態】
【0012】
以下、図面の参照しつつ本発明の実施形態について説明する。
(A.構成)
図1は、本発明の実施形態に係る語学学習装置1のハードウェア構成を例示したブロック図である。図1に示したように、語学学習装置1の各部は、バス101に接続されており、このバス101を介して各部間で信号やデータの授受を行う。
【0013】
マイクロホン109は、音声処理部108に接続されており、入力される音声をアナログの電気信号(以下、アナログ音声信号と称する)に変換して音声処理部108へ出力する。スピーカ110は、音声処理部108に接続されており、音声処理部108から出力されるアナログ音声信号に対応した音を放音する。音声処理部108は、マイクロホン109から入力されるアナログ音声信号をデジタル音声信号に変換して出力するA/D変換機能や、制御部102から供給されるデジタル音声信号をアナログ音声信号に変換し、スピーカ110へ出力するD/A変換機能を備えている。
なお、本実施形態では、マイクロホン109とスピーカ110とが語学学習装置1に含まれている場合について説明したが、音声処理部108へ入力端子および出力端子を設け、オーディオケーブルを介してその入力端子に外部マイクロホンを接続するとしても良く、同様に、オーディオケーブルを介してその出力端子に外部スピーカを接続するとしても勿論良い。また、本実施形態では、マイクロホンから音声処理部108へ入力される音声信号および音声処理部108からスピーカへ出力される音声信号がアナログ音声信号である場合について説明したが、デジタル音声信号を入出力するようにしても勿論良い。なお、このような場合には、音声処理部108にてA/D変換やD/A変換を行う必要がないことは言うまでもない。
【0014】
表示部106は、例えば、液晶ディスプレイ等の表示デバイスとその駆動回路とを含んでおり、制御部102の制御の下、文字列や各種メッセージ、語学学習装置1を操作するための画面等を表示する。操作部107は、キーボードやマウス等(いずれも図示略)の入力装置を具備しており、キーの押下やマウスの操作等に応じてその操作内容を示す信号を制御部102へ出力する。この表示部106と操作部107とは、本実施形態に係る語学学習装置をユーザに利用させるためのユーザインタフェイスを提供するものである。
【0015】
記憶部105は、例えば、HDD(Hard Disk Drive)であり、各種データを記憶する。
具体的には、記憶部105には、語学学習に用いられる例文(語学学習の対象言語で記述された文)を表すテキストデータ(以下、例文テキストデータ)に対応付けて、その例文を上記対象言語のネイティブスピーカが読み上げた音声である模範音声を示すデジタル音声信号(以下、模範音声信号と称する)が記憶されている。
より詳細に説明すると、記憶部105には、図2に例示したフォーマットの例文テーブルTB1が記憶されており、この例文テーブルTB1には、上述した例文テキストデータと、模範音声信号と、各例文テキストデータを一意に識別する識別子とが互いに対応付けられて格納されている。詳細については後述するが、例文テーブルTB1に格納されているテキストデータや識別子は、語学学習装置1を用いて語学学習を行うユーザ(以下、学習者)に、学習する例文を選択させる際に利用される一方、例文テーブルTB1に格納されている模範音声信号は、上記学習者が発した音声(以下、学習者音声)と模範音声の相違部分および相違の度合いを制御部102に特定させる際に利用される。なお、本実施形態では、例文テーブルTB1に、例文テキストデータと模範音声信号とが格納されている場合について説明したが、例文テキストデータや模範音声信号を上記例文テーブルTB1とは異なる記憶領域へ格納し、例文テーブルTB1には、上記例文テキストデータや模範音声信号の格納場所を示すデータ(例えば、格納場所の先頭アドレスなど)を格納しておくとしても勿論良い。
【0016】
制御部102は、例えばCPU(Central Processing Unit)であり、語学学習装置1の電源(図示省略)が投入されると、ROM(Read Only Memory)103に記憶されている制御プログラムを読み出し、RAM(Random Access Memory)104をワークエリアとして、この制御プログラムを実行する。
詳細については後述するが、この制御プログラムにしたがって作動している制御部102には、学習する例文を学習者に選択させる一方、マイクロホン109を介して入力された学習者音声と、学習者により選択された例文に対応する模範音声とを比較して両者の相違部分およびその相違の度合いを特定し、その特定結果を上記学習者へ報知する機能が付与される。なお、本実施形態では、上記制御プログラムをROM103に書き込んでおく場合について説明したが、記憶部105に書き込んでおくとしても良いことは勿論である。また、本実施形態では、語学学習装置1の電源(図示省略)が投入されたことを契機として、上記制御プログラムの実行を制御部102に開始させる場合について説明したが、上記電源が投入されたことを契機として、まず、OS(Operating System)の実行を制御部102に開始させ、そのOSの制御下で上記制御プログラムを制御部102に実行させるようにしても勿論良い。
以上が本実施形態に係る語学学習装置1のハードウェア構成である。このように、本実施形態に係る語学学習装置1のハードウェア構成は、一般的なコンピュータ装置のハードウェア構成と同一であり、本発明に係る語学学習装置に特徴的な機能は、上記制御ソフトウェアにしたがって制御部102を作動させることによって(すなわち、ソフトウェアモジュールで)実現されている。
【0017】
(B.動作)
次いで、語学学習装置1の制御部102が、上記語学学習プログラムにしたがって行う動作について図面を参照しつつ説明する。前述したように、語学学習装置1の電源(図示省略)が投入されると、制御部102は上記制御プログラムをROM103から読み出し、その実行を開始する。この制御プログラムにしたがって作動している制御部102は、学習者に本語学学習装置1の利用を促すための操作画面を表示部106に表示させる。
【0018】
図3は、表示部106に表示される操作画面の一例を示す図である。
図3に示す操作画面の表示領域301は、学習可能な例文を学習者に提示するための領域であり、本実施形態では、制御部102は、例文テーブルTB1から読み出した識別子および例文テキストデータを、この表示領域301にリスト表示させる。
学習者は、操作部107を適宜選択することによって、表示領域301にリスト表示されている例文テキストデータのうちから学習を所望する例文を選択することができる。そして、学習者が操作部107を操作することによって例文の選択を行うと、その選択内容を示す信号(例えば、選択された例文の識別子を示す信号)が操作部107から制御部102へと引渡され、何れの例文が選択されたのかが制御部102へ伝達される。
このようにして学習者の選択内容を伝達された制御部102は、その選択内容に応じた模範音声信号(すなわち、学習者により選択された例文に対応する模範音声信号)を例文テーブルTB1から読み出し、RAM104へ書き込む。これにより、学習者が選択した例文の発音手本となる模範音声が定められる。
【0019】
図3に示す操作画面の再生ボタン303は、学習者が選択した例文に対応する模範音声の出力を指示するための操作子である。図3に示す操作画面にて、学習者により例文の選択が為された後に再生ボタン303が押下されると、その旨を示す信号が操作部107から制御部102へと引渡される。
制御部102は、再生ボタン303が押下されたことを示す信号を受け取ると、RAM104に記憶されている模範音声信号を音声処理部108へ引渡してアナログ音声信号へ変換し、そのアナログ音声信号をスピーカ110へ出力させることによって、学習者により選択された例文に対応する模範音声を放音させる。学習者は、このようにして放音される模範音声を聴くことによって、自身が選択した例文の発音要領を確認することができる。なお、再生ボタン303の押下に先立って例文の選択が行われていない場合には、例文の選択を行った後に再生ボタン303を押下することを促すメッセージを出力させるようにしても良い。
【0020】
図3に示す操作画面の録音ボタン305は、学習者音声の録音を指示するための操作子である。図3に示す操作画面にて、録音ボタン305が押下されると、その旨を示す信号が操作部107から制御部102へと引渡され、制御部102は、マイクロホン109を介して学習者音声が入力されることを待ち受ける。そして、学習者がマイクロホン109に向かって発声すると、その学習者音声を示すアナログ信号がマイクロホン109から音声処理部108へと引渡され、音声処理部108によってデジタル信号(以下、学習者音声信号)に変換されて制御部102へと引渡される。このようにして学習者音声信号を引渡された制御部102は、その学習者音声信号をRAM104に書き込むことにより、上記学習者音声の録音を行う。
【0021】
図3に示す操作画面の評価ボタン307は、学習者が選択した例文に対応する模範音声とその例文に則して学習者が発声した学習者音声との相違を評価し、その評価結果を報知することを指示するための操作子である。図3に示す操作画面にて、評価ボタン307が押下されると、その旨を示す信号が操作部107から制御部102へと引渡され、この信号を受け取った制御部102は、図4に示す評価処理の実行を開始する。なお、評価ボタン307の押下に先立って例文の選択や学習者音声の録音が行われていない場合には、これらを行った後に評価ボタン307を押下することを促すメッセージを出力させるようにしても良い。
【0022】
図4は、制御プログラムにしたがって制御部102が行う評価処理の流れを示すフローチャートである。図4に示すように、制御部102は、まず、RAM104に格納されている学習者音声信号からタイムストレッチを施した音声信号(以下、タイムストレッチ信号)をその学習者音声信号とは別個に生成する(ステップSA100)。
ここで、タイムストレッチとは、図5に示すように、学習者音声の発声時間T1を、学習者により選択された例文に対応する模範音声の発声時間T2に一致させる処理であり、後者と前者との比(すなわち、T2/T1)にしたがって学習音声信号を時間軸方向に均等に圧縮または伸長する処理である。例えば、図5に示す例では、T1>T2であるから、本動作例では、学習者音声信号を時間軸方向にT2/T1の比で圧縮することによってタイムストレッチ信号が生成されることになる。
なお、学習者音声信号に対して上述したタイムストレッチを施しタイムストレッチ信号を生成する理由は、学習者音声の発声時間と模範音声の発声時間とが異なっている状態で、学習者音声信号と模範音声信号とを比較しても、その両者が異なるものであることは当然であり、アクセント位置やイントネーションの相違など両者の本質的な相違部分を特定することができないからである。
【0023】
次いで、制御部102は、ステップSA100にて生成したタイムストレッチ信号とRAM104に格納されている模範音声信号とを比較し、両者の相違部分を特定する(ステップSA110)。より詳細に説明すると、本実施形態においては、制御部102は、以下に説明する処理を実行することによって、上記相違部分を特定する。
【0024】
制御部102は、まず、ステップSA100にて生成したタイムストレッチ信号にFFT解析を施し、信号レベルおよび周波数スペクトルなど時間系列に演算して、上記タイムストレッチ信号の示す音声の発声を分析する。この分析により抽出される情報(以下、発音情報)は、ストレスアクセント、トニックアクセント、イントネーションなどである。
ストレスアクセントとは、無音で区切られるフレーズ中の強く発音する箇所(すなわち、信号レベルが高い箇所)であり、そのタイミングやレベルが抽出される。また、トニックアクセントとは、フレーズ中の高く発音する箇所(すなわち、基本周波数が高い箇所)であり、そのタイミングや周波数が抽出される。また、イントネーションとは、フレーズの高低(基本周波数)の抑揚であり、その抑揚曲線が分析され関数化される。なお、基本周波数とは、FFT解析で求められたピークのうち、一番周波数の低いものである。また、周波数スペクトルからフォルマントを抽出し、発音されている母音を分析することも可能である。更に、周波数スペクトルから倍音構成比が算出され、この時間変動が異なっていれば母音が異なっていると評価することも可能である。
【0025】
制御部102は、タイムストレッチ信号について上記分析を行い、発音情報を抽出すると、比較対象である模範音声信号についても上記分析を行い、発音情報を抽出する。そして、制御部102は、タイムストレッチ信号について抽出した発音情報と模範音声信号について抽出した発音情報とを、時系列順にその種類毎に比較し、後者の発音情報に対して前者の発音情報の乖離度が所定の閾値以上である場合に、その発音情報の示す箇所(例えば、ストレスアクセントについての発音情報であれば、その発音情報の示すタイミング)を相違部分として特定する。
【0026】
以上の処理により、模範音声に対して、ストレスアクセント、トニックアクセントまたはイントネーションが異なっている箇所が相違部分として特定される。なお、本動作例においては、FFT解析、信号レベルおよび周波数スペクトルなど時間系列に演算により生成される発音情報を比較することによって、タイムストレッチ信号と模範音声との相違部分を特定する場合について説明したが、他の周知手法により上記相違部分を特定するようにしても良い。
【0027】
次いで、制御部102は、RAM104に格納されている学習者音声信号に、ステップSA110にて特定された相違部分を強調する所定の信号処理を施す(ステップSA120)。本動作例では、制御部102は、上記所定の信号処理として、学習者音声信号において、ステップSA110にて特定された相違部分に該当する部分(すなわち、ステップSA110にて特定された相違部分の先頭および末尾を示すタイミングに、前述したタイムストレッチの逆変換を施して得られるタイミングで特定される学習者音声信号の部分)の前後に所定のビープ音を示す信号を挿入する処理を施す。なお、本実施形態に係る語学学習装置においては、模範音声に対する学習者音声の相違として、ストレスアクセントの相違、トニックアクセントの相違、イントネーションの相違の3種類を特定することが可能であるから、相違の種別に応じて異なる音色のビープ音を挿入するようにしても良い。
そして、制御部102は、ステップSA120にて所定の信号処理を施した学習者音声信号を音声処理部108へ引渡して、その学習者音声信号に応じた音声をスピーカ110に放音させ(ステップSA130)、本評価動作を終了する。
【0028】
以上に説明した動作の結果、スピーカ110から放音される音声においては、模範音声との相違部分の前後にビープ音が挿入されているため、学習者は、その相違部分を容易に把握することが可能である。また、本実施形態に係る語学学習装置1によれば、上記評価動作により放音される音声と、前述した再生ボタン303を押下することにより放音される模範音声とを聴き比べることによって、学習者は、上記相違部分の相違の度合いを具体的に把握し、その相違部分についてどの程度、どのように改めれば良いかを具体的に把握することが可能になる。また、本実施形態に係る語学学習装置においては、上記模範音声としてネイティブスピーカの音声が用いられているため、ネイティブスピーカに近い発音を身に付けることも可能である。
また、本実施形態に係る語学学習装置によれば、上記相違部分を特定するにあたって学習者音声についての音声認識を行う必要がないため、音声認識を前提とする従来の技術に比較して、語学学習装置の構成を簡素化することが可能になる。
【0029】
(C.変形)
以上、本発明の1実施形態について説明したが、係る実施形態に以下に述べるような変形を加えても良いことは勿論である。
(1)上述した実施形態では、模範音声信号を語学学習装置1の記憶部105に予め記憶させておく場合について説明したが、例えば、インターネットなどの通信網に接続されたコンピュータ装置に例文テーブルTB1を記憶させておくとともに、その通信網を介してデータの送受信を行うための通信インターフェイス部を本実施形態に係る語学学習装置に設け、通信網経由で上記コンピュータ装置から模範音声信号を取得させるようにしても勿論良い。
【0030】
(2)上述した実施形態では、学習者音声の発声時間を、対応する模範音声の発声時間に一致させるように、前者と後者との比に応じて学習者音声信号を時間軸方向に均等に圧縮または伸長する場合について説明した。しかしながら、学習者音声の発声時間と模範音声の発声時間とを、例えば無音で区切られるフレーズなどの所定の時間区間単位で比較し、各時間区間毎に学習者音声信号を上記比較結果に応じた比率で時間軸方向に圧縮または伸長するようにしても良い。このようにすると、模範音声に比較して発声時間が異なっている時間区間部分のみが時間軸方向に圧縮または伸長されることになるとともに、無音区間についてはタイムストレッチの対象から除外されることになる。
【0031】
また、上記所定の時間区間単位で時間軸方向の圧縮または伸長を行う場合には、学習者音声信号と模範音声信号とをその時間区間単位で比較し、両者の乖離度が所定の閾値以上である場合に、その時間区間に対応する学習者音声信号を時間軸方向に圧縮または伸長するようにしても良い。このようにすると、学習者音声と模範音声とで明らかに異なっている時間区間についてのみ、学習者音声信号にタイムストレッチが施され、模範音声信号との相違が詳細に特定されるため、学習者音声と模範音声との相違部分および相違の度合いを効率良く特定することが可能になる、といった効果を奏する。
【0032】
なお、本変形例では、無音で区切られるフレーズを上記所定の時間区間として用いる場合について説明したが、例えばDPマッチングなどの周知技術により、学習者音声信号の信号波形と模範音声信号の信号波形とを、フレームなどの微小時間単位で比較して両者の対応箇所を特定し、その対応箇所を上記時間区間の区切りとするようにしても勿論良い。
【0033】
(3)上述した実施形態では、模範音声との相違部分の前後にビープ音を挿入する処理を学習者音声信号に対して施すことによって、上記相違部分を強調する場合について説明したが、例えば、上記相違部分の前後に所定時間分の無音を挿入することによってその相違部分を強調するとしても良い。要は、無音やビープ音などの所定の音素を上記相違部分の前後に挿入することによりその相違部分を強調する態様であれば良く、挿入される音素の内容については問わない。また、相違部分を強調する信号処理は、その相違部分の前後に所定の音素を挿入する処理に限定されるものではなく、例えば、相違部分の音量を他の部分よりも大きくする処理であっても良く、上記相違部分を模範音声信号における該当部分と置き換える処理であっても良い。また、相違部分以外の部分にホワイトノイズを重畳する処理であっても良く、相違部分以外の部分を模範音声信号における該当部分と置き換える処理であっても良い。また、上記相違部分を所定回数繰り返すように加工する処理であっても良い。要は、学習者音声において、模範音声との相違部分が強調される信号処理であれば、どのような態様であっても良い。
【0034】
(4)上述した実施形態では、模範音声との相違部分を強調する信号処理を学習者音声信号に対して施す場合について説明したが、学習者音声との相違部分を強調する信号処理を模範音声信号に対して施し、係る信号処理が施された模範音声信号をスピーカ110へ供給するようにしても勿論良い。このような態様によっても、学習者に自身の発した音声と模範音声との相違部分および相違の度合いを把握させることが可能だからである。なお、学習者音声との相違部分を強調するために模範音声信号に施す信号処理の一例としては、無音やビープ音などの所定の音素を上記相違部分の前後に挿入する処理、相違部分の音量を他の部分よりも大きくする処理、上記相違部分を学習者音声信号における該当部分と置き換える処理、相違部分以外の部分にホワイトノイズを重畳する処理、相違部分以外の部分を学習者音声信号における該当部分と置き換える処理などが挙げられる。
【0035】
(5)上述した実施形態では、相違部分を強調する処理が施された学習者音声をスピーカ110から放音することによって、その相違部分および相違の度合いを学習者へ報知する場合について説明した。しかしながら、音声処理部108に第1のチャネルに対応した第1の出力端子と第2のチャネルに対応した第2の出力端子とを設け、第1の出力端子には、右チャネルスピーカを接続し第2の出力端子には左チャネルスピーカを接続して、第1のチャネルには上記相違部分を強調する処理が施された学習者音声信号を出力する一方、第2のチャネルには、模範音声信号を出力するようにしても良い。
このようにすると、右チャネルスピーカからは相違部分を強調する処理が施された学習者音声が放音され、左チャネルスピーカからは模範音声が放音されるため、両音声の相違部分およびその相違の度合いを学習者にわかり易く報知することが可能になる。なお、相違部分を強調する処理が施された学習者音声と模範音声とを夫々異なるスピーカから放音させる場合には、一方の音声の再生スピードに他方の音声の再生スピードに合わせる(例えば、相違部分を強調する処理が施された学習者音声の再生スピードに模範音声の再生スピードを合わせる)ようにしても良く、また、一方の音声の平均ピッチを他方の音声の平均ピッチに合わせるようにしても良い。
また、一方のスピーカから相違部分を強調する処理が施された学習者音声を放音する態様においては、他方のスピーカから、模範音声のイントネーションを示す電子音を放音させるようにしても良い。このようなことは、模範音声を分析することにより生成されたイントネーションについての発音情報にしたがって音程が変化する電子音を放音させるようにすることにより実現可能である。
【0036】
(6)上述した実施形態では、模範音声との相違部分を強調する処理を施した学習者音声信号に応じた音声を放音することによって、その相違部分および相違の度合いを学習者に報知する場合について説明したが、前述した特許文献1〜3に開示されているような表示による相違部分の報知を上記音声による報知に組み合わせて行わせるようにしても勿論良い。
また、上述した実施形態では、図3に示す操作画面を表示部106に表示させることによって、本実施形態に係る語学学習装置の利用を促すユーザインタフェイスを提供する場合について説明したが、例えば、例文の選択、模範音声の再生、学習者音声の録音、および、学習者音声についての評価を指示する操作を実行することを促す音声ガイダンスを順次放音させることによって、上記ユーザインタフェイスを提供させるようにしても良い。なお、このような態様において、模範音声との相違部分および相違の度合いの報知を音声のみで行う場合には、表示部106を語学学習装置に設ける必要がないことは言うまでもない。
【0037】
(7)上述した実施形態では、本発明に係る語学学習装置に特徴的な機能をソフトウェアモジュールで実現する場合について説明したが、ハードウェアモジュールで実現しても良いことは勿論である。具体的には、学習者音声信号が入力される入力手段、その音声信号に対してタイムストレッチを施しタイムストレッチ信号を生成するタイムストレッチ手段、タイムストレッチ信号と模範音声信号とを比較し、両者の相違部分を特定する特定手段、上記相違部分を強調する所定の信号処理を学習者音声信号または模範音声信号に施す信号処理手段、および、上記信号処理手段により所定の信号処理が施された音声信号を出力する出力手段を組み合わせ、これら、各手段を図4に示すフローチャートにしたがって作動させるように組み合わせて語学学習装置を構成するとしても良い。
【0038】
また、上述した実施形態では、本発明に係る語学学習装置に特徴的な動作を制御部に実行させるためのプログラムが記憶部に予め記憶されている場合について説明したが、係るプログラムをCD−ROMなどコンピュータ装置読取り可能な記録媒体に書き込んで配布するとしても良く、また、インターネットなどの電気通信回線を介して配布するようにしても良い。このようにすると、上記記録媒体に書き込まれたプログラムや上記電気通信回線を介して配布されたプログラムを、一般的なコンピュータ装置にインストールすることによって、そのコンピュータ装置に本発明に係る語学学習装置と同一の機能を付与することが可能になる。
【図面の簡単な説明】
【0039】
【図1】本発明の1実施形態に係る語学学習装置1の構成例を示す図である。
【図2】同語学学習装置1の記憶部105に予め書き込まれている例文テーブルTB1の一例を示す図である。
【図3】同語学学習装置1の表示部106に表示される操作画面の一例を示す図である。
【図4】同語学学習装置1の制御部102が実行する評価動作の流れを示すフローチャートである。
【図5】同制御部102が実行するタイムストレッチ処理の一例を示す図である。
【符号の説明】
【0040】
1…語学学習装置、101…バス、102…制御部、103…ROM、104…RAM、105…記憶部、106…表示部、107…操作部、108…音声処理部、109…マイクロホン、110…スピーカ。

【特許請求の範囲】
【請求項1】
音声信号が入力される入力手段と、
前記入力手段へ入力された音声信号の示す音声の発声時間を予め定められた模範音声の発声時間に一致させるように、その音声信号を時間軸方向に圧縮または伸長するタイムストレッチ手段と、
前記タイムストレッチ手段により圧縮または伸長された音声信号と前記模範音声を示す音声信号とを比較し、両者の相違部分を特定する特定手段と、
前記入力手段へ入力された音声信号と前記模範音声を示す音声信号の何れか一方に、前記特定手段により特定された相違部分を強調する所定の信号処理を施す信号処理手段と、
前記信号処理手段により前記所定の信号処理が施された音声信号を出力する出力手段と、
を有することを特徴とする語学学習装置。
【請求項2】
前記タイムストレッチ手段は、前記入力手段へ入力された音声信号の示す音声の発声時間と前記模範音声の発声時間とを、所定の時間区間単位で比較し、その比較結果に応じてその時間区間に対応する部分を時間軸方向に圧縮または伸長する
ことを特徴とする請求項1に記載の語学学習装置。
【請求項3】
前記タイムストレッチ手段は、前記入力手段へ入力された音声信号と前記模範音声を示す音声信号とを前記時間区間単位で比較し、両者の乖離度が所定の閾値以上である場合に、その時間区間に対応する部分を時間軸方向に圧縮または伸長する
ことを特徴とする請求項2に記載の語学学習装置。
【請求項4】
前記所定の信号処理は、所定の音素を示す信号を前記相違部分の前後に挿入する処理、または、前記相違部分の音量を大きくする処理、または、前記相違部分を他方の音声信号の該当部分で置き換える処理の何れかである
ことを特徴とする請求項1に記載の語学学習装置。
【請求項5】
前記所定の信号処理は、前記相違部分以外の部分にホワイトノイズを重畳させる処理、または、相違部分以外の部分を他方の音声信号の該当部分で置き換える処理の何れかである
ことを特徴とする請求項1に記載の語学学習装置。
【請求項6】
前記出力手段は、第1のスピーカが接続される第1のチャネルと前記第1のスピーカとは異なる第2のスピーカが接続される第2のチャネルとを有し、
前記信号処理手段により前記所定の信号処理が施された音声信号を前記第1のチャネルへ出力する一方、他方の音声信号を前記第2のチャネルへ出力する
ことを特徴とする請求項1に記載の語学学習装置。
【請求項7】
コンピュータ装置に、
入力された音声信号の示す音声の発声時間を予め定められた模範音声の発声時間に一致させるように、その音声信号を時間軸方向に圧縮または伸長する第1のステップと、
前記第1のステップにて圧縮または伸長された音声信号と前記模範音声を示す音声信号とを比較し、両者の相違部分を特定する第2のステップと、
前記入力された音声信号と前記模範音声を示す音声信号の何れか一方に、前記第2のステップにて特定された相違部分を強調する所定の信号処理を施して出力する第3のステップと、
を実行させることを特徴とするプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2007−140200(P2007−140200A)
【公開日】平成19年6月7日(2007.6.7)
【国際特許分類】
【出願番号】特願2005−334614(P2005−334614)
【出願日】平成17年11月18日(2005.11.18)
【出願人】(000004075)ヤマハ株式会社 (5,930)
【Fターム(参考)】