説明

発音トレーニング装置

【課題】利用者が正しい発音を素早く習得するため音声を視覚的に捉えるフィードバック資料を提示する。
【解決手段】音声の音量基準値とフォルマント周波数基準値と予め格納しておき、利用者が発声した音声を採取した音声データの音量を特定し、該当する音声の音量基準値と比較し、音量基準値との誤差を導出するとともに、音声データの周波数スペクトルを解析してフォルマント周波数を特定し、該当する音声のフォルマント周波数基準値と比較し、フォルマント周波数基準値との誤差を導出し、音量基準値との誤差及びフォルマント周波数基準値との誤差を図形として表示するとともに、正しい発音に近づけるためのアドバイス資料を表示する発音トレーニング装置である。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、聴覚障害者や外国語学習者等、発音トレーニングを行う者の発声した音声データを取得し、基準となる発音データと比較し、その比較結果を表示する発音トレーニング装置に関する。
【背景技術】
【0002】
聴覚障害者は、自分で発音を確認できないこと、及び、聴覚的にフィードバックできないことから習得するには時間がかかる。また、外国語学習者も、自分の発音と正しい発音の差の程度や修正方法を正確に認識することは容易ではない。
【0003】
そこで、従来から、聴覚障害者や外国語学習者等、発音トレーニングを行う者(以下、「利用者」と称する)のために、音声を視覚化することにより自分が正しく発音できているのか確認しながら訓練できるシステムが開発されている。例えば、利用者が、発声する音声をマイクロフォンで録音し、ディジタルの音声データに変換する。その後、その音声データに対して、周波数解析を施し特徴量を得る。その特徴量と基準となる音声データとを比較し、比較結果を表示装置に言葉や波形で表示している(特許文献1)。
【0004】
しかし、この手法では、視覚的にどこが正しくないのか、どのように正しい発音したらいいのか理解することができない。
【0005】
そこで、音声データを採取し、フォルマント周波数を使用して解析する方法がある。フォルマント周波数とは、音声の周波数スペクトルに含まれている複数のピーク値を示すものであり、このピーク値は音素ごとに異なる。このフォルマント周波数値を用いることにより、発音の高低、息の使い方から基準値を定め、発音がその基準値になっているのか解析結果の数値を視覚的にとらえることができる。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2001−343890号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかし、上記手法では、利用者が発生した音声の解析結果を数値又は波形として得ることができるが、解析結果の数値又は波形と基準値のそれとを比較しなければいけないため、視覚的に理解するためには時間がかかる。
【0008】
そこで、本発明の目的は、利用者が発声した音声が、正しい発音になっているのか、聞き取りやすい基準となる音量となっているのか、さらに、正しい発音及び音量とするためにどのように発音を修正すればよいのかを視覚的に素早く理解できる、発音トレーニング装置を提供することである。
【課題を解決するための手段】
【0009】
上記目的を解決するために、本発明は、以下の構成を提供する。
本発明による発音トレーニング装置は、1つの音声ごとに、音声識別情報と前記音声の音量基準値と対応付けて格納した音量基準値データベースと、1つの音声ごとに、音声識別情報と前記音声のフォルマント周波数基準値と対応付けて格納した発音高低基準値データベースと、利用者が発声した音声を採取した音声データと、前記発声した音声の音声識別情報とを対応付けてして採取音声データベースに格納する手段と、格納された前記音声データの音量を特定し、音量を特定した前記音声データの音声識別情報に基づいて前記音量基準値データベースを参照し、該当する音声の音量基準値と比較して音量基準値との誤差を導出する手段と、格納された前記音声データの周波数スペクトルを解析してフォルマント周波数を特定し、フォルマント周波数を特定した前記音声データの音声識別情報に基づいて前記発音高低基準値データベースを参照し、該当する音声のフォルマント周波数基準値と比較してフォルマント周波数基準値との誤差を導出する手段と、前記音量基準値との誤差及び前記フォルマント周波数基準値との誤差を、図形として表示する手段と、を備えている。
【0010】
好適には、上記の発音トレーニング装置において、1つの音声ごとに、音声識別情報と、前記音声を低く発音するための口の形並びに舌の形及び動きを示す第1群の図と、前記音声を高くする発音するための口の形並びに舌の形及び動きを示す第2群の図とを対応付けて格納したアドバイス資料データベースと、前記フォルマント周波数基準値との誤差を導出した前記音声データの音声識別情報に基づいて前記アドバイス資料データベースを参照し、発声した音声が前記フォルマント周波数基準値よりも高い場合は前記第1群の図をアドバイス資料として抽出する一方、発声した音声が前記フォルマント周波数基準値よりも低い場合は前記第2群の図をアドバイス資料として抽出する、アドバイス資料抽出手段と、抽出したアドバイス資料を表示する手段と、をさらに備えている。
【発明の効果】
【0011】
本発明の発音トレーニング装置では、発声された音声の音量が基準値よりも大きいか小さいか、及び、音声の高さが基準値よりも高いか低いかが図形を用いて表示されるので、利用者にとって視覚的に分かり易くかつ楽しく理解され、短時間で正しい発音を習得できる。
【0012】
また、フィードバックの役割を果たすアドバイス資料として、現在の発音から正しい発音へ修正するための、口の形並びに舌の形及び動きを示す図を表示することで、利用者が視覚的に自分の欠点を素早く理解し、正しい発音を短時間で習得することができる。
【0013】
本発明は、聴覚障害者の発音訓練に利用でき、また、英語など自国語以外の学習トレーニングにも利用できる。
【図面の簡単な説明】
【0014】
【図1】図1は、本発明による発音トレーニング装置の実施例における構成図である。
【図2】図2は、図1の発音管理データベースサーバにより管理される各データベースの実施例を示す構成図である。
【図3】本装置において音声入力時から解析結果表示するまでの流れの実施例を示すフローチャートである。
【図4】図4は、表示装置に表示する画面の実施例を示す図である。
【図5】図5は、図4の画面中の発音表示図形のイメージの実施例を示す図である。
【発明を実施するための形態】
【0015】
以下、実施例を示した図面を参照して、本発明を適応した発音トレーニング装置の実施形態について説明する。
【0016】
図1は、本発明による発音トレーニング装置の一実施例を概略的に示した構成図である。
本装置は、本装置の機能を実現するプログラムを導入されたコンピュータである処理装置3と、処理装置3に接続された発音管理データベース(DB)サーバ4、録音装置2、表示装置5及び入力装置6とを備えている。利用者1が直接的に利用する装置は、録音装置2、表示装置5及び入力装置6である。
【0017】
なお、図1の実施例は、1台のコンピュータとその周辺装置からなるシステムとして実現されているが、別の実施例では、録音装置2と表示装置5がブラウザを備えた利用者端末に接続され、利用者端末がネットワークを介してウェブサーバ機能を備えた処理装置3及び発音管理DBサーバ4に接続されたネットワークシステムとして実現することもできる。
【0018】
処理装置3は、本装置の機能を実現するプログラムをCPUがメモリに読み込み実行することにより実施される。図1には、プログラムによる主要な処理を機能別に示しており、音声採取部3a、音量比較部3b、発音高低比較部3c、アドバイス資料抽出部3d、及び解析結果表示部3eの各処理部を備えている。
【0019】
発音管理DBサーバ4は、利用者1が発声した音声の音声データを格納する採取音声DB4aと、音量の基準値を予め格納している音量基準値DB4bと、発音の高低の基準値を予め格納している発音高低基準値DB4cと、表示用のアドバイス資料を予め格納しているアドバイス資料DB4dとを備えている。発音管理DBサーバ4は、処理装置3の要求に応じて、各DBへのデータの記憶及び各DBからのデータの抽出を行う。
【0020】
処理装置3の音声採取部3aは、利用者1が発声した音声を録音装置2を通じてディジタル信号として受信すなわち採取する。採取したディジタル信号を、音声データとして発音管理DBサーバ4の採取音声DB4aに格納する。
【0021】
音量比較部3bは、採取音声DB4aに格納された音声データと、音量基準値DB4bに格納された音量基準値とを比較する解析処理を行う。
【0022】
発音高低比較部3cは、採取音声DB4aに格納された音声データと、発音高低基準値DB4cに格納された発音の高低の基準値とを比較する解析処理を行う。
【0023】
アドバイス資料抽出部3dは、発音高低比較部3cによる解析結果に基づいて、適切なアドバイス資料をアドバイス資料DB4dから抽出する。
【0024】
解析結果表示部3eは、音量比較部3bによる解析結果、発音高低比較部3cによる解析結果及び抽出されたアドバイス資料を、所定のレイアウトで表示する画面を作成し、表示装置2に表示させる。特に、解析結果については簡易な図形を用いて表示する。
【0025】
録音装置2は、利用者の音声を録音し、録音したアナログ信号をディジタル信号に変換し、ディジタル信号である音声データを処理装置3に送信する機能を備えている。
【0026】
表示装置5は、処理装置3から表示データを受信して、表示画面上に表示する機能を備えている。表示装置5は、例えばパーソナルコンピュータ、携帯端末、携帯電話等のモニターである。
【0027】
入力装置6は、利用者1が処理装置3に対して必要な情報を入力するために用いる。本装置の起動及び終了のために用いたり、ネットワークシステムの場合はログイン入力のために用いたりする。また、例えば、発声する音声を利用者1が指定する場合、利用者1が当該音声に対応する文字を入力するために用いる。入力装置6は、例えばキーボード、タッチパネル等である。
【0028】
なお、本装置の適用対象である「音声」は、一例としては1つの音素であるが、連続する複数の音素からなる音声に対しても、本装置は適用可能である。
【0029】
図2は、図1の発音管理DBサーバ4に格納された各データベースの構成例を示す図である。なお、発音管理DBサーバ4の構成は、多様に考えられるので、図示の例に限られない。
【0030】
採取音声DB4aは、利用者の発声した音声の音声データ及びこれに関連するデータを対応付けて格納する。一実施例では、採取音声DB4aは、一時的な記憶部であってもよく、すなわち利用者の1回の発声ごとに書き換えてもよい。別の実施例では、採取音声DB4aは、利用者の発声した音声データ及び関連データを必要な期間保存し蓄積してもよい。データを蓄積する場合は、発音の修得状況を後から確認することができる。採取音声DB4aは、音声識別情報21、採取音声データファイルパス22、音量解析結果23、発音高低解析結果24の各データ項目を備えている。
【0031】
音声識別情報21は、利用者の発声した(発声しようと意図した)音声がどのような音声であるかを識別するための情報である。音声識別情報21の一例は、図示のようにその音声を示す文字であるが、文字に限らず記号(例えば発音記号)でもよい。
【0032】
採取音声データファイルパス22は、採取した音声データのファイルへのパスを格納する。図示しないが、発音管理DBサーバ4の記憶部には、実際の音声データのファイルが記憶されている。音声データのファイルは、採取音声DB4aの仕様に合わせて1回の発声ごとに書き換えてもよく、又は、必要な期間保存してもよい。
【0033】
音量解析結果23及び発音高低解析結果24は、それぞれ図1の音量比較部3b及び発音高低による解析結果を格納する。
【0034】
音量基準値DB4bは、本装置の利用に先立って予め構築されており、1つの音声ごとに、音声識別情報21とその音声の音量基準値25と対応付けて格納している。音量基準値25は、正しい発音における音量として妥当な値を格納する。
【0035】
発音高低基準値DB4cは、本装置の利用に先立って予め構築されており、1つの音声ごとに、音声識別情報21とその音声のフォルマント周波数基準値26と対応付けて格納している。フォルマント周波数基準値26は、正しい発音におけるフォルマント周波数として妥当な値を格納する。
【0036】
アドバイス資料DB4dは、本装置の利用に先立って予め構築されており、1つの音声ごとに、音声識別情報21と、その音声を相対的に低く発音するための口の形(符号27a)並びに舌の形及び動き(符号27b)を示す第1群の図のファイルパス27と、その音声を相対的に高くする発音するための口の形(符号28a)並びに舌の形及び動き(符号28b)を示す第2群の図のファイルパス28とを対応付けて格納している。図示しないが、発音管理DBサーバ4の記憶部には、各音声についての第1群の図及び第2群の図のファイルが記憶されている。
【0037】
図3は、本装置において音声を入力する時から解析結果を表示するまでの流れの実施例を示すフローチャートである。なお、フローチャートの説明においては、図1及び図2の符号を用いる場合がある。
【0038】
利用者は、トレーニング対象である音声を発声し、録音装置2に録音させる。録音装置2は、ディジタル変換した音声データを処理装置3に送信する。処理装置3において、音声採取部3aが、音声データを受信すなわち採取して音声データファイルとして記憶部に記憶するとともに、音声識別情報及び音声データファイルパスを採取音声DB4aに格納する。(ステップ31)
【0039】
なお、トレーニング対象である音声の指定は、利用者が行ってもよく、又は、処理装置3が行ってもよい。利用者が指定する場合は、例えば、発声の前又は後に入力装置6から音声識別情報を入力し、処理装置3は入力された音声識別情報を採取音声DB4aに格納する。処理装置3が指定する場合は、例えば、表示装置5に発声すべき音声の音声識別情報(文字など)を表示し、利用者に対して発声を促す。
【0040】
採取した音声データの解析処理は、2つの観点から行う。
第1の解析処理である音量比較処理では、処理装置3の音量比較部3bが、先ず、採取した音声データを解析してその音量を特定する。なお、音声データを解析して音量を特定する技術については公知技術を用いる。次に、音声識別情報に基づいて音量基準値DB4bを参照し、該当する音声の音量基準値と比較する。そして、音声データの音量と音量基準値との誤差を導出する。導出された誤差を示す数値である誤差値を、採取音声DB4aに音量解析結果として格納する。(ステップ32)
【0041】
第2の解析処理である発音高低比較処理では、処理装置3の発音高低比較部3cが、先ず、採取した音声データの周波数解析を行う(ステップ33)。この周波数解析により、音声データの周波数スペクトルを得る。さらに発音高低比較部3cは、得られた周波数スペクトルにおけるフォルマント周波数を特定する。なお、音声データの周波数スペクトル及びフォルマント周波数を特定する技術については、公知技術を用いる。次に、音声識別情報に基づいて発音高低基準値DB4cを参照し、該当する音声のフォルマント周波数基準値を取得し、音声データの周波数スペクトルにおけるフォルマント周波数と比較する。そして、音声データのフォルマント周波数と、基準値との誤差を導出する。導出された誤差を示す数値である誤差値を、採取音声DB4aに発音高低解析結果として格納する。(ステップ34)
【0042】
続いて、処理装置3のアドバイス資料抽出部3dが、アドバイス資料DB4dからアドバイス資料の抽出を行う。(ステップ35)先ず、採取音声DB4aの発音高低解析結果を参照し、発声した音声のフォルマント周波数がフォルマント周波数基準値よりも高いか低いかを判断する。次に、音声識別情報に基づいてアドバイス資料DB4dを参照する。発声した音声がフォルマント周波数基準値よりも高い場合は、発音を相対的に低くするための口の形並びに舌の形及び動きの図(前述の第1群の図)のファイルをパスに基づいて抽出する。逆に、発声した音声がフォルマント周波数基準値よりも低い場合は、発音を相対的に高くするための口の形並びに舌の形及び動きの図(前述の第2群の図)のファイルをパスに基づいて抽出する。こうして抽出された図は、利用者の発音を正しい発音に近づけるための参考となる。
【0043】
最後に、処理装置3の解析結果表示部3eが、表示装置5に解析結果及びアドバイス資料を表示する。(ステップ36)解析結果の表示は、音声データの音量及び発音高低に関するそれぞれの基準値との誤差を表現した発音表示図形による。
【0044】
図4は、表示装置5に表示する画面の実施例を示す図である。発声した音声を示す音声識別情報である文字41と、アドバイス資料42と、発音表示図形43とが、適宜のレイアウトで表示されている。アドバイス資料42には、抽出された2つの図、すなわち発音を低く(又は高く)するための口の形を示す図と舌の形及び動きを示す図が表示される。発音表示図形43は、解析結果を視覚的に表すイメージである。
【0045】
なお、図4には示していないが、別の実施例として、処理装置3が音声認識機能を備えており、解析処理において、採取した音声データに対して音声認識を実行し、音声認識の結果も図4の画面に併せて表示してもよい。これにより、利用者が発声したつもりの音声が、どの音声として認識されたかを知ることができる。
【0046】
図5は、図4の画面中の発音表示図形43のイメージの実施例を示す図である。
この例では、発音表示図形43は、図形の左側に音量表示部51を、右側に発音高低表示部52を配置している。
【0047】
音量表示部51では、点線51aで示す基準値より音量が大きい場合には、太い実線51bで示すように図形を外側にはみ出すように表示し、逆に音量が小さい場合には、細い実線51cで示すように図形の内側に線を表示する(従って、実際は、太い実線51b又は細い実線51cのいずれかが表示される)。
【0048】
また、発音高低表示部52では、点線半円52aで示すフォルマント周波数基準値より高い場合には、太い実線半円52bで示すように図形を外側にはみ出すように表示し、逆に低い場合には、細い実線半円52cで示すように図形の内側に線を表示する(従って、実際は、太い実線52b又は細い実線52cのいずれかが表示される)。
【0049】
このように、発音表示図形は、音量及びフォルマント周波数の各々の基準値との誤差が、簡易な図形により視覚的に容易に把握できるものである。発音表示図形においては、線、円、多角形等の単純な図形を用い、誤差を大きさ、長さ、太さ等の違いとして表現する。これにより、利用者は、自分の発音が正しい発音からどの程度離れているかを、視覚的に理解することができる。そして、正しい発音に近づけるために、同じ画面上に表示されているアドバイス資料を参考とすることができる。利用者は、アドバイス資料を見ながら、発音を修正する。
【符号の説明】
【0050】
1 利用者
2 録音装置
3 処理装置
3a 音声採取部
3b 音量比較部
3c 発音高低比較部
3d アドバイス資料抽出部
4 発音管理データベース(DB)サーバ
4a 採取音声DB
4b 音量基準値DB
4c 発音高低基準値DB
4d アドバイス資料DB
5 表示装置
6 入力装置

【特許請求の範囲】
【請求項1】
1つの音声ごとに、音声識別情報と前記音声の音量基準値と対応付けて格納した音量基準値データベースと、
1つの音声ごとに、音声識別情報と前記音声のフォルマント周波数基準値と対応付けて格納した発音高低基準値データベースと、
利用者が発声した音声を採取した音声データと、前記発声した音声の音声識別情報とを対応付けて採取音声データベースに格納する手段と、
格納された前記音声データの音量を特定し、音量を特定した前記音声データの音声識別情報に基づいて前記音量基準値データベースを参照し、該当する音声の音量基準値と比較して音量基準値との誤差を導出する手段と、
格納された前記音声データの周波数スペクトルを解析してフォルマント周波数を特定し、フォルマント周波数を特定した前記音声データの音声識別情報に基づいて前記発音高低基準値データベースを参照し、該当する音声のフォルマント周波数基準値と比較してフォルマント周波数基準値との誤差を導出する手段と、
前記音量基準値との誤差及び前記フォルマント周波数基準値との誤差を、図形として表示する手段と、を備えた、発音トレーニング装置。
【請求項2】
1つの音声ごとに、音声識別情報と、前記音声を低く発音するための口の形並びに舌の形及び動きを示す第1群の図と、前記音声を高くする発音するための口の形並びに舌の形及び動きを示す第2群の図とを対応付けて格納したアドバイス資料データベースと、
前記フォルマント周波数基準値との誤差を導出した前記音声データの音声識別情報に基づいて前記アドバイス資料データベースを参照し、発声した音声が前記フォルマント周波数基準値よりも高い場合は前記第1群の図をアドバイス資料として抽出する一方、発声した音声が前記フォルマント周波数基準値よりも低い場合は前記第2群の図をアドバイス資料として抽出する、アドバイス資料抽出手段と、
抽出したアドバイス資料を表示する手段と、をさらに備えたことを特徴とする請求項1に記載の発音トレーニング装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2013−88552(P2013−88552A)
【公開日】平成25年5月13日(2013.5.13)
【国際特許分類】
【出願番号】特願2011−227732(P2011−227732)
【出願日】平成23年10月17日(2011.10.17)
【出願人】(000233055)株式会社日立ソリューションズ (1,610)
【Fターム(参考)】