説明

言語発音練習支援システム

【課題】相手に言葉が通じ会話できるように、正しい発音を身に着ける練習をしていく、言語の習得を支援する。
【解決手段】発音評価装置45による画像解析技術を組み合わせ、唇の動きを追跡、解析する。つまり、音声評価判定処理部44による音声データに対する音声処理だけでなく、唇の動きを撮影したビデオデータを合わせて解析するものである。これにより、正確な発音の判定が可能になる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、相手に言葉が通じ会話できるように、正しい発音を身に着ける練習をしていく、言語の習得を支援することができる言語発音練習支援方法、標準発音者処理装置、及び言語発音練習支援装置に関する。
【背景技術】
【0002】
特許文献1〜特許文献3など、外国語など言語学習に際して、発声発音評価は音声データのみで行われている。
【0003】
特許文献1では、学習用音声信号をスペクトル分析し、その分析結果を統計的に分類して、音声信号のスペクトル特微量であるフォルマントを求めるようにしている。特許文献2では、発声発音練習者が発声する音声の電気的な音声信号の所定の特性値の変化を検出し、その特性値の変化に応じた表示を行う発声発音練習装置が示されている。特許文献3では、音声認識トレーニングのトレーニング文内の難しい単語に、ルビなどの発音を補助する表示を行うようにしている。
【0004】
これらに対して、特許文献4では、カラー撮像による動画像の唇の画像データにより、唇の内周輪郭を抽出し、単語を発する発話者の口唇部の変化の応答特性を捉えるようにしている。又、発話単語の応答特性と予め辞書登録されている単語の応答特性とを比較し、類似単語を識別して発話単語を認識するようにしている。
【0005】
特許文献5では、テレビカメラから入力される画像データに基づく画像から、肌色の色空間を定義する色成分値の範囲にその色成分値が含まれる画素の抽出処理などにより、口唇形状を特定するようにしている。これにより、発話意図検出、顔認識を行っている。
【0006】
【特許文献1】特開平07−104796号公報
【特許文献2】特開平11−352875号公報
【特許文献3】特開2004−334207号公報
【特許文献4】特開2002−197465号公報
【特許文献5】特開2003−187247号公報
【発明の開示】
【発明が解決しようとする課題】
【0007】
しかしなから、従来の技術では、前述のように、外国語など言語学習に際して、発声発音評価は音声のみに基づいているため、信頼性が低くなる場合がある。例えば中国語の場合、口が正しく動いていないと、相手に言葉が通じない場合がある。
【0008】
又、デジタル画像処理によって顔面の口唇形状を把握する従来の技術は、外国語など言語学習における発声発音評価を対象とするものではなかった。このため、該発声発音評価を行う際に、処理量や処理時間が多くなったり、評価精度が不十分であったりしていた。
【0009】
本発明は、前記従来の問題点を解決するべくなされたものであって、相手に言葉が通じ会話できるように、正しい発音を身に着ける練習をしていく、言語の習得を支援することができる言語発音練習支援システムを提供することを目的とする。
【課題を解決するための手段】
【0010】
まず、本願の第1発明の言語発音練習支援方法は、練習対象になる言語の手本となる発音をする、標準発音者が発音する言語の音声をマイクロフォンにより採取して、電気信号に変換し、該音声の信号に対して、周波数成分の分析を行い、前記音声採取と同期して、ビデオカメラにより、標準発音者の唇を動画撮像して、ビデオデータを取得し、該ビデオデータに基づいて、唇の輪郭の特徴を抽出し、同様の音声採取や周波数成分分析、又、動画撮像や唇輪郭特徴抽出を、言語発音の練習の対象者に対しても行い、標準発音者及び練習対象者において、周波数成分の分析結果や、唇輪郭特徴の情報に基づいた判定を行って、練習対象者の発音の適正を判断するようにしたことにより、前記課題を解決したものである。
【0011】
又、前記言語発音練習支援方法において、前記周波数成分分析に際して、主成分分析による正規化処理を行うようにしたと共に、該主成分分析処理に係るパラメータを、外部から設定可能なデータとしたことにより、前記課題を解決したものである。
【0012】
更に、前記言語発音練習支援方法において、前記唇輪郭特徴抽出が、唇の縦幅及び横幅のそれぞれの測定であって、該測定結果を、前記発音適正判断に用いるようにしたことにより、前記課題を解決したものである。
【0013】
更には、前記言語発音練習支援方法において、該当の発音の発話区間を、前記音声信号における音声の有無から判定し、該発話区間における音声信号に対して、前記周波数成分分析を行うと共に、該発話区間におけるビデオデータに対して、前記唇輪郭特徴抽出を行うようにしたことにより、前記課題を解決したものである。
【0014】
又、前記言語発音練習支援方法において、前記発話区間を、前半及び後半に時間軸において2等分して、前半の唇輪郭特徴、及び後半の唇輪郭特徴の間における変化の度合いを計算し、該計算結果を、前記発音適正判断に用いるようにしたことにより、前記課題を解決したものである。
【0015】
次に、本願の第2発明の標準発音者装置は、練習対象になる言語の手本となる発音をする、標準発音者が発音する言語の音声をマイクロフォンにより採取して得られた電気信号を入力し、該音声の信号に対して、周波数成分の分析を行う基礎データ収集音声処理部と、前記音声採取と同期して、ビデオカメラにより標準発音者の唇を動画撮像して得られたビデオデータを入力し、該ビデオデータに基づいて、唇の輪郭の特徴を抽出する基礎データ収集画像処理部と、前記周波数成分分析の結果、及び唇輪郭特徴抽出の結果に基づく情報を格納する判定用音声データベース装置と、を備えたことにより、前記課題を解決したものである。
【0016】
次には、本願の第3発明の言語発音練習支援装置は、言語発音の練習の対象者が発音する言語の音声をマイクロフォンにより採取して得られた電気信号を入力し、該音声の信号に対して、周波数成分の分析を行う学習者データ収集音声処理部と、前記音声採取と同期して、ビデオカメラにより練習対象者の唇を動画撮像して得られたビデオデータを入力し、該ビデオデータに基づいて、唇の輪郭の特徴を抽出する学習者データ収集画像処理部と、前記第2発明の判定用音声データベース装置に格納された情報を複製格納した判定用音声データベース装置と、標準発音者及び練習対象者において、周波数成分の分析結果や、唇輪郭特徴の情報に基づいた判定を行って、練習対象者の発音の適正を判断する学習者発音評価エンジン装置と、を備えたことにより、前記課題を解決したものである。
【0017】
又、前記言語発音練習支援装置において、少なくとも前記判定用音声データベース装置を、インターネットで接続するASPサービス提供用サーバ装置側に設けるようにしたことにより、前記課題を解決したものである。
【0018】
以下、本発明の作用について、簡単に説明する。
【0019】
本発明は、音声処理だけでなく、これに画像解析技術を組み合わせ、唇の動きを追跡、解析する。つまり、音声データだけでなく、唇の動きを撮影したビデオデータを合わせて解析するものである。これにより、正確な発音の判定が可能になる。
【0020】
更に、判定の正確性を高めるために、人的判定のデータを加えることができるようにすることも可能である。これにより、計算式による、学習者の発話判定の精度を向上することができる。
【発明の効果】
【0021】
このように、本願発明によれば、相手に言葉が通じ会話できるように、正しい発音を身に着ける練習をしていく、言語の習得を支援することができる言語発音練習支援システムを提供することができる。
【発明を実施するための最良の形態】
【0022】
以下、図を用いて本発明の実施の形態を詳細に説明する。
【0023】
図1は、本願発明が適用された実施形態の言語発音練習支援システムの全体的な構成を示すブロック図である。
【0024】
本発明が適用された、その詳細は図4に示し後述する言語発音練習支援装置6は、この図1において、クライアント装置5それぞれにおいて構成されている。これらクライアント装置5に加え、標準発音者装置7、発音課題作成装置8、ASP(Application program Service Provider)サービス提供用サーバ装置9は、インターネット1によって相互にアクセス可能に接続されている。標準発音者装置7や発音課題作成装置8は、言語発音練習支援装置6を利用するに当たって必要なデータベース情報を入力するためのものである。
【0025】
なお、図1において、インターネット1に対する各装置の接続は、図示されるように直接的なものに限定されるものではない。例えば、ISP(Internet Service Provider)やゲートウェイ装置やプロキシ装置を介在させた接続であってもよい。
【0026】
図2は、本実施形態の各装置に用いるハードウェアの構成を示すブロック図である。
【0027】
この図2においては、発音課題作成装置8や、標準発音者装置7、又、言語発音練習支援装置6を構成するものなどとして用いるクライアント装置5の各装置として利用可能な、ある種のコンピュータ装置のハードウェア構成が示される。しかしながら、各装置は、このようなものに限定されるものではない。
【0028】
図2の該コンピュータ装置は、OSは一例として米国マイクロソフト社のWindows(登録商標)を搭載する、一般的なPC(Personal Computer)装置であってもよく、特に限定されものではない。あるいは、PC装置以外のハードウェアを用いてもよく、例えばEWS(Engineering Work Station)などの、いわゆるワークステーションなどのハードウェア、あるいはプログラムによりカスタマイズ可能なコピー機、複合機などのハードウェアを用いるようにしてもよい。なお、この図において、ハードウェア構成は、説明の関係上一部抽象化されている。
【0029】
この図において、コンピュータ装置は、CPU(Central Processing Unit)310と、RAM(Random Access Memory)311と、ROM(Read Only Memory)312と、LAN−I/F(Inter Face)313と、MODEM(modulator-demodulator)314と、種々のI/F320〜322とを有している。これらは、バス301によって相互接続されている。
【0030】
又、バス301に対して、I/F320を介して、画面表示装置330が接続されている。又、バス303によって相互接続されている、キーボード331と、マウス332と、プリンタ装置333と、マイクロフォン335と、ビデオカメラ336とは、バス301に対して、I/F321を介して接続されている。
【0031】
ここで、マイクロフォン335には、音声を電気信号に変換するマイクロフォン本体に加えて、該電気信号を、デジタル信号(後述する音声データに相当)に変換する回路も備えられている。又、ビデオカメラ336は、撮影用レンズ及びCCD(Charge Coupled Device)撮像素子を備えた、画面表示装置330の前に座す人物の唇を撮影し、そのビデオ信号を出力するビデオカメラ本体に加え、該ビデオ信号をデジタル信号(後述するビデオデータに相当)に変換する回路も備えられている。
【0032】
更に、バス301に対して、I/F322を介して、HDD(Hard Disc Drive)装置340と、CD(Compact Disc)ドライブ装置341と、FDD(Floppy(登録商標) Disc Drive)装置342とが接続されている。これらはバス302によって相互接続されている。
【0033】
以上のようなハードウェア構成において、記憶手段、又記憶装置は、RAM311、ROM312、HDD装置340、CDドライブ装置341、FDD装置342などである。このような記憶手段や記憶装置において、CPU310で実行される様々なプログラムや、本実施形態においてアクセスされるデータベースや諸ファイルやデータが保存され、電子的にアクセスができるようになっている。例えば、OSや、データベースやJAVA(登録商標)などのソフトウェア資源を利用する環境を提供するためのプログラム、本実施形態に係るアプリケーション・プログラム、又ウェブ・ブラウザ・プログラムは、HDD装置340に格納されていて、実行時には、RAM311に読み出されてCPU310によって実行される。なお、LAN−I/F313は、インターネット1その他のネットワークに対する接続などに用いられるものであり、CPU310で実行されるアプリケーション・プログラムには、クライアント装置5において、インターネット1経由で取得される、JAVA(登録商標)のアプレットも含まれる。
【0034】
又、OSやアプリケーション・プログラムその他の実行に際して、オペレータは、画面表示装置330に表示出力される情報を参照しつつ、キーボード331によって文字入力や諸操作を行ったり、マウス332によって座標入力や諸操作の入力を行ったりする。又、適宜、プリンタ装置333からは必要な情報を印字出力したりすることができる。言うまでもなく、これら諸出力や入力は、CPU310で実行されるプログラムによって、電子的な処理によって行われるものである。
【0035】
なお、CDドライブ装置341やFDD装置342は、本願発明を適用して実施する際の、アプリケーション・プログラムのインストールや、その他のオフラインでの情報交換に用いられる。又、CDドライブ装置341は、CD−R、DVD−RAM、DVD−ROM、MOなどの記録媒体を用いる場合は、これ相応の装置のものとすればよい。
【0036】
図3は、本実施形態の主要部の構成を示すブロック図である。
【0037】
図示されるように、該主要部は、発音課題作成装置8、標準発音者装置7、言語発音練習支援装置6に加え、判定用発音データベース装置12と、発音課題データベース装置41となっている。
【0038】
又、発音課題作成装置8は、発音課題作成装置40を有している。該発音課題作成装置8は、標準発音者が、練習対象になる言語の手本となる発音を標準発音者装置7において登録したり、言語の発音を練習し習得しようとする者(以下練習対象者と呼ぶ)が、言語習得の練習の一環として行った発音を言語発音練習支援装置6に評価させたりするための、発音内容などを登録する。例えば、練習対象者が練習として発音したり、標準発音者が該練習の手本として発音したりする、音節や、単語を、キーボード331などから文字情報として入力し、リストとして登録する。
【0039】
次に、標準発音者装置7は、基礎データ収集装置10と、標準発音評価判定装置11とを有している。該標準発音者装置7においては、標準発音者が、練習対象になる言語の手本となる発音を登録する。該発音は、主として、前述のように発音課題作成装置8において入力した、音節や、単語である。
【0040】
続いて、言語発音練習支援装置6は、学習者用ユーザ・インターフェイス装置20と、学習者データ収集装置21と、学習者発音評価エンジン装置24と、学習管理装置25と、評価フィードバック装置28と、学習者発音データベース装置22と、学習管理データベース装置26とを有している。該言語発音練習支援装置6においては、練習対象者が、言語習得の練習の一環として行った発音を評価させたり記憶させたりする。該発音は、主として、前述のように発音課題作成装置8において入力した、音節や、単語である。
【0041】
図4は、本実施形態の変形例の主要部を示すブロック図である。又、図5〜図7は、該変形例の、それぞれ、発音課題作成装置8、標準発音者装置7、言語発音練習支援装置6の構成を示すブロック図である。
【0042】
本実施形態においては、発音課題作成装置8、標準発音者装置7、言語発音練習支援装置6を、1つのコンピュータ装置のハードウェア上に構成するようにしてもよい。このような場合は、前述の図3に示す構成は好適である。
【0043】
あるいは、これら発音課題作成装置8、標準発音者装置7、言語発音練習支援装置6を、個別のコンピュータ装置のハードウェア上に構成するようにしてもよい。このように個別のハードウェアとする場合は、図4〜図7に示すような変形例のように、それぞれに、発音課題データベース装置41や判定用発音データベース装置12、あるいはこれらと同様に利用できるデータベース装置を備えるようにしてもよい。
【0044】
ここで、発音課題データベース装置13には、発音課題データベース装置41の必要なデータを読み込んで格納することで、標準発音者装置7において、該発音課題データベース装置41と同等に用いられる。又、発音課題データベース装置30にも、発音課題データベース装置41の必要なデータを読み込んで格納することで、言語発音練習支援装置6において、該発音課題データベース装置41と同等に用いられる。
【0045】
又、判定用発音データベース装置32は、判定用発音データベース装置12の必要なデータを読み込んで格納することで、言語発音練習支援装置6において、該判定用発音データベース装置12と同等に用いられる。
【0046】
なお、本実施形態において、データベースなどに格納する情報は、インターネット1を経由して受け渡しを行うが、このようなものに限定されるものではない。例えば、CD−R(Compact Disc Recordable)、DVD−RAM(Digital Video Disc−Random Access Memory)、DVD−ROM(Digital Video Disc−Read Only Memory)、MO(Magneto-Optic)などの記録媒体を用いて、オフラインで受け渡しをするようにしてもよい。
【0047】
図8は、本実施形態の標準発音評価判定装置11や学習者発音評価エンジン装置24の主要部の構成を示すブロック図である。
【0048】
図示されるように、標準発音評価判定装置11や学習者発音評価エンジン装置24は、少なくとも、音声評価判定処理部44と、発音評価装置45とを有している。
【0049】
音声評価判定処理部44は、標準発音者や練習対象者の発音に係り、音声処理によって、該発音評価に用いる情報を生成するものである。該音声評価判定処理部44は、対象の音声のフォルマントを抽出し、発音評価に用いる情報を、音声に係る処理によって生成するものである。
【0050】
これに対して、発音評価装置45は、標準発音者や練習対象者の発音に係り、唇の輪郭形状の画像処理によって、該発音評価に用いる情報を生成するものである。該発音評価装置45は、画像処理によって唇の輪郭の縦幅や横幅を求め、これら寸法に関する処理によって、発音評価に用いる情報を生成するものである。
【0051】
そして、標準発音評価判定装置11は標準発音者の発音評価に用いる情報を、あるいは、学習者発音評価エンジン装置24は練習対象者の発音評価に用いる情報を、このような音声評価判定処理部44や発音評価装置45によって生成する。そして、該学習者発音評価エンジン装置24では、更に、これら生成の情報を用いて、標準発音者の発音を基準とした、練習対象者の発音の評価を行うことになる。
【0052】
まず、音声評価判定処理部44は、周波数成分の分析(スペクトル分析)を行う。音声評価判定処理部44は、LPCケプストラムから求まるスペクトル包絡に対して、ピークピッキング処理を行い、対象の音声データの、標準発音者や練習対象者の発音における、フォルマントを抽出するようにしている。ここで、フォルマントとは、人間の声や楽器の音などが固有に持っている共振する周波数のことであり、複数個存在する。最も低い周波数のフォルマントを第1フォルマントF1と呼び、以降、周波数が上がる毎に、第2フォルマントF2、第3フォルマントF3の様に呼ぶ。
【0053】
このようなフォルマントの抽出を行って、該当の音節や単語の発音の適正を判断することができ、言語発音練習の対象になる言語に応じた判断が可能となる。
【0054】
該音声評価判定処理部44は、該フォルマントの抽出を行った後に、該抽出成分に対して主成分分析を行う。例えば、該当の音節や単語の発声の第1フォルマントをF1とし、第2フォルマントをF2とすると、次式のように、主成分分析を行うことができる。なお、a11、a12、a21、a22は、多数のサンプルデータに基づいて求めればよい。
【0055】
F1’=a11F1+a12F2 ……(1)
F2’=a21F1+a22F2 ……(2)
【0056】
図9は、本実施形態において主成分分析を行う前の該フォルマントの分布を示すグラフである。図10は、該フォルマントに対して主成分分析を行った後の分布を示すグラフである。
【0057】
このように求められるF1’及びF2’をF1及びF2の平面で表すと、例えば図9のようになる。ここで、F1及びF2は通常軸が傾いた形で分布するため、音声評価判定処理部44は、主成分分析による正規化処理を実施する。正規化処理を行うことで、図9のような分布が、図10のような分布となる。
【0058】
又、次式により求められた得点Pは、言語発音練習支援装置6における練習対象者の発音評価の1つとして用いることができる。
【0059】
P=C/(A×(F1’)2+B×(F2’)21/2 ……(3)
【0060】
なお、上記の式(3)において、AやBやCは、多数のサンプルデータに基づいて求めればよい。あるは、これらAやBやC、又前述のa11、a12、a21、a22は、外部から設定可能なデータとしてもよい。
【0061】
以上のように、本実施形態では、LPCケプストラムから求まるスペクトル包絡に対して、ピークピッキング処理を行い、フォルマントを抽出するようにしている。なお、本実施形態で利用するフォルマントは、2つ以上である。
【0062】
次に、図11は、本実施形態においてF1’及びF2’の分布から計算された楕円関数を用いた評価マップを示すグラフの一例である。
【0063】
又、このような分布に対して、原点Oからの距離に従って、発音した音声の評価をすることができる。例えば、図11のように、F1’及びF2’の分布から楕円関数を計算し、評価マップを作成する。各楕円は、原点Oからの距離に応じた、音声評価の区分になる。
【0064】
以上に説明したように、音声評価判定処理部44では、音声の発音に係り、簡潔で少ないデータ処理によって、該当の発音のフォルマントを抽出し、該発音の特徴を把握できるようにしている。
【0065】
次に、図12は、本実施形態の発音評価装置45の構成を示すブロック図である。
【0066】
図示されるように、該発音評価装置45は、唇形状特徴量抽出処理部46及び評価判定処理部47を有している。
【0067】
該発音評価装置45は、標準発音評価判定装置11において、標準発音者の行った発音を練習対象者の発音と比較して行う、練習対象者の発音の評価判定に用い易い形態の、標準発音者の発音に関する情報を生成する。あるいは、該発音評価装置45は、学習者発音評価エンジン装置24においては、標準発音者の行った発音を練習対象者の発音と比較して行う、練習対象者の発音の評価判定に関する情報を生成する。
【0068】
図13は、本実施形態の唇形状特徴量抽出処理部46の構成を示すブロック図である。
【0069】
なお、この図13において、又後述する図14において、円形状はそれぞれ該当の処理部を示し、矩形形状は該当の処理部に入力される、あるいは出力されるデータを示す。又、作図の都合上、これら図13及び図14においては、このようなそれぞれの処理部の名称「……処理部」について、「処理部」の語句を省略している。又、このようなそれぞれのデータの名称「……データ」について、「データ」の語句を省略している。
【0070】
図13において、唇形状特徴量抽出処理部46は、探索処理部51と、抽出処理部52と、等分処理部53とを有している。
【0071】
まず、探索処理部51は、標準発音者や練習対象者による発音の「音声データ」を読み込む。そして、無音状態から有音状態になってから、再び無音状態になるまでの期間を、発話区間として検出し、該検出結果を「発話区間データ」として出力する。
【0072】
次に、抽出処理部52は、該「発話区間データ」に基づいて、該発話区間該当部分の切り出し処理を行って、標準発音者や練習対象者による発音時の唇を撮影した動画像の「ビデオデータ」の抽出を行う。又、該抽出の「ビデオデータ」に基づいて、動いている唇の、輪郭形状を抽出する。そして、該抽出処理部52は、該抽出の輪郭形状に基づいて、動いている唇の、唇輪郭の縦幅の長さ(唇縦幅)及び唇輪郭の横幅の長さ(唇横幅)を動的に求める。これら唇縦幅及び唇横幅は、該発話区間内の各時点において求められる。なお、これら唇縦幅及び唇横幅は、唇輪郭の特徴を示す情報の一部となる。
【0073】
等分処理部53は、該発話区間を、時間長で等分し、等分されたものを時間経過順に、それそれ、前半区間と後半区間とする(時間軸における2等分)。そして、前半区間における唇縦幅の平均値、及び唇横幅の平均値を求め、これら平均値を「前半平均データ」として出力する。又、後半区間における唇縦幅の平均値、及び唇横幅の平均値を求め、これら平均値を「後半平均データ」として出力する。
【0074】
図14は、本実施形態の評価判定処理部47の構成を示すブロック図である。
【0075】
該評価判定処理部47は、結合処理部60と、分離処理部61及び62と、比較処理部63〜65と、評価処理部66〜72と、総合処理部73とを有している。
【0076】
結合処理部60は、前述の唇形状特徴量抽出処理部46が出力する「前半平均データ」及び「後半平均データ」を受け入れる。つまり、前半区間における「唇縦幅平均値データ」及び「唇横幅平均値データ」、後半区間における「唇縦幅平均値データ」及び「唇横幅平均値データ」を入力する。そして、「唇縦幅平均値データ」及び「唇横幅平均値データ」のそれぞれについて、前半区間におけるデータと後半区間におけるデータとで平均することによって、発話区間の全区間における唇縦幅平均値(「唇縦幅平均値データ」)及び唇横幅平均値(「唇横幅平均値データ」)を求め、それぞれ「縦幅データ」及び「横幅データ」として出力する。
【0077】
分離処理部61及び62は、「前半平均データ」、あるいは「後半平均データ」を入力する。そして、「前半平均データ」であれば、前半区間における「唇縦幅平均値データ」を「縦幅(前)データ」として、又、前半区間における「唇横幅平均値データ」を「横幅(前)データ」として出力する。あるいは、「後半平均データ」であれば、後半区間における「唇縦幅平均値データ」を「縦幅(後)データ」として、又、後半区間における「唇横幅平均値データ」を「横幅(後)データ」として出力する。
【0078】
評価処理部66〜72は、それぞれが入力するデータの値の評価を行い、該評価の結果を「評価値データ」として出力する。例えば、所定の閾値と比較し、入力したデータの値と該閾値との大小関係を示す情報を、該「評価値データ」として出力する。
【0079】
比較処理部63〜65は、それぞれ2つのデータを入力する。又、該比較処理部63〜65は、入力した2つのデータの値の大小関係を判定し、該判定結果を示す情報を、「縦横比例データ」、「横幅変化データ」、「縦幅変化データ」として出力する。
【0080】
総合処理部73は、入力される複数のデータに基づいた判定や評価を行う。又、このような判定や評価の結果は、「判定結果データ」として出力する。
【0081】
ここで、母音発声の場合、唇評価式は次のようになる。
【0082】
唇の縦幅や横幅などのデータをxとし、あるデータの閾値thnからの誤差量をenとする。そして、該誤差量enを次のように定める。
【0083】
閾値thn<xであればen=0とし、閾値thn>xであればen=|x−thn|とする。
【0084】
あるいは、閾値thn>xであればen=0とし、閾値thn<xであればen=|x−thn|とする。
【0085】
あるいは、常に、en=|x−thn|とする。
【0086】
そして、全体の誤差量を評価値Eとし、次式から求める。なお、次式においてα1〜αnは、多数のサンプルデータに基づいて求めればよい。あるいは、これらα1〜αnは、外部から設定可能なデータとしてもよい。又、計算用のe1〜enは、母音毎に、事前に手動にて設定したり、選択したりするようにしてもよい。
【0087】
E=α11+α22+α33+α44+……+αnn ……(4)
【0088】
以上に説明したように、発音評価装置45では、音声の発音に係り、唇の縦幅や横幅により、又適宜発話区間を時間軸において前半及び後半に分けることにより、簡潔で少ないデータ処理によって、該当の発音の、唇の輪郭の特徴を把握できるようにしている。
【0089】
以下、本実施形態の作用について説明する。
【0090】
まず、オペレータは、発音課題作成装置8において、練習対象者が発音練習する課題になる、単語や音節のリストを入力する。発音課題作成装置40は、該入力を受け付け、そのリストを発音課題データベース装置41に保存する。
【0091】
このような単語や音節のリストが発音課題データベース装置41に得られると、該リストは、発音課題データベース装置41や発音課題データベース装置13にアクセスすることによって、標準発音者装置7からも参照することができる。
【0092】
図15は、本実施形態の標準発音者装置7における画面表示の一例を示す表示画面図である。
【0093】
標準発音者の操作に従って、標準発音者装置7の基礎データ収集装置10は、図15に示すような内容の画面を、画面表示装置330において表示することができる。該表示を目視しながら標準発音者は、マイクロフォン335に対して該当の発音を行う。又、該発音の際、標準発音者の唇は、画面表示装置330上に配置したビデオカメラ336によって撮影される。そして、基礎データ収集装置10は、該発音の音声データ、及び該撮影のビデオデータを読み込み、標準発音評価判定装置11へと出力する。
【0094】
該標準発音評価判定装置11は、これら音声データ及びビデオデータを入力すると、その音声評価判定処理部44と発音評価装置45によって判定や評価を行う。そして、該標準発音評価判定装置11は、これら音声データ及びビデオデータ、又音声評価判定処理部44と発音評価装置45から出力される判定結果データを、判定用発音データベース装置12に格納し保存する。
【0095】
標準発音者は、このように標準発音者装置7において、課題データベース装置41にある単語や音節の発音に係る情報を判定用発音データベース装置12に保存していく。そして、このような情報を用い、練習対象者の発音の練習に際して、練習対象者の発音を評価したりすることになる。
【0096】
図16は、本実施形態の言語発音練習支援装置6における画面表示の一例を示す表示画面図である。
【0097】
練習対象者の操作に従って、言語発音練習支援装置6の学習者用ユーザ・インターフェイス装置20は、図16に示すような内容の画面を、画面表示装置330において表示することができる。該表示を目視しながら練習対象者は、マイクロフォン335に対して該当の発音を行う。又、該発音の際、練習対象者の唇は、画面表示装置330上に配置したビデオカメラ336によって撮影される。そして、発音課題データベース装置30は、該発音の音声データ、及び該撮影のビデオデータを読み込み、学習者データ収集装置21へと出力する。
【0098】
該学習者データ収集装置21は、入力されるこれら音声データ及びビデオデータを、学習者発音データベース装置22に保存すると共に、学習者発音評価エンジン装置24に対して出力する。
【0099】
該学習者発音評価エンジン装置24は、これら音声データ及びビデオデータを入力すると、その音声評価判定処理部44と発音評価装置45によって判定や評価を行う。そして、該学習者発音評価エンジン装置24は、該音声評価判定処理部44と発音評価装置45から出力される判定結果データを、学習管理データベース装置26に格納し保存すると共に、学習管理装置25に対して出力する。
【0100】
該学習管理装置25は、このような判定結果データを学習管理データベース装置26に保存する。該学習管理装置25では、各練習対象者の発話記録を記録、管理し評価フィードバック装置28から利用可能にする。
【0101】
該学習管理装置25は、評価フィードバック装置28からの要求に応じ、学習管理データベース装置26に保存した諸データを読み出し、該評価フィードバック装置28に対して出力する。又、学習者発音評価エンジン装置24により得られたデータに基づいて、練習対象者に対して提示する「アドバイス」を選択し、該評価フィードバック装置28に対して出力する。該「アドバイス」は、評価フィードバック装置28や学習者用ユーザ・インターフェイス装置20を経て、画面表示装置330による画面表示や、プリンタ装置333による印刷出力により、練習対象者に対して提示されるものである。例えば次に述べる図17の表示画面では、「アドバイス」欄に表示されている。
【0102】
図17は、本実施形態の言語発音練習支援装置6において判定結果を表示する画面表示の一例を示す表示画面図である。
【0103】
該評価フィードバック装置28は、上記の判定結果データなどを用いて、図17に示すような内容の画面を、学習者用ユーザ・インターフェイス装置20を経由して、画面表示装置330において練習対象者に対して表示する。練習対象者は、このような表示画面を参照しながら、発音練習を繰り返すことになる。
【0104】
以上に説明したように、本実施形態によれば、本発明を効果的に適用することができる。
【0105】
又、基礎データ収集装置10や学習者用ユーザ・インターフェイス装置20によれば、標準発音者や練習対象者は、発話者の唇をビデオカメラ336により正確に捉えることができ、又ビデオカメラ336によって得たビデオデータの画像をリアルタイムに画面表示装置330において表示し確認することもできる。又、これら基礎データ収集装置10や学習者用ユーザ・インターフェイス装置20によれば、発声する言葉(母音、単語、短文)を画面上に表示し、発話者の視線の移動を減少させて負担を軽くすることができる。
【0106】
更に、基礎データ収集装置10では、データ収集後ビデオテープから発話を切り分けする手間を省くため、自動的に発話終了を判定し発話単位でデータを保存することができる。
【0107】
又、学習者発音評価エンジン装置24によれば、標準発話者の発声と、人的な判定を組み合わせたデータの解析から得られた判定式を利用し、学習者の発話データを評価することができる。又、音声のみで行われていた発音の評価において、画像を組み合わせるマルチモーダル方式を採用することができる。それにより、音だけでは伝えられない発音の学習を行うことで学習効果を大きく向上できる。
【0108】
更に、学習者用ユーザ・インターフェイス装置20によれば、練習対象者が発音を練習する際に、該発音の評価をすることができる。又、標準発音者による、標準となる発音を随時再生でき、発話の参考にすることができる。更に、図17において「アドバイス」欄に図示されるように、学習者発音評価エンジン装置24から出力される情報に基づいて、練習対象者に対して指導者側からのアドバイスを表示することができる。又、発話履歴をグラフ上に表示し、学習の進捗を明示できる。
【0109】
又、該学習者発音評価エンジン装置24では、その内部においてソフトウェアの部品化を図ることにより、容易にこのような部品を用いて、スタンドアローンの学習システムから、ネットワーク経由の大規模システムまで対応可能となる。
【0110】
なお、本実施形態の変形例として、言語発音練習支援装置6の内の一部を、ASPサービス提供用サーバ装置9側において構成するようにしてもよい。つまり、言語発音練習支援装置6の内、練習対象者に対する入出力部分の側を、利用するクライアント装置5側に構成し、その他の部分は、ASPサービス提供用サーバ装置9側に構成するようにしてもよい。ここで、該変形例は、利用契約済みの複数の顧客を対象として、アプリケーション・プログラムによる様々なサービスを提供する、いわゆるASPのサービス提供の1つとしてもよい。
【産業上の利用可能性】
【0111】
以上説明したとおり、本願発明によれば、相手に言葉が通じ会話できるように、正しい発音を身に着ける練習をしていく、言語の習得を支援することができる言語発音練習支援システムを提供することができる。
【図面の簡単な説明】
【0112】
【図1】本願発明が適用された実施形態の言語発音練習支援システムの全体的な構成を示すブロック図
【図2】上記実施形態の各装置に用いるハードウェアの構成を示すブロック図
【図3】前記実施形態の主要部の構成を示すブロック図
【図4】前記実施形態の変形例の主要部を示すブロック図
【図5】上記該変形例の発音課題作成装置の構成を示すブロック図
【図6】前記該変形例の標準発音者装置の構成を示すブロック図
【図7】前記該変形例の言語発音練習支援装置の構成を示すブロック図
【図8】前記実施形態の標準発音評価判定装置や学習者発音評価エンジン装置の主要部の構成を示すブロック図
【図9】前記実施形態において主成分分析を行う前のフォルマントの分布を示すグラフ
【図10】上記フォルマントに対して主成分分析を行った後の分布を示すグラフ
【図11】前記実施形態においてF1’及びF2’の分布から計算された楕円関数を用いた評価マップを示すグラフ
【図12】前記実施形態の発音評価装置の構成を示すブロック図
【図13】前記実施形態の唇形状特徴量抽出処理部の構成を示すブロック図
【図14】前記実施形態の評価判定処理部の構成を示すブロック図
【図15】前記実施形態の標準発音者装置における画面表示の一例を示す表示画面図
【図16】前記実施形態の言語発音練習支援装置における画面表示の一例を示す表示画面図
【図17】前記実施形態の言語発音練習支援装置において判定結果を表示する画面表示の一例を示す表示画面図
【符号の説明】
【0113】
1…インターネット
5…クライアント装置
6…言語発音練習支援装置
7…標準発音者装置
8…発音課題作成装置
9…ASPサービス提供用サーバ装置
10…基礎データ収集装置
11…標準発音評価判定装置
12、32…判定用発音データベース装置
13、30、41…発音課題データベース装置
20…学習者用ユーザ・インターフェイス装置
21…学習者データ収集装置
22…学習者発音データベース装置
24…学習者発音評価エンジン装置
25…学習管理装置
26…学習管理データベース装置
28…評価フィードバック装置
40…発音課題作成装置
44…音声評価判定処理部
45…発音評価装置
46…唇形状特徴量抽出処理部
47…評価判定処理部
51…探索処理部
52…抽出処理部
53…等分処理部
60…結合処理部
61、62…分離処理部
63〜65…比較処理部
66〜72…評価処理部
73…総合処理部
301〜303…バス
310…CPU
311…RAM
312…ROM
313…LAN−I/F
314…MODEM
320〜322…I/F
330…画面表示装置
331…キーボード
332…マウス
333…プリンタ装置
335…マイクロフォン
336…ビデオカメラ
340…HDD装置
341…CDドライブ装置
342…FDD装置

【特許請求の範囲】
【請求項1】
練習対象になる言語の手本となる発音をする、標準発音者が発音する言語の音声をマイクロフォンにより採取して、電気信号に変換し、該音声の信号に対して、周波数成分の分析を行い、
前記音声採取と同期して、ビデオカメラにより、標準発音者の唇を動画撮像して、ビデオデータを取得し、該ビデオデータに基づいて、唇の輪郭の特徴を抽出し、
同様の音声採取や周波数成分分析、又、動画撮像や唇輪郭特徴抽出を、言語発音の練習の対象者に対しても行い、
標準発音者及び練習対象者において、周波数成分の分析結果や、唇輪郭特徴の情報に基づいた判定を行って、練習対象者の発音の適正を判断するようにしたことを特徴とする言語発音練習支援方法。
【請求項2】
請求項1において、
前記周波数成分分析に際して、主成分分析による正規化処理を行うようにしたと共に、
該主成分分析処理に係るパラメータを、外部から設定可能なデータとしたことを特徴とする言語発音練習支援方法。
【請求項3】
請求項1又は2において、前記言語が中国語であって、
前記唇輪郭特徴抽出が、唇の縦幅及び横幅のそれぞれの測定であって、該測定結果を、前記発音適正判断に用いるようにしたことを特徴とする言語発音練習支援方法。
【請求項4】
請求項1乃至3のいずれか1つにおいて、
該当の発音の発話区間を、前記音声信号における音声の有無から判定し、
該発話区間における音声信号に対して、前記周波数成分分析を行うと共に、
該発話区間におけるビデオデータに対して、前記唇輪郭特徴抽出を行うようにしたことを特徴とする言語発音練習支援方法。
【請求項5】
請求項4において、前記言語が中国語であって、
前記発話区間を、前半及び後半に時間軸において2等分して、前半の唇輪郭特徴、及び後半の唇輪郭特徴の間における変化の度合いを計算し、
該計算結果を、前記発音適正判断に用いるようにしたことを特徴とする言語発音練習支援方法。
【請求項6】
練習対象になる言語の手本となる発音をする、標準発音者が発音する言語の音声をマイクロフォンにより採取して得られた電気信号を入力し、該音声の信号に対して、周波数成分の分析を行う基礎データ収集音声処理部と、
前記音声採取と同期して、ビデオカメラにより標準発音者の唇を動画撮像して得られたビデオデータを入力し、該ビデオデータに基づいて、唇の輪郭の特徴を抽出する基礎データ収集画像処理部と、
前記周波数成分分析の結果、及び唇輪郭特徴抽出の結果に基づく情報を格納する判定用音声データベース装置と、
を備えたことを特徴とする標準発音者装置。
【請求項7】
言語発音の練習の対象者が発音する言語の音声をマイクロフォンにより採取して得られた電気信号を入力し、該音声の信号に対して、周波数成分の分析を行う学習者データ収集音声処理部と、
前記音声採取と同期して、ビデオカメラにより練習対象者の唇を動画撮像して得られたビデオデータを入力し、該ビデオデータに基づいて、唇の輪郭の特徴を抽出する学習者データ収集画像処理部と、
請求項6記載の判定用音声データベース装置に格納された情報を複製格納した判定用音声データベース装置と、
標準発音者及び練習対象者において、周波数成分の分析結果や、唇輪郭特徴の情報に基づいた判定を行って、練習対象者の発音の適正を判断する学習者発音評価エンジン装置と、
を備えたことを特徴とする言語発音練習支援装置。
【請求項8】
請求項7において、少なくとも前記判定用音声データベース装置を、インターネットで接続するASPサービス提供用サーバ装置側に設けるようにしたことを特徴とする言語発音練習支援装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate


【公開番号】特開2008−158055(P2008−158055A)
【公開日】平成20年7月10日(2008.7.10)
【国際特許分類】
【出願番号】特願2006−344338(P2006−344338)
【出願日】平成18年12月21日(2006.12.21)
【出願人】(500208276)住友セメントシステム開発株式会社 (3)
【出願人】(803000115)学校法人東京理科大学 (545)
【Fターム(参考)】