言語発音練習支援システム

【課題】相手に言葉が通じ会話できるように、正しい発音を身に着ける練習をしていく、言語の習得を支援する。
【解決手段】発音評価装置４５による画像解析技術を組み合わせ、唇の動きを追跡、解析する。つまり、音声評価判定処理部４４による音声データに対する音声処理だけでなく、唇の動きを撮影したビデオデータを合わせて解析するものである。これにより、正確な発音の判定が可能になる。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、相手に言葉が通じ会話できるように、正しい発音を身に着ける練習をしていく、言語の習得を支援することができる言語発音練習支援方法、標準発音者処理装置、及び言語発音練習支援装置に関する。
【背景技術】
【０００２】
特許文献１〜特許文献３など、外国語など言語学習に際して、発声発音評価は音声データのみで行われている。
【０００３】
特許文献１では、学習用音声信号をスペクトル分析し、その分析結果を統計的に分類して、音声信号のスペクトル特微量であるフォルマントを求めるようにしている。特許文献２では、発声発音練習者が発声する音声の電気的な音声信号の所定の特性値の変化を検出し、その特性値の変化に応じた表示を行う発声発音練習装置が示されている。特許文献３では、音声認識トレーニングのトレーニング文内の難しい単語に、ルビなどの発音を補助する表示を行うようにしている。
【０００４】
これらに対して、特許文献４では、カラー撮像による動画像の唇の画像データにより、唇の内周輪郭を抽出し、単語を発する発話者の口唇部の変化の応答特性を捉えるようにしている。又、発話単語の応答特性と予め辞書登録されている単語の応答特性とを比較し、類似単語を識別して発話単語を認識するようにしている。
【０００５】
特許文献５では、テレビカメラから入力される画像データに基づく画像から、肌色の色空間を定義する色成分値の範囲にその色成分値が含まれる画素の抽出処理などにより、口唇形状を特定するようにしている。これにより、発話意図検出、顔認識を行っている。
【０００６】
【特許文献１】特開平０７−１０４７９６号公報
【特許文献２】特開平１１−３５２８７５号公報
【特許文献３】特開２００４−３３４２０７号公報
【特許文献４】特開２００２−１９７４６５号公報
【特許文献５】特開２００３−１８７２４７号公報
【発明の開示】
【発明が解決しようとする課題】
【０００７】
しかしなから、従来の技術では、前述のように、外国語など言語学習に際して、発声発音評価は音声のみに基づいているため、信頼性が低くなる場合がある。例えば中国語の場合、口が正しく動いていないと、相手に言葉が通じない場合がある。
【０００８】
又、デジタル画像処理によって顔面の口唇形状を把握する従来の技術は、外国語など言語学習における発声発音評価を対象とするものではなかった。このため、該発声発音評価を行う際に、処理量や処理時間が多くなったり、評価精度が不十分であったりしていた。
【０００９】
本発明は、前記従来の問題点を解決するべくなされたものであって、相手に言葉が通じ会話できるように、正しい発音を身に着ける練習をしていく、言語の習得を支援することができる言語発音練習支援システムを提供することを目的とする。
【課題を解決するための手段】
【００１０】
まず、本願の第１発明の言語発音練習支援方法は、練習対象になる言語の手本となる発音をする、標準発音者が発音する言語の音声をマイクロフォンにより採取して、電気信号に変換し、該音声の信号に対して、周波数成分の分析を行い、前記音声採取と同期して、ビデオカメラにより、標準発音者の唇を動画撮像して、ビデオデータを取得し、該ビデオデータに基づいて、唇の輪郭の特徴を抽出し、同様の音声採取や周波数成分分析、又、動画撮像や唇輪郭特徴抽出を、言語発音の練習の対象者に対しても行い、標準発音者及び練習対象者において、周波数成分の分析結果や、唇輪郭特徴の情報に基づいた判定を行って、練習対象者の発音の適正を判断するようにしたことにより、前記課題を解決したものである。
【００１１】
又、前記言語発音練習支援方法において、前記周波数成分分析に際して、主成分分析による正規化処理を行うようにしたと共に、該主成分分析処理に係るパラメータを、外部から設定可能なデータとしたことにより、前記課題を解決したものである。
【００１２】
更に、前記言語発音練習支援方法において、前記唇輪郭特徴抽出が、唇の縦幅及び横幅のそれぞれの測定であって、該測定結果を、前記発音適正判断に用いるようにしたことにより、前記課題を解決したものである。
【００１３】
更には、前記言語発音練習支援方法において、該当の発音の発話区間を、前記音声信号における音声の有無から判定し、該発話区間における音声信号に対して、前記周波数成分分析を行うと共に、該発話区間におけるビデオデータに対して、前記唇輪郭特徴抽出を行うようにしたことにより、前記課題を解決したものである。
【００１４】
又、前記言語発音練習支援方法において、前記発話区間を、前半及び後半に時間軸において２等分して、前半の唇輪郭特徴、及び後半の唇輪郭特徴の間における変化の度合いを計算し、該計算結果を、前記発音適正判断に用いるようにしたことにより、前記課題を解決したものである。
【００１５】
次に、本願の第２発明の標準発音者装置は、練習対象になる言語の手本となる発音をする、標準発音者が発音する言語の音声をマイクロフォンにより採取して得られた電気信号を入力し、該音声の信号に対して、周波数成分の分析を行う基礎データ収集音声処理部と、前記音声採取と同期して、ビデオカメラにより標準発音者の唇を動画撮像して得られたビデオデータを入力し、該ビデオデータに基づいて、唇の輪郭の特徴を抽出する基礎データ収集画像処理部と、前記周波数成分分析の結果、及び唇輪郭特徴抽出の結果に基づく情報を格納する判定用音声データベース装置と、を備えたことにより、前記課題を解決したものである。
【００１６】
次には、本願の第３発明の言語発音練習支援装置は、言語発音の練習の対象者が発音する言語の音声をマイクロフォンにより採取して得られた電気信号を入力し、該音声の信号に対して、周波数成分の分析を行う学習者データ収集音声処理部と、前記音声採取と同期して、ビデオカメラにより練習対象者の唇を動画撮像して得られたビデオデータを入力し、該ビデオデータに基づいて、唇の輪郭の特徴を抽出する学習者データ収集画像処理部と、前記第２発明の判定用音声データベース装置に格納された情報を複製格納した判定用音声データベース装置と、標準発音者及び練習対象者において、周波数成分の分析結果や、唇輪郭特徴の情報に基づいた判定を行って、練習対象者の発音の適正を判断する学習者発音評価エンジン装置と、を備えたことにより、前記課題を解決したものである。
【００１７】
又、前記言語発音練習支援装置において、少なくとも前記判定用音声データベース装置を、インターネットで接続するＡＳＰサービス提供用サーバ装置側に設けるようにしたことにより、前記課題を解決したものである。
【００１８】
以下、本発明の作用について、簡単に説明する。
【００１９】
本発明は、音声処理だけでなく、これに画像解析技術を組み合わせ、唇の動きを追跡、解析する。つまり、音声データだけでなく、唇の動きを撮影したビデオデータを合わせて解析するものである。これにより、正確な発音の判定が可能になる。
【００２０】
更に、判定の正確性を高めるために、人的判定のデータを加えることができるようにすることも可能である。これにより、計算式による、学習者の発話判定の精度を向上することができる。
【発明の効果】
【００２１】
このように、本願発明によれば、相手に言葉が通じ会話できるように、正しい発音を身に着ける練習をしていく、言語の習得を支援することができる言語発音練習支援システムを提供することができる。
【発明を実施するための最良の形態】
【００２２】
以下、図を用いて本発明の実施の形態を詳細に説明する。
【００２３】
図１は、本願発明が適用された実施形態の言語発音練習支援システムの全体的な構成を示すブロック図である。
【００２４】
本発明が適用された、その詳細は図４に示し後述する言語発音練習支援装置６は、この図１において、クライアント装置５それぞれにおいて構成されている。これらクライアント装置５に加え、標準発音者装置７、発音課題作成装置８、ＡＳＰ（Application program Service Provider）サービス提供用サーバ装置９は、インターネット１によって相互にアクセス可能に接続されている。標準発音者装置７や発音課題作成装置８は、言語発音練習支援装置６を利用するに当たって必要なデータベース情報を入力するためのものである。
【００２５】
なお、図１において、インターネット１に対する各装置の接続は、図示されるように直接的なものに限定されるものではない。例えば、ＩＳＰ（Internet Service Provider）やゲートウェイ装置やプロキシ装置を介在させた接続であってもよい。
【００２６】
図２は、本実施形態の各装置に用いるハードウェアの構成を示すブロック図である。
【００２７】
この図２においては、発音課題作成装置８や、標準発音者装置７、又、言語発音練習支援装置６を構成するものなどとして用いるクライアント装置５の各装置として利用可能な、ある種のコンピュータ装置のハードウェア構成が示される。しかしながら、各装置は、このようなものに限定されるものではない。
【００２８】
図２の該コンピュータ装置は、ＯＳは一例として米国マイクロソフト社のＷｉｎｄｏｗｓ（登録商標）を搭載する、一般的なＰＣ（Personal Computer）装置であってもよく、特に限定されものではない。あるいは、ＰＣ装置以外のハードウェアを用いてもよく、例えばＥＷＳ（Engineering Work Station）などの、いわゆるワークステーションなどのハードウェア、あるいはプログラムによりカスタマイズ可能なコピー機、複合機などのハードウェアを用いるようにしてもよい。なお、この図において、ハードウェア構成は、説明の関係上一部抽象化されている。
【００２９】
この図において、コンピュータ装置は、ＣＰＵ（Central Processing Unit）３１０と、ＲＡＭ（Random Access Memory）３１１と、ＲＯＭ（Read Only Memory）３１２と、ＬＡＮ−Ｉ／Ｆ（Inter Face）３１３と、ＭＯＤＥＭ（modulator-demodulator）３１４と、種々のＩ／Ｆ３２０〜３２２とを有している。これらは、バス３０１によって相互接続されている。
【００３０】
又、バス３０１に対して、Ｉ／Ｆ３２０を介して、画面表示装置３３０が接続されている。又、バス３０３によって相互接続されている、キーボード３３１と、マウス３３２と、プリンタ装置３３３と、マイクロフォン３３５と、ビデオカメラ３３６とは、バス３０１に対して、Ｉ／Ｆ３２１を介して接続されている。
【００３１】
ここで、マイクロフォン３３５には、音声を電気信号に変換するマイクロフォン本体に加えて、該電気信号を、デジタル信号（後述する音声データに相当）に変換する回路も備えられている。又、ビデオカメラ３３６は、撮影用レンズ及びＣＣＤ（Charge Coupled Device）撮像素子を備えた、画面表示装置３３０の前に座す人物の唇を撮影し、そのビデオ信号を出力するビデオカメラ本体に加え、該ビデオ信号をデジタル信号（後述するビデオデータに相当）に変換する回路も備えられている。
【００３２】
更に、バス３０１に対して、Ｉ／Ｆ３２２を介して、ＨＤＤ（Hard Disc Drive）装置３４０と、ＣＤ（Compact Disc）ドライブ装置３４１と、ＦＤＤ（Floppy（登録商標） Disc Drive）装置３４２とが接続されている。これらはバス３０２によって相互接続されている。
【００３３】
以上のようなハードウェア構成において、記憶手段、又記憶装置は、ＲＡＭ３１１、ＲＯＭ３１２、ＨＤＤ装置３４０、ＣＤドライブ装置３４１、ＦＤＤ装置３４２などである。このような記憶手段や記憶装置において、ＣＰＵ３１０で実行される様々なプログラムや、本実施形態においてアクセスされるデータベースや諸ファイルやデータが保存され、電子的にアクセスができるようになっている。例えば、ＯＳや、データベースやＪＡＶＡ（登録商標）などのソフトウェア資源を利用する環境を提供するためのプログラム、本実施形態に係るアプリケーション・プログラム、又ウェブ・ブラウザ・プログラムは、ＨＤＤ装置３４０に格納されていて、実行時には、ＲＡＭ３１１に読み出されてＣＰＵ３１０によって実行される。なお、ＬＡＮ−Ｉ／Ｆ３１３は、インターネット１その他のネットワークに対する接続などに用いられるものであり、ＣＰＵ３１０で実行されるアプリケーション・プログラムには、クライアント装置５において、インターネット１経由で取得される、ＪＡＶＡ（登録商標)のアプレットも含まれる。
【００３４】
又、ＯＳやアプリケーション・プログラムその他の実行に際して、オペレータは、画面表示装置３３０に表示出力される情報を参照しつつ、キーボード３３１によって文字入力や諸操作を行ったり、マウス３３２によって座標入力や諸操作の入力を行ったりする。又、適宜、プリンタ装置３３３からは必要な情報を印字出力したりすることができる。言うまでもなく、これら諸出力や入力は、ＣＰＵ３１０で実行されるプログラムによって、電子的な処理によって行われるものである。
【００３５】
なお、ＣＤドライブ装置３４１やＦＤＤ装置３４２は、本願発明を適用して実施する際の、アプリケーション・プログラムのインストールや、その他のオフラインでの情報交換に用いられる。又、ＣＤドライブ装置３４１は、ＣＤ−Ｒ、ＤＶＤ−ＲＡＭ、ＤＶＤ−ＲＯＭ、ＭＯなどの記録媒体を用いる場合は、これ相応の装置のものとすればよい。
【００３６】
図３は、本実施形態の主要部の構成を示すブロック図である。
【００３７】
図示されるように、該主要部は、発音課題作成装置８、標準発音者装置７、言語発音練習支援装置６に加え、判定用発音データベース装置１２と、発音課題データベース装置４１となっている。
【００３８】
又、発音課題作成装置８は、発音課題作成装置４０を有している。該発音課題作成装置８は、標準発音者が、練習対象になる言語の手本となる発音を標準発音者装置７において登録したり、言語の発音を練習し習得しようとする者（以下練習対象者と呼ぶ）が、言語習得の練習の一環として行った発音を言語発音練習支援装置６に評価させたりするための、発音内容などを登録する。例えば、練習対象者が練習として発音したり、標準発音者が該練習の手本として発音したりする、音節や、単語を、キーボード３３１などから文字情報として入力し、リストとして登録する。
【００３９】
次に、標準発音者装置７は、基礎データ収集装置１０と、標準発音評価判定装置１１とを有している。該標準発音者装置７においては、標準発音者が、練習対象になる言語の手本となる発音を登録する。該発音は、主として、前述のように発音課題作成装置８において入力した、音節や、単語である。
【００４０】
続いて、言語発音練習支援装置６は、学習者用ユーザ・インターフェイス装置２０と、学習者データ収集装置２１と、学習者発音評価エンジン装置２４と、学習管理装置２５と、評価フィードバック装置２８と、学習者発音データベース装置２２と、学習管理データベース装置２６とを有している。該言語発音練習支援装置６においては、練習対象者が、言語習得の練習の一環として行った発音を評価させたり記憶させたりする。該発音は、主として、前述のように発音課題作成装置８において入力した、音節や、単語である。
【００４１】
図４は、本実施形態の変形例の主要部を示すブロック図である。又、図５〜図７は、該変形例の、それぞれ、発音課題作成装置８、標準発音者装置７、言語発音練習支援装置６の構成を示すブロック図である。
【００４２】
本実施形態においては、発音課題作成装置８、標準発音者装置７、言語発音練習支援装置６を、１つのコンピュータ装置のハードウェア上に構成するようにしてもよい。このような場合は、前述の図３に示す構成は好適である。
【００４３】
あるいは、これら発音課題作成装置８、標準発音者装置７、言語発音練習支援装置６を、個別のコンピュータ装置のハードウェア上に構成するようにしてもよい。このように個別のハードウェアとする場合は、図４〜図７に示すような変形例のように、それぞれに、発音課題データベース装置４１や判定用発音データベース装置１２、あるいはこれらと同様に利用できるデータベース装置を備えるようにしてもよい。
【００４４】
ここで、発音課題データベース装置１３には、発音課題データベース装置４１の必要なデータを読み込んで格納することで、標準発音者装置７において、該発音課題データベース装置４１と同等に用いられる。又、発音課題データベース装置３０にも、発音課題データベース装置４１の必要なデータを読み込んで格納することで、言語発音練習支援装置６において、該発音課題データベース装置４１と同等に用いられる。
【００４５】
又、判定用発音データベース装置３２は、判定用発音データベース装置１２の必要なデータを読み込んで格納することで、言語発音練習支援装置６において、該判定用発音データベース装置１２と同等に用いられる。
【００４６】
なお、本実施形態において、データベースなどに格納する情報は、インターネット１を経由して受け渡しを行うが、このようなものに限定されるものではない。例えば、ＣＤ−Ｒ（Compact Disc Recordable）、ＤＶＤ−ＲＡＭ（Digital Video Disc−Random Access Memory）、ＤＶＤ−ＲＯＭ（Digital Video Disc−Read Only Memory）、ＭＯ（Magneto-Optic）などの記録媒体を用いて、オフラインで受け渡しをするようにしてもよい。
【００４７】
図８は、本実施形態の標準発音評価判定装置１１や学習者発音評価エンジン装置２４の主要部の構成を示すブロック図である。
【００４８】
図示されるように、標準発音評価判定装置１１や学習者発音評価エンジン装置２４は、少なくとも、音声評価判定処理部４４と、発音評価装置４５とを有している。
【００４９】
音声評価判定処理部４４は、標準発音者や練習対象者の発音に係り、音声処理によって、該発音評価に用いる情報を生成するものである。該音声評価判定処理部４４は、対象の音声のフォルマントを抽出し、発音評価に用いる情報を、音声に係る処理によって生成するものである。
【００５０】
これに対して、発音評価装置４５は、標準発音者や練習対象者の発音に係り、唇の輪郭形状の画像処理によって、該発音評価に用いる情報を生成するものである。該発音評価装置４５は、画像処理によって唇の輪郭の縦幅や横幅を求め、これら寸法に関する処理によって、発音評価に用いる情報を生成するものである。
【００５１】
そして、標準発音評価判定装置１１は標準発音者の発音評価に用いる情報を、あるいは、学習者発音評価エンジン装置２４は練習対象者の発音評価に用いる情報を、このような音声評価判定処理部４４や発音評価装置４５によって生成する。そして、該学習者発音評価エンジン装置２４では、更に、これら生成の情報を用いて、標準発音者の発音を基準とした、練習対象者の発音の評価を行うことになる。
【００５２】
まず、音声評価判定処理部４４は、周波数成分の分析（スペクトル分析）を行う。音声評価判定処理部４４は、ＬＰＣケプストラムから求まるスペクトル包絡に対して、ピークピッキング処理を行い、対象の音声データの、標準発音者や練習対象者の発音における、フォルマントを抽出するようにしている。ここで、フォルマントとは、人間の声や楽器の音などが固有に持っている共振する周波数のことであり、複数個存在する。最も低い周波数のフォルマントを第１フォルマントＦ１と呼び、以降、周波数が上がる毎に、第２フォルマントＦ２、第３フォルマントＦ３の様に呼ぶ。
【００５３】
このようなフォルマントの抽出を行って、該当の音節や単語の発音の適正を判断することができ、言語発音練習の対象になる言語に応じた判断が可能となる。
【００５４】
該音声評価判定処理部４４は、該フォルマントの抽出を行った後に、該抽出成分に対して主成分分析を行う。例えば、該当の音節や単語の発声の第１フォルマントをＦ１とし、第２フォルマントをＦ２とすると、次式のように、主成分分析を行うことができる。なお、ａ₁₁、ａ₁₂、ａ₂₁、ａ₂₂は、多数のサンプルデータに基づいて求めればよい。
【００５５】
Ｆ１’＝ａ₁₁Ｆ１＋ａ₁₂Ｆ２ ……（１）
Ｆ２’＝ａ₂₁Ｆ１＋ａ₂₂Ｆ２ ……（２）
【００５６】
図９は、本実施形態において主成分分析を行う前の該フォルマントの分布を示すグラフである。図１０は、該フォルマントに対して主成分分析を行った後の分布を示すグラフである。
【００５７】
このように求められるＦ１’及びＦ２’をＦ１及びＦ２の平面で表すと、例えば図９のようになる。ここで、Ｆ１及びＦ２は通常軸が傾いた形で分布するため、音声評価判定処理部４４は、主成分分析による正規化処理を実施する。正規化処理を行うことで、図９のような分布が、図１０のような分布となる。
【００５８】
又、次式により求められた得点Ｐは、言語発音練習支援装置６における練習対象者の発音評価の１つとして用いることができる。
【００５９】
Ｐ＝Ｃ／（Ａ×（Ｆ１’）²＋Ｂ×（Ｆ２’）²）^1/2 ……（３）
【００６０】
なお、上記の式（３）において、ＡやＢやＣは、多数のサンプルデータに基づいて求めればよい。あるは、これらＡやＢやＣ、又前述のａ₁₁、ａ₁₂、ａ₂₁、ａ₂₂は、外部から設定可能なデータとしてもよい。
【００６１】
以上のように、本実施形態では、ＬＰＣケプストラムから求まるスペクトル包絡に対して、ピークピッキング処理を行い、フォルマントを抽出するようにしている。なお、本実施形態で利用するフォルマントは、２つ以上である。
【００６２】
次に、図１１は、本実施形態においてＦ１’及びＦ２’の分布から計算された楕円関数を用いた評価マップを示すグラフの一例である。
【００６３】
又、このような分布に対して、原点Ｏからの距離に従って、発音した音声の評価をすることができる。例えば、図１１のように、Ｆ１’及びＦ２’の分布から楕円関数を計算し、評価マップを作成する。各楕円は、原点Ｏからの距離に応じた、音声評価の区分になる。
【００６４】
以上に説明したように、音声評価判定処理部４４では、音声の発音に係り、簡潔で少ないデータ処理によって、該当の発音のフォルマントを抽出し、該発音の特徴を把握できるようにしている。
【００６５】
次に、図１２は、本実施形態の発音評価装置４５の構成を示すブロック図である。
【００６６】
図示されるように、該発音評価装置４５は、唇形状特徴量抽出処理部４６及び評価判定処理部４７を有している。
【００６７】
該発音評価装置４５は、標準発音評価判定装置１１において、標準発音者の行った発音を練習対象者の発音と比較して行う、練習対象者の発音の評価判定に用い易い形態の、標準発音者の発音に関する情報を生成する。あるいは、該発音評価装置４５は、学習者発音評価エンジン装置２４においては、標準発音者の行った発音を練習対象者の発音と比較して行う、練習対象者の発音の評価判定に関する情報を生成する。
【００６８】
図１３は、本実施形態の唇形状特徴量抽出処理部４６の構成を示すブロック図である。
【００６９】
なお、この図１３において、又後述する図１４において、円形状はそれぞれ該当の処理部を示し、矩形形状は該当の処理部に入力される、あるいは出力されるデータを示す。又、作図の都合上、これら図１３及び図１４においては、このようなそれぞれの処理部の名称「……処理部」について、「処理部」の語句を省略している。又、このようなそれぞれのデータの名称「……データ」について、「データ」の語句を省略している。
【００７０】
図１３において、唇形状特徴量抽出処理部４６は、探索処理部５１と、抽出処理部５２と、等分処理部５３とを有している。
【００７１】
まず、探索処理部５１は、標準発音者や練習対象者による発音の「音声データ」を読み込む。そして、無音状態から有音状態になってから、再び無音状態になるまでの期間を、発話区間として検出し、該検出結果を「発話区間データ」として出力する。
【００７２】
次に、抽出処理部５２は、該「発話区間データ」に基づいて、該発話区間該当部分の切り出し処理を行って、標準発音者や練習対象者による発音時の唇を撮影した動画像の「ビデオデータ」の抽出を行う。又、該抽出の「ビデオデータ」に基づいて、動いている唇の、輪郭形状を抽出する。そして、該抽出処理部５２は、該抽出の輪郭形状に基づいて、動いている唇の、唇輪郭の縦幅の長さ（唇縦幅）及び唇輪郭の横幅の長さ（唇横幅）を動的に求める。これら唇縦幅及び唇横幅は、該発話区間内の各時点において求められる。なお、これら唇縦幅及び唇横幅は、唇輪郭の特徴を示す情報の一部となる。
【００７３】
等分処理部５３は、該発話区間を、時間長で等分し、等分されたものを時間経過順に、それそれ、前半区間と後半区間とする（時間軸における２等分）。そして、前半区間における唇縦幅の平均値、及び唇横幅の平均値を求め、これら平均値を「前半平均データ」として出力する。又、後半区間における唇縦幅の平均値、及び唇横幅の平均値を求め、これら平均値を「後半平均データ」として出力する。
【００７４】
図１４は、本実施形態の評価判定処理部４７の構成を示すブロック図である。
【００７５】
該評価判定処理部４７は、結合処理部６０と、分離処理部６１及び６２と、比較処理部６３〜６５と、評価処理部６６〜７２と、総合処理部７３とを有している。
【００７６】
結合処理部６０は、前述の唇形状特徴量抽出処理部４６が出力する「前半平均データ」及び「後半平均データ」を受け入れる。つまり、前半区間における「唇縦幅平均値データ」及び「唇横幅平均値データ」、後半区間における「唇縦幅平均値データ」及び「唇横幅平均値データ」を入力する。そして、「唇縦幅平均値データ」及び「唇横幅平均値データ」のそれぞれについて、前半区間におけるデータと後半区間におけるデータとで平均することによって、発話区間の全区間における唇縦幅平均値（「唇縦幅平均値データ」）及び唇横幅平均値（「唇横幅平均値データ」）を求め、それぞれ「縦幅データ」及び「横幅データ」として出力する。
【００７７】
分離処理部６１及び６２は、「前半平均データ」、あるいは「後半平均データ」を入力する。そして、「前半平均データ」であれば、前半区間における「唇縦幅平均値データ」を「縦幅（前）データ」として、又、前半区間における「唇横幅平均値データ」を「横幅（前）データ」として出力する。あるいは、「後半平均データ」であれば、後半区間における「唇縦幅平均値データ」を「縦幅（後）データ」として、又、後半区間における「唇横幅平均値データ」を「横幅（後）データ」として出力する。
【００７８】
評価処理部６６〜７２は、それぞれが入力するデータの値の評価を行い、該評価の結果を「評価値データ」として出力する。例えば、所定の閾値と比較し、入力したデータの値と該閾値との大小関係を示す情報を、該「評価値データ」として出力する。
【００７９】
比較処理部６３〜６５は、それぞれ２つのデータを入力する。又、該比較処理部６３〜６５は、入力した２つのデータの値の大小関係を判定し、該判定結果を示す情報を、「縦横比例データ」、「横幅変化データ」、「縦幅変化データ」として出力する。
【００８０】
総合処理部７３は、入力される複数のデータに基づいた判定や評価を行う。又、このような判定や評価の結果は、「判定結果データ」として出力する。
【００８１】
ここで、母音発声の場合、唇評価式は次のようになる。
【００８２】
唇の縦幅や横幅などのデータをｘとし、あるデータの閾値ｔｈ_nからの誤差量をｅ_nとする。そして、該誤差量ｅ_nを次のように定める。
【００８３】
閾値ｔｈ_n＜ｘであればｅ_n＝０とし、閾値ｔｈ_n＞ｘであればｅ_n＝｜ｘ−ｔｈ_n｜とする。
【００８４】
あるいは、閾値ｔｈ_n＞ｘであればｅ_n＝０とし、閾値ｔｈ_n＜ｘであればｅ_n＝｜ｘ−ｔｈ_n｜とする。
【００８５】
あるいは、常に、ｅ_n＝｜ｘ−ｔｈ_n｜とする。
【００８６】
そして、全体の誤差量を評価値Ｅとし、次式から求める。なお、次式においてα₁〜α_nは、多数のサンプルデータに基づいて求めればよい。あるいは、これらα₁〜α_nは、外部から設定可能なデータとしてもよい。又、計算用のｅ₁〜ｅ_nは、母音毎に、事前に手動にて設定したり、選択したりするようにしてもよい。
【００８７】
Ｅ＝α₁ｅ₁＋α₂ｅ₂＋α₃ｅ₃＋α₄ｅ₄＋……＋α_nｅ_n ……（４）
【００８８】
以上に説明したように、発音評価装置４５では、音声の発音に係り、唇の縦幅や横幅により、又適宜発話区間を時間軸において前半及び後半に分けることにより、簡潔で少ないデータ処理によって、該当の発音の、唇の輪郭の特徴を把握できるようにしている。
【００８９】
以下、本実施形態の作用について説明する。
【００９０】
まず、オペレータは、発音課題作成装置８において、練習対象者が発音練習する課題になる、単語や音節のリストを入力する。発音課題作成装置４０は、該入力を受け付け、そのリストを発音課題データベース装置４１に保存する。
【００９１】
このような単語や音節のリストが発音課題データベース装置４１に得られると、該リストは、発音課題データベース装置４１や発音課題データベース装置１３にアクセスすることによって、標準発音者装置７からも参照することができる。
【００９２】
図１５は、本実施形態の標準発音者装置７における画面表示の一例を示す表示画面図である。
【００９３】
標準発音者の操作に従って、標準発音者装置７の基礎データ収集装置１０は、図１５に示すような内容の画面を、画面表示装置３３０において表示することができる。該表示を目視しながら標準発音者は、マイクロフォン３３５に対して該当の発音を行う。又、該発音の際、標準発音者の唇は、画面表示装置３３０上に配置したビデオカメラ３３６によって撮影される。そして、基礎データ収集装置１０は、該発音の音声データ、及び該撮影のビデオデータを読み込み、標準発音評価判定装置１１へと出力する。
【００９４】
該標準発音評価判定装置１１は、これら音声データ及びビデオデータを入力すると、その音声評価判定処理部４４と発音評価装置４５によって判定や評価を行う。そして、該標準発音評価判定装置１１は、これら音声データ及びビデオデータ、又音声評価判定処理部４４と発音評価装置４５から出力される判定結果データを、判定用発音データベース装置１２に格納し保存する。
【００９５】
標準発音者は、このように標準発音者装置７において、課題データベース装置４１にある単語や音節の発音に係る情報を判定用発音データベース装置１２に保存していく。そして、このような情報を用い、練習対象者の発音の練習に際して、練習対象者の発音を評価したりすることになる。
【００９６】
図１６は、本実施形態の言語発音練習支援装置６における画面表示の一例を示す表示画面図である。
【００９７】
練習対象者の操作に従って、言語発音練習支援装置６の学習者用ユーザ・インターフェイス装置２０は、図１６に示すような内容の画面を、画面表示装置３３０において表示することができる。該表示を目視しながら練習対象者は、マイクロフォン３３５に対して該当の発音を行う。又、該発音の際、練習対象者の唇は、画面表示装置３３０上に配置したビデオカメラ３３６によって撮影される。そして、発音課題データベース装置３０は、該発音の音声データ、及び該撮影のビデオデータを読み込み、学習者データ収集装置２１へと出力する。
【００９８】
該学習者データ収集装置２１は、入力されるこれら音声データ及びビデオデータを、学習者発音データベース装置２２に保存すると共に、学習者発音評価エンジン装置２４に対して出力する。
【００９９】
該学習者発音評価エンジン装置２４は、これら音声データ及びビデオデータを入力すると、その音声評価判定処理部４４と発音評価装置４５によって判定や評価を行う。そして、該学習者発音評価エンジン装置２４は、該音声評価判定処理部４４と発音評価装置４５から出力される判定結果データを、学習管理データベース装置２６に格納し保存すると共に、学習管理装置２５に対して出力する。
【０１００】
該学習管理装置２５は、このような判定結果データを学習管理データベース装置２６に保存する。該学習管理装置２５では、各練習対象者の発話記録を記録、管理し評価フィードバック装置２８から利用可能にする。
【０１０１】
該学習管理装置２５は、評価フィードバック装置２８からの要求に応じ、学習管理データベース装置２６に保存した諸データを読み出し、該評価フィードバック装置２８に対して出力する。又、学習者発音評価エンジン装置２４により得られたデータに基づいて、練習対象者に対して提示する「アドバイス」を選択し、該評価フィードバック装置２８に対して出力する。該「アドバイス」は、評価フィードバック装置２８や学習者用ユーザ・インターフェイス装置２０を経て、画面表示装置３３０による画面表示や、プリンタ装置３３３による印刷出力により、練習対象者に対して提示されるものである。例えば次に述べる図１７の表示画面では、「アドバイス」欄に表示されている。
【０１０２】
図１７は、本実施形態の言語発音練習支援装置６において判定結果を表示する画面表示の一例を示す表示画面図である。
【０１０３】
該評価フィードバック装置２８は、上記の判定結果データなどを用いて、図１７に示すような内容の画面を、学習者用ユーザ・インターフェイス装置２０を経由して、画面表示装置３３０において練習対象者に対して表示する。練習対象者は、このような表示画面を参照しながら、発音練習を繰り返すことになる。
【０１０４】
以上に説明したように、本実施形態によれば、本発明を効果的に適用することができる。
【０１０５】
又、基礎データ収集装置１０や学習者用ユーザ・インターフェイス装置２０によれば、標準発音者や練習対象者は、発話者の唇をビデオカメラ３３６により正確に捉えることができ、又ビデオカメラ３３６によって得たビデオデータの画像をリアルタイムに画面表示装置３３０において表示し確認することもできる。又、これら基礎データ収集装置１０や学習者用ユーザ・インターフェイス装置２０によれば、発声する言葉（母音、単語、短文）を画面上に表示し、発話者の視線の移動を減少させて負担を軽くすることができる。
【０１０６】
更に、基礎データ収集装置１０では、データ収集後ビデオテープから発話を切り分けする手間を省くため、自動的に発話終了を判定し発話単位でデータを保存することができる。
【０１０７】
又、学習者発音評価エンジン装置２４によれば、標準発話者の発声と、人的な判定を組み合わせたデータの解析から得られた判定式を利用し、学習者の発話データを評価することができる。又、音声のみで行われていた発音の評価において、画像を組み合わせるマルチモーダル方式を採用することができる。それにより、音だけでは伝えられない発音の学習を行うことで学習効果を大きく向上できる。
【０１０８】
更に、学習者用ユーザ・インターフェイス装置２０によれば、練習対象者が発音を練習する際に、該発音の評価をすることができる。又、標準発音者による、標準となる発音を随時再生でき、発話の参考にすることができる。更に、図１７において「アドバイス」欄に図示されるように、学習者発音評価エンジン装置２４から出力される情報に基づいて、練習対象者に対して指導者側からのアドバイスを表示することができる。又、発話履歴をグラフ上に表示し、学習の進捗を明示できる。
【０１０９】
又、該学習者発音評価エンジン装置２４では、その内部においてソフトウェアの部品化を図ることにより、容易にこのような部品を用いて、スタンドアローンの学習システムから、ネットワーク経由の大規模システムまで対応可能となる。
【０１１０】
なお、本実施形態の変形例として、言語発音練習支援装置６の内の一部を、ＡＳＰサービス提供用サーバ装置９側において構成するようにしてもよい。つまり、言語発音練習支援装置６の内、練習対象者に対する入出力部分の側を、利用するクライアント装置５側に構成し、その他の部分は、ＡＳＰサービス提供用サーバ装置９側に構成するようにしてもよい。ここで、該変形例は、利用契約済みの複数の顧客を対象として、アプリケーション・プログラムによる様々なサービスを提供する、いわゆるＡＳＰのサービス提供の１つとしてもよい。
【産業上の利用可能性】
【０１１１】
以上説明したとおり、本願発明によれば、相手に言葉が通じ会話できるように、正しい発音を身に着ける練習をしていく、言語の習得を支援することができる言語発音練習支援システムを提供することができる。
【図面の簡単な説明】
【０１１２】
【図１】本願発明が適用された実施形態の言語発音練習支援システムの全体的な構成を示すブロック図
【図２】上記実施形態の各装置に用いるハードウェアの構成を示すブロック図
【図３】前記実施形態の主要部の構成を示すブロック図
【図４】前記実施形態の変形例の主要部を示すブロック図
【図５】上記該変形例の発音課題作成装置の構成を示すブロック図
【図６】前記該変形例の標準発音者装置の構成を示すブロック図
【図７】前記該変形例の言語発音練習支援装置の構成を示すブロック図
【図８】前記実施形態の標準発音評価判定装置や学習者発音評価エンジン装置の主要部の構成を示すブロック図
【図９】前記実施形態において主成分分析を行う前のフォルマントの分布を示すグラフ
【図１０】上記フォルマントに対して主成分分析を行った後の分布を示すグラフ
【図１１】前記実施形態においてＦ１’及びＦ２’の分布から計算された楕円関数を用いた評価マップを示すグラフ
【図１２】前記実施形態の発音評価装置の構成を示すブロック図
【図１３】前記実施形態の唇形状特徴量抽出処理部の構成を示すブロック図
【図１４】前記実施形態の評価判定処理部の構成を示すブロック図
【図１５】前記実施形態の標準発音者装置における画面表示の一例を示す表示画面図
【図１６】前記実施形態の言語発音練習支援装置における画面表示の一例を示す表示画面図
【図１７】前記実施形態の言語発音練習支援装置において判定結果を表示する画面表示の一例を示す表示画面図
【符号の説明】
【０１１３】
１…インターネット
５…クライアント装置
６…言語発音練習支援装置
７…標準発音者装置
８…発音課題作成装置
９…ＡＳＰサービス提供用サーバ装置
１０…基礎データ収集装置
１１…標準発音評価判定装置
１２、３２…判定用発音データベース装置
１３、３０、４１…発音課題データベース装置
２０…学習者用ユーザ・インターフェイス装置
２１…学習者データ収集装置
２２…学習者発音データベース装置
２４…学習者発音評価エンジン装置
２５…学習管理装置
２６…学習管理データベース装置
２８…評価フィードバック装置
４０…発音課題作成装置
４４…音声評価判定処理部
４５…発音評価装置
４６…唇形状特徴量抽出処理部
４７…評価判定処理部
５１…探索処理部
５２…抽出処理部
５３…等分処理部
６０…結合処理部
６１、６２…分離処理部
６３〜６５…比較処理部
６６〜７２…評価処理部
７３…総合処理部
３０１〜３０３…バス
３１０…ＣＰＵ
３１１…ＲＡＭ
３１２…ＲＯＭ
３１３…ＬＡＮ−Ｉ／Ｆ
３１４…ＭＯＤＥＭ
３２０〜３２２…Ｉ／Ｆ
３３０…画面表示装置
３３１…キーボード
３３２…マウス
３３３…プリンタ装置
３３５…マイクロフォン
３３６…ビデオカメラ
３４０…ＨＤＤ装置
３４１…ＣＤドライブ装置
３４２…ＦＤＤ装置

【特許請求の範囲】
【請求項１】
練習対象になる言語の手本となる発音をする、標準発音者が発音する言語の音声をマイクロフォンにより採取して、電気信号に変換し、該音声の信号に対して、周波数成分の分析を行い、
前記音声採取と同期して、ビデオカメラにより、標準発音者の唇を動画撮像して、ビデオデータを取得し、該ビデオデータに基づいて、唇の輪郭の特徴を抽出し、
同様の音声採取や周波数成分分析、又、動画撮像や唇輪郭特徴抽出を、言語発音の練習の対象者に対しても行い、
標準発音者及び練習対象者において、周波数成分の分析結果や、唇輪郭特徴の情報に基づいた判定を行って、練習対象者の発音の適正を判断するようにしたことを特徴とする言語発音練習支援方法。
【請求項２】
請求項１において、
前記周波数成分分析に際して、主成分分析による正規化処理を行うようにしたと共に、
該主成分分析処理に係るパラメータを、外部から設定可能なデータとしたことを特徴とする言語発音練習支援方法。
【請求項３】
請求項１又は２において、前記言語が中国語であって、
前記唇輪郭特徴抽出が、唇の縦幅及び横幅のそれぞれの測定であって、該測定結果を、前記発音適正判断に用いるようにしたことを特徴とする言語発音練習支援方法。
【請求項４】
請求項１乃至３のいずれか１つにおいて、
該当の発音の発話区間を、前記音声信号における音声の有無から判定し、
該発話区間における音声信号に対して、前記周波数成分分析を行うと共に、
該発話区間におけるビデオデータに対して、前記唇輪郭特徴抽出を行うようにしたことを特徴とする言語発音練習支援方法。
【請求項５】
請求項４において、前記言語が中国語であって、
前記発話区間を、前半及び後半に時間軸において２等分して、前半の唇輪郭特徴、及び後半の唇輪郭特徴の間における変化の度合いを計算し、
該計算結果を、前記発音適正判断に用いるようにしたことを特徴とする言語発音練習支援方法。
【請求項６】
練習対象になる言語の手本となる発音をする、標準発音者が発音する言語の音声をマイクロフォンにより採取して得られた電気信号を入力し、該音声の信号に対して、周波数成分の分析を行う基礎データ収集音声処理部と、
前記音声採取と同期して、ビデオカメラにより標準発音者の唇を動画撮像して得られたビデオデータを入力し、該ビデオデータに基づいて、唇の輪郭の特徴を抽出する基礎データ収集画像処理部と、
前記周波数成分分析の結果、及び唇輪郭特徴抽出の結果に基づく情報を格納する判定用音声データベース装置と、
を備えたことを特徴とする標準発音者装置。
【請求項７】
言語発音の練習の対象者が発音する言語の音声をマイクロフォンにより採取して得られた電気信号を入力し、該音声の信号に対して、周波数成分の分析を行う学習者データ収集音声処理部と、
前記音声採取と同期して、ビデオカメラにより練習対象者の唇を動画撮像して得られたビデオデータを入力し、該ビデオデータに基づいて、唇の輪郭の特徴を抽出する学習者データ収集画像処理部と、
請求項６記載の判定用音声データベース装置に格納された情報を複製格納した判定用音声データベース装置と、
標準発音者及び練習対象者において、周波数成分の分析結果や、唇輪郭特徴の情報に基づいた判定を行って、練習対象者の発音の適正を判断する学習者発音評価エンジン装置と、
を備えたことを特徴とする言語発音練習支援装置。
【請求項８】
請求項７において、少なくとも前記判定用音声データベース装置を、インターネットで接続するＡＳＰサービス提供用サーバ装置側に設けるようにしたことを特徴とする言語発音練習支援装置。

【図１】