説明

発音評価装置

【課題】発音や歌唱の評価対象とする音声からお手本音声を収録して得たものを確実に排除すること。
【解決手段】お手本音声をユーザの音声と異なるサンプリング周波数でサンプリングして音声データ化する。そして、お手本音声を音声データ化する際にローパスフィルタに設定した周波数よりも高い周波数の成分がユーザの音声の音声データに所定値以上含まれていない場合には、お手本そのものが入力されているとみなしてその音声データを評価対象から除外する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、発音評価装置に関する。
【背景技術】
【0002】
発音評価や歌唱評価の分野においては、お手本として準備された音声データとユーザがそのお手本を模して発音した音声データの類似度を比較することによって発音や歌唱の巧拙を評価するシステムが提案されている。例えば、特許文献1に記載された発音採点システムは、まず、お手本として準備しておいた語学教材の音声をスピーカから放音し、その音声を模してユーザが発音した音声をマイクロホン等を介して収録する。そして、収録した音声を分析することによって、ストレスアクセント、トニックアクセント、イントネーションアクセントなどの特徴量を抽出し、更にその特徴量をお手本の音声データから抽出しておいた特徴量と比較することによって発音の巧拙を評価するようになっている。
【特許文献1】特開2000−347560号公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
ところで、この種のシステムを利用するユーザの中には、良好な評価結果を不正に取得するため、放音されるお手本の音声を録音等して自らの音声として入力する者もあった。よって、そのような不正な手法により入力される音声を評価対象から確実に排除する仕組みの提供が望まれていた。
本発明は、このような背景の下に案出されたものであり、発音や歌唱の評価対象とする音声からお手本音声を収録して得たものを確実に排除できるような仕組みを提供することを目的とする。
【課題を解決するための手段】
【0004】
本発明の好適な態様である発音評価装置は、お手本音声の入力信号から、予め設定された所定周波数よりも高い帯域の成分を除去して得たお手本音声データを記憶するお手本音声データ記憶手段と、お手本音声を模して発音されたユーザ音声信号を入力する入力手段と、前記入力されたユーザ音声信号における前記所定周波数より高い帯域の成分の信号レベルが所定値を上回っているか否か判断する判断手段と、前記帯域の成分の信号レベルが所定値を上回っていると前記判断手段が判断したとき、前記ユーザ音声データと前記お手本音声データ記憶手段から読み出したお手本音声データの類似度を比較することによって発音の巧拙を評価し、その評価結果を出力する評価手段とを備える。
【0005】
本発明の別の好適な態様である発音評価装置は、お手本音声の入力信号から、予め設定された所定周波数よりも高い帯域の成分を除去し、その残りの成分の非可聴帯域に所定の信号を挿入したお手本音声データを記憶するお手本音声データ記憶手段と、お手本音声を模して発音されたユーザ音声信号を入力する入力手段と、前記入力されたユーザ音声信号の非可聴帯域に含まれる成分の信号レベルが所定値を上回っているか否か判断する判断手段と、前記非可聴帯域の成分の信号レベルが所定値を上回っていないと前記判断手段が判断したとき、前記ユーザ音声データと前記お手本音声データ記憶手段から読み出したお手本音声データの類似度を比較することによって発音の巧拙を評価し、その評価結果を出力する評価手段とを備える。
【発明の効果】
【0006】
本発明によると、発音や歌唱の評価対象とする音声からお手本音声を収録して得たものを確実に排除することができる。
【発明を実施するための最良の形態】
【0007】
(第1実施形態)
本願発明の第1実施形態について説明する。
本実施形態にかかる発音評価装置は、以下の2つの動作モード毎に異なる振る舞いを行う。
aお手本収録モード
このモードは、ネイティブスピーカなどの外国語講師のお手本の音声をマイクを介して収音し、収音した音声をアナログ/デジタル(以下、「A/D」)変換して得た音声データをデータベースに収録するモードである。
b発音評価モード
このモードは、お手本収録モードを通じて収録しておいた音声データを外国語の学習者であるユーザに提示した上でそれを模してユーザに発音させた音声を収音し、収音した音声をA/D変換して得た音声データとお手本の音声データとの類似度を比較することによって発音の巧拙を評価するモードである。
【0008】
本実施形態の特徴は、発音評価モード時に収音する音声の音声データの周波数特性とお手本の音声をA/D変換した際の各種周波数設定とを比較することによって、収音した音声がお手本の音声と同じであるかどうか判断し、同じものである場合には真正でないとして評価対象から排除するようにした点である。
【0009】
図1は、本実施形態に係る発音評価装置の全体構成図である。図に示すように、この装置は、操作部10、お手本音声データベース11、評価済み音声データベース12、マイクロホン13、A/D変換部14、再生制御部15、デジタル/アナログ(以下、「D/A」と記す)変換部16、スピーカ17、評価対象判断制御部18、評価制御部19、及びディスプレイ20を備える。
各部の機能を概説する。
操作部10は、本装置の動作モードを切り換える。
お手本音声データベース11は、お手本収録モードにおいて収音した音声の音声データを蓄積記憶する。評価済み音声データベース12は発音評価モードにおいて収音した音声の音声データであって且つ発音の巧拙の評価を終えた音声データを蓄積記憶する。
マイクロホン13は、収音した音声のアナログ信号をA/D変換部14へ供給する。
【0010】
A/D変換部14は、ローパスフィルタ21、カットオフ周波数設定部22、サンプリング部23、サンプリング周波数設定部24、量子化部25、符号化部26を内蔵する。
ローパスフィルタ21は、マイクロホン13からアナログ信号が供給されると、自身に設定されたカットオフ周波数よりも高い帯域の成分をそのアナログ信号から除去してサンプリング部23へ供給する。カットオフ周波数設定部22は、お手本収録モード用として最適化された第1のカットオフ周波数と発音評価モード用として最適化された第2のカットオフ周波数のうちの一方を操作部10の操作に応じてローパスフィルタ21に設定する。
ここで、お手本収録モード時に設定される第1のカットオフ周波数と発音評価モード時に設定される第2のカットオフ周波数は異なる値である必要があり、且つ第1のカットオフ周波数は第2のカットオフ周波数よりも低い値とすることが望ましい。
【0011】
サンプリング部23は、ローパスフィルタ21からアナログ信号が供給されると、自身に設定されたサンプリング周波数が示す間隔でそのアナログ信号を瞬時値に変換する。サンプリング周波数設定部24は、お手本収録モードになると、第1のカットオフ周波数の2倍の周波数をサンプリング周波数としてサンプリング部23へ設定する一方で、発音評価モードになると、第2のカットオフ周波数の2倍の周波数をサンプリング周波数としてサンプリング部23へ設定する。
サンプリング部23にて取得された瞬時値は、量子化部25による量子化を経た後に符号化部26へ供給され、符号化部26において所定ビット長のデジタル信号へと変換される。このデジタル信号は、お手本収録モード時にはお手本音声データとしてお手本音声データベース11に記憶される一方、発音評価モード時にはユーザ音声データとして評価対象判断制御部18へ供給される。
【0012】
再生制御部15は、発音評価モード時において、お手本音声データベース11から読み出したお手本音声データをD/A変換部16へ供給する。お手本音声データは、D/A変換部16にてアナログ信号に変換された後、スピーカ17から音声として放音される。
評価対象判断制御部18は、A/D変換部14の符号化部26から供給される音声データが表す音声とお手本音声データが表す音声が同じものであるか否か判断し、同じものでない場合にのみその音声データをユーザ音声データとして評価制御部19へ供給する。評価対象判断制御部18は、本システムにおいて中核的役割を担う部位であり、その動作の詳細は後の動作説明の項で説明する。
評価制御部19は、評価対象判断制御部18から供給されるユーザ音声データとお手本音声データの特徴を比較することによって発音の巧拙を評価し、その評価結果をディスプレイ20に出力する。ディスプレイ20には、評価結果を表す画像が表示される。
【0013】
次に、本実施形態の動作を説明する。
本実施形態の動作は、お手本収録処理と発音評価処理とに大別できる。
図2は、お手本収録処理を示すフローチャートである。
図に示す処理は、操作部10の操作によって動作モードがお手本収録モードに切り換えられたことをトリガーとして開始される。
動作モードがお手本収録モードに切り換えられると、A/D変換部14のカットオフ周波数設定部22は、第1のカットオフ周波数をローパスフィルタ21に設定する(S100)。
続いて、A/D変換部14のサンプリング周波数設定部24は、第1のカットオフ周波数の2倍の周波数をサンプリング周波数としてサンプリング部23に設定する(S110)。
その後、お手本発音要求画面をディスプレイ20に表示する(S120)。この画面には、「お手本の音声を発音してください。」という内容の文字列が表示される。
お手本発音要求画面を参照した外国語講師は、お手本音声を自ら発音する。発音された音声がマイクロホン13によって収音されると、その音声のアナログ信号はA/D変換部14にて音声データに変換され、お手本音声データとしてお手本音声データベース11に記憶される(S130)。
【0014】
図3は、発音評価処理を示すフローチャートである。
図に示す処理は、操作部10の操作によって動作モードが発音評価モードに切り換えられたことをトリガーとして開始される。
動作モードが発音評価モードに切り換えられると、A/D変換部14のカットオフ周波数設定部22は、第2のカットオフ周波数をローパスフィルタ21に設定する(S200)。
続いて、A/D変換部14のサンプリング周波数設定部24は、第2のカットオフ周波数の2倍の周波数をサンプリング周波数としてサンプリング部23に設定する(S210)。
【0015】
その後、再生制御部15は、お手本音声データベース11に記憶されているお手本音声データを読み出し、D/A変換部16へ供給する(S220)。すると、お手本音声がスピーカ17から放音される。
スピーカ17から放音されるお手本音声を聴取したユーザは、そのお手本音声を模して発音する。発音された音声がマイクによって収音されると、その音声のアナログ信号はA/D変換部14にて音声データに変換され、評価対象判断制御部18へ供給される(S230)。
【0016】
音声データの供給を受けた評価対象判断制御部18は、第1のカットオフ周波数と第2のカットオフ周波数の間の帯域の成分をその音声データから抽出する(S240)。
評価対象判断制御部18は、ステップ240で抽出した成分の信号レベルが所定値を上回っているか否か判断する(S250)。
【0017】
ステップ250にて、信号レベルが所定値を上回っていないと判断した評価対象判断制御部18は、評価拒否画面をディスプレイ20に表示させる(S260)。この画面には、「お手本をそのまま入力した場合には、評価の対象になりません。」という内容の文字列が表示される。
【0018】
一方、ステップ250にて、信号レベルが所定値を上回っていると判断した評価対象判断制御部18は、A/D変換部14から供給された音声データをユーザ音声データとして評価制御部19へ供給する(S270)。
評価制御部19は、ユーザ音声データとお手本音声データベース11から読み出していたお手本音声データの類似度を比較することによって発音の巧拙を評価し、その評価結果をディスプレイ20に表示させる(S280)。
その後、評価制御部19は、評価対象となったユーザ音声データを評価済み音声データベース12に記憶する(S290)。
【0019】
ここで、第1のカットオフ周波数と第2のカットオフ周波数の間の帯域の成分の信号レベルを参照することによって評価対象が選別される原理について、図を参照して説明する。
図4(a)はお手本音声データの周波数特性を示す図であり、図4(b)は真正なユーザ音声データの周波数特性を示す図である。上述したように、お手本収録モードにおいては、第1のカットオフ周波数がA/D変換部14のローパスフィルタ21に設定されるので、このモードで収音した音声から得られるお手本音声データには第1のカットオフ周波数よりも高い帯域の成分はほとんど含まれないはずである。一方で、発音評価モードにおいては、第1のカットオフ周波数よりも高い周波数である第2のカットオフ周波数がA/D変換部14のローパスフィルタ21に設定されるので、このモードで収音した音声から得られるユーザ音声データには第1のカットオフ周波数よりも高い帯域の成分も含まれているはずである。従って、発音評価モードで収音した音声の音声データであるにもかかわらず、第1のカットオフ周波数と第2のカットオフ周波数の間の帯域の成分の信号レベルが所定値を下回っている場合、ユーザ自身の肉声ではなくお手本音声そのものが入力されていると判断することができる。図3のステップ240乃至ステップ270に示す評価対象判断制御部18の振る舞いは、この判断過程をアルゴリズム化したものである。
【0020】
以上説明した本実施形態では、お手本収録モードにおいてローパスフィルタ21に設定した周波数よりも高い周波数の成分が発音評価モードにて収音した音声の音声データに所定値以上含まれていない場合、お手本そのものが入力されているとみなしてその音声データを評価対象から除外するようになっている。これにより、お手本の音声を自らの音声として入力してくるような悪意のユーザを確実に排除することができる。
【0021】
(第2実施形態)
本願発明の第2実施形態について説明する。
本実施形態の特徴は、お手本音声データの非可聴帯域に信号を埋め込んでおき、音声評価モードにて収音された音声の音声データからその信号が抽出された場合には真正でないとして評価対象から排除するようにした点である。
図5は、本実施形態に係る発音評価装置の全体構成図である。図に示すように、本装置の構成はA/D変換部14の内部を除いて第1実施形態と同様である。A/D変換部14は、透かし信号合成部27、ローパスフィルタ21、サンプリング部23、量子化部25、符号化部26を内蔵する。このA/D変換部14は、カットオフ周波数設定部22とサンプリング周波数設定部24を有しておらず、ローパスフィルタ21に設定されるカットオフ周波数とサンプリング部23に設定されるサンプリング周波数は動作モードの如何に係わらず固定値となる。透かし信号合成部27は、お手本収録モードにてマイクロホン13が収音した音声のアナログ信号に変調処理を施して得た透かし信号をそのアナログ信号の検証信号埋め込み帯域に合成する。検証信号埋め込み帯域は、透かし信号を埋め込む帯域として非可聴帯域の中から選定された特定の帯域である。これにより、お手本収録モードにおいてマイクロホン13が収音した音声からは、非可聴帯域の一部に透かし信号が埋め込まれたお手本音声データが取得されることになる。
【0022】
次に、本実施形態の動作を説明する。
本実施形態の動作は、お手本収録処理と発音評価処理とに大別できる。お手本収録処理は、ローパスフィルタ21のカットオフ周波数とサンプリング部23のサンプリング周波数が固定値であるためステップ100及びステップ110が実行されない点を除いて、図2に示したところと同様である。
【0023】
図6は、発音評価処理を示すフローチャートである。
図に示す処理は、操作部10の操作によって動作モードが発音評価モードに切り換えられたことをトリガーとして開始される。
動作モードが発音評価モードに切り換えられると、再生制御部15は、お手本音声データベース11に記憶されているお手本音声データを読み出し、D/A変換部16へ供給する(S221)。すると、お手本音声がスピーカ17から放音される。本実施形態においては、ローパスフィルタ21のカットオフ周波数とサンプリング部23のサンプリング周波数が固定値であるため図3のステップ200及びステップ210に相当する処理は実行されない。
スピーカ17から放音されるお手本音声を聴取したユーザは、そのお手本音声を模して発音する。発音された音声がマイクによって収音されると、その音声のアナログ信号はA/D変換部14にて音声データに変換され、評価対象判断制御部18へ供給される(S231)。
音声データの供給を受けた評価対象判断制御部18は、検証信号埋め込み帯域の成分をその音声データから抽出する(S241)。
評価対象判断制御部18は、ステップ241で抽出した成分の信号レベルが所定値を上回っているか否か判断する(S251)。
ステップ251にて、信号レベルが所定値を上回っていると判断されると図3に示すステップ260の処理が実行される一方、信号レベルが所定値を上回っていないと判断されると図3に示すステップ270以降の処理が実行される。
【0024】
ここで、検証信号埋め込み帯域の成分の信号レベルを参照することによって評価対象が選別される原理について、図を参照して説明する。
図7(a)はお手本音声データの周波数特性を示す図であり、図7(b)は真正なユーザ音声データの周波数特性を示す図である。上述したように、お手本収録モードにおいては、透かし信号合成部27が動作するので、このモードで収音した音声から得られる音声データには検証信号埋め込み帯域に所定値以上の成分が含まれているはずである。一方で、発音評価モードにおいては、透かし信号合成部27が動作しないので、このモードで収音した音声から得らる音声データには検証信号埋め込み帯域の成分がほとんど含まれないはずである。従って、発音評価モードで収音した音声の音声データであるにもかかわらず検証信号埋め込み帯域の成分の信号レベルが所定値を上回っている場合、ユーザ自身の肉声ではなくお手本音声そのものが入力されていると判断することができる。図6のステップ241乃至ステップ270に示す評価対象判断制御部18の振る舞いは、この判断過程をアルゴリズム化したものである。
【0025】
以上説明した本実施形態では、お手本音声の非可聴帯域に透かし信号を埋め込んだ上で音声データ化する一方、その非可聴帯域の成分が発音評価モードにおいて収音した音声の音声データに所定値以上含まれている場合には、お手本そのものが入力されているとみなしてその音声データを評価対象から除外するようになっている。よって、本実施形態によっても、お手本の音声を自らの音声として入力してくるような悪意のユーザを確実に排除することができる。
【0026】
(他の実施形態)
本実施形態は、種々の変形実施が可能である。
上記実施形態は、本願発明を外国語学習の評価に適用したものであったが、これを歌唱評価に適用してもよい。
第2実施形態の透かし信号合成部27は、マイクロホン13から入力されたアナログ信号の検証信号埋め込み帯域に透かし信号を挿入するようになっていた。これに対し、サンプリング部23、量子化部25、符号化部26を経てアナログ信号がデジタル信号化された段階で透かし信号を挿入するようにしてもよい。
本願発明は、上記実施形態に示すようなスタンドアロンのシステム構成のみならず、ネットワークを利用したサーバ・クライアントのシステム構成にも適用可能である。係る変形例においては、上記実施形態の発音評価装置に相当する機能と通信機能とを備えたサーバ装置をネットワーク上に設置する。そして、ユーザは、端末装置からサーバ装置にアクセスし、自らの音声を収音して得た音声データをサーバ装置へ送信するなどして評価サービスの提供を受けることになる。
上記実施形態におけるサンプリング周波数設定部24は、ローパスフィルタ21のカットオフ周波数の2倍の周波数をサンプリング周波数としてサンプリング部23へ設定するようになっていたが、2倍よりも大きい周波数をサンプリング周波数として設定するようにしてもよい。
上記実施形態においては、A/D変換部14にローパスフィルタ21を内蔵させ、アナログ信号の段階で所定周波数よりも高い帯域の成分を除去するようにしていたが、ローパスフィルタ21を符号化部26の後方に配置し、同部26によって音声がデジタル信号化された段階で所定周波数よりも高い帯域の成分を除去するようにしてもよい。
第1実施形態における評価対象判断制御部18は、ユーザの音声がデジタル信号化された段階で第1のカットオフ周波数と第2のカットオフ周波数の間の帯域の成分を抽出し、また、第2実施形態における同部18も同様に、ユーザの音声がデジタル信号化された段階で検証信号埋め込み帯域の成分を抽出するようになっていた。これに対し、デジタル信号化される前のアナログ信号の段階でそれらの特定帯域の成分を抽出するようにしてもよい。
第2実施形態において、検証信号埋め込み帯域に付加する透かし信号は、純音を振幅変調、または周波数変調した信号としてもよい。純音の場合は非可聴帯域であっても聴取可能となる場合もあるが、これにより、純音であってもより聴き取りにくい透かし信号とすることができる。
【図面の簡単な説明】
【0027】
【図1】発音評価装置の全体構成図である。
【図2】お手本収録処理を示すフローチャートである。
【図3】発音評価処理を示すフローチャートである。
【図4】音声データの周波数特性を示す図である。
【図5】発音評価装置の全体構成図である(第2実施形態)。
【図6】発音評価処理を示すフローチャートである(第2実施形態)。
【図7】音声データの周波数特性を示す図である(第2実施形態)。
【符号の説明】
【0028】
11…お手本音声データベース、12…評価済み音声データベース、13…マイクロホン、14…A/D変換部、15…再生制御部、16…D/A変換部、17…スピーカ、18…評価対象判断制御部、19…評価制御部、20…ディスプレイ、21…ローパスフィルタ、22…カットオフ周波数設定部、23…サンプリング部、24…サンプリング周波数設定部、25…量子化部、26…符号化部、27…透かし信号合成部

【特許請求の範囲】
【請求項1】
お手本音声の入力信号から、予め設定された所定周波数よりも高い帯域の成分を除去して得たお手本音声データを記憶するお手本音声データ記憶手段と、
お手本音声を模して発音されたユーザ音声信号を入力する入力手段と、
前記入力されたユーザ音声信号における前記所定周波数より高い帯域の成分の信号レベルが所定値を上回っているか否か判断する判断手段と、
前記帯域の成分の信号レベルが所定値を上回っていると前記判断手段が判断したとき、前記ユーザ音声データと前記お手本音声データ記憶手段から読み出したお手本音声データの類似度を比較することによって発音の巧拙を評価し、その評価結果を出力する評価手段と
を備えた発音評価装置。
【請求項2】
お手本音声の入力信号から、予め設定された所定周波数よりも高い帯域の成分を除去し、その残りの成分の非可聴帯域に所定の信号を挿入したお手本音声データを記憶するお手本音声データ記憶手段と、
お手本音声を模して発音されたユーザ音声信号を入力する入力手段と、
前記入力されたユーザ音声信号の非可聴帯域に含まれる成分の信号レベルが所定値を上回っているか否か判断する判断手段と、
前記非可聴帯域の成分の信号レベルが所定値を上回っていないと前記判断手段が判断したとき、前記ユーザ音声データと前記お手本音声データ記憶手段から読み出したお手本音声データの類似度を比較することによって発音の巧拙を評価し、その評価結果を出力する評価手段と
を備えた発音評価装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2007−121628(P2007−121628A)
【公開日】平成19年5月17日(2007.5.17)
【国際特許分類】
【出願番号】特願2005−312768(P2005−312768)
【出願日】平成17年10月27日(2005.10.27)
【出願人】(000004075)ヤマハ株式会社 (5,930)
【Fターム(参考)】