説明

発音評定装置、およびプログラム

【課題】従来の語学学習装置では、標準音データと学習者の発音の類似度の評定の精度が低く、また、リアルタイムに高速に点数を表示するためには、処理能力が極めて高いCPU、多量のメモリが必要であった。
【解決手段】比較される対象の音声に関するデータであり、音韻毎の隠れマルコフモデル(HMM)に基づくデータである教師データを1以上格納しており、音声入力を受け付ける音声受付部と、前記受け付けた音声を、フレームに区分するフレーム区分部と、前記区分されたフレーム毎の音声データであるフレーム音声データを1以上得るフレーム音声データ取得部と、前記教師データと前記1以上のフレーム音声データに基づいて、前記音声受付部が受け付けた音声の評定を行う評定部と、前記評定部の評定結果を出力する出力部を具備する発音評定装置により、両者の類似度の評定の精度を高くすることができる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、入力された音声を評価する装置等に関し、特に、語学学習等に利用できる発音評定装置等に関するものである。
【背景技術】
【0002】
従来の技術として、以下の語学学習装置がある(特許文献1参照)。本語学学習装置は、学習者が選択した役割の発音をレファランスデータと比較して一致度によって点数化して表示し、点数によって適当な次の画面を自動に表示することにより、学習能率を向上させる装置である。本従来の語学学習装置は、入力された音声信号は音声認識技術により分析された後、学習者発音のスペクトルと抑揚とが学習者発音表示ボックスに表れるという構成になっている。そして、従来の技術においては、標準音データと学習者の発音のスペクトル、および抑揚が比較されて点数が表示される。
【特許文献1】特開2003−228279(第1頁、第1図等)
【発明の開示】
【発明が解決しようとする課題】
【0003】
しかし、従来の技術においては、標準音データと学習者の発音のスペクトル、および抑揚が比較されて点数が表示される構成であるので、両者の類似度の評定の精度が低く、また、リアルタイムに高速に点数を表示するためには、処理能力が極めて高いCPU、多量のメモリが必要であった。
【課題を解決するための手段】
【0004】
本第一の発明の発音評定装置は、比較される対象の音声に関するデータであり、音韻毎に連結したデータである教師データを1以上格納している教師データ格納部と、音声の入力を受け付ける音声受付部と、前記音声受付部が受け付けた音声を、フレームに区分するフレーム区分部と、前記区分されたフレーム毎の音声データであるフレーム音声データを1以上得るフレーム音声データ取得部と、前記教師データと前記1以上のフレーム音声データに基づいて、前記音声受付部が受け付けた音声の評定を行う評定部と、前記評定部の評定結果を出力する出力部を具備する発音評定装置である。
【0005】
かかる発音評定装置は、音韻毎に連結したデータである教師データとフレーム分割された入力音声データを用いて、比較対象の音声と入力音声の類似度を評定することができるので、両者の類似度の評定の精度を高く、高速に行うことができる。なお、教師データは、比較される対象の音声に関するデータであり、音韻毎の隠れマルコフモデルを連結したHMMに基づくデータであることは好適である。
【0006】
また、本第二の発明の発音評定装置は、第一の発明の発音評定装置において、前記教師データは、音韻毎の隠れマルコフモデル(HMM)を連結したHMMに基づくデータであり、前記評定部は、前記1以上のフレーム音声データのうちの少なくとも一の最適状態を決定する最適状態決定手段と、前記最適状態決定手段が決定した最適状態における確率値を取得する最適状態確率値取得手段と、前記最適状態確率値取得手段が取得した確率値をパラメータとして音声の評定値を算出する評定値算出手段を具備する発音評定装置である。
かかる構成により、比較対象の音声と入力音声の類似度の評定を精度高く、かつ高速にできる。
【0007】
また、本第三の発明の発音評定装置は、第一の発明の発音評定装置において、前記教師データは、音韻毎の隠れマルコフモデル(HMM)を連結したHMMに基づくデータであり、前記評定部は、前記1以上のフレーム音声データのうちの少なくとも一の最適状態を決定する最適状態決定手段と、前記最適状態決定手段が決定した最適状態を有する音韻全体の状態における1以上の確率値を取得する音韻確率値取得手段と、前記音韻確率値取得手段が取得した1以上の確率値をパラメータとして音声の評定値を算出する評定値算出手段を具備する発音評定装置である。
【0008】
かかる構成により、比較対象の音声と入力音声の類似度の評定を精度高く、かつ高速にできる。また、かかる構成の発音評定装置により、第二の発明の発音評定装置と比較しても、評定値のパラメータで用いる確率値が、各フレームにおけるすべての音韻の中で最適な音韻の事後確率(確率値)を表しており、測定したい類似度(いわゆる音韻らしさ)を精度良く、安定して求めることができる。
【0009】
また、本第四の発明の発音評定装置は、第一の発明の発音評定装置において、前記教師データは、音韻毎の隠れマルコフモデル(HMM)を連結したHMMに基づくデータであり、前記評定部は、前記1以上のフレーム音声データの最適状態を決定する最適状態決定手段と、前記最適状態決定手段が決定した最適状態の確率値を、発音区間毎に取得する発音区間確率値取得手段と、前記発音区間確率値取得手段が取得した1以上の発音区間毎の1以上の確率値をパラメータとして音声の評定値を算出する評定値算出手段を具備する発音評定装置である。
【0010】
かかる構成により、比較対象の音声と入力音声の類似度の評定を精度高く、かつ高速にできる。また、かかる構成の発音評定装置により、上記の発明の発音評定装置と比較しても、発音区間単位での類似度を評定でき、かつ計算量の多大な増加を招くことがない。
また、本第五の発明の発音評定装置は、第一の発明の発音評定装置において、前記教師データは、音韻毎の隠れマルコフモデル(HMM)を連結したHMMに基づくデータであり、前記評定部は、前記1以上のフレーム音声データの最適状態を決定する最適状態決定手段と、前記最適状態決定手段が決定した各フレームの最適状態を有する音韻全体の状態における1以上の確率値を、発音区間毎に取得する発音区間フレーム音韻確率値取得手段と、前記発音区間フレーム音韻確率値取得手段が取得した1以上の発音区間毎の1以上の確率値をパラメータとして音声の評定値を算出する評定値算出手段を具備する発音評定装置である。
【0011】
かかる構成により、比較対象の音声と入力音声の類似度の評定を精度高く、かつ高速にできる。また、かかる構成の発音評定装置により、上記の発明の発音評定装置と比較しても、発音区間単位での類似度を精度良く、安定して評定でき、かつ計算量の多大な増加を招くことがない。
【発明の効果】
【0012】
本発明による発音評定装置によれば、比較対象の音声と入力音声の類似度の評定を精度高く、かつ高速にできる。
【発明を実施するための最良の形態】
【0013】
以下、発音評定装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
(実施の形態1)
【0014】
本実施の形態において、比較対象の音声と入力音声の類似度の評定を精度高く、かつ高速にできる発音評定装置について説明する。特に、本発音評定装置は、入力音声のフレームに対する最適状態の事後確率を、動的計画法を用いて算出することから、当該事後確率をDAP(Dynamic A Posteriori Probability)と呼び、DAPに基づく類似度計算法および発音評定装置をDAPSと呼ぶ。
【0015】
また、本実施の形態における発音評定装置は、例えば、語学学習や物真似練習などに利用できる。図1は、本実施の形態における発音評定装置のブロック図である。本発音評定装置は、入力受付部101、教師データ格納部102、音声受付部103、フレーム区分部104、フレーム音声データ取得部105、評定部106、出力部107を具備する。評定部106は、最適状態決定手段1061、最適状態確率値取得手段1062、評定値算出手段1063を具備する。
【0016】
入力受付部101は、発音評定装置の動作開始を指示する動作開始指示や、入力した音声の評定結果の出力態様の変更を指示する出力態様変更指示や、処理を終了する終了指示などの入力を受け付ける。かかる指示等の入力手段は、テンキーやキーボードやマウスやメニュー画面によるもの等、何でも良い。入力受付部101は、テンキーやキーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。
【0017】
教師データ格納部102は、教師データとして比較される対象の音声に関するデータであり、音韻毎の隠れマルコフモデル(HMM)に基づくデータを1以上格納している。教師データは、音韻毎の隠れマルコフモデル(HMM)を連結したHMMに基づくデータであることが好適である。また、教師データは、入力される音声を構成する音素に対応するHMMを、入力順序に従って連結されているHMMに基づくデータであることが好適である。ここで、「入力順序」とは、音声受付部103が受け付ける音声の並び、順序のことである。ただし、教師データは、必ずしも、音韻毎のHMMを連結したHMMに基づくデータである必要はない。教師データは、全音素のHMMの、単なる集合であっても良い。また、教師データは、必ずしもHMMに基づくデータである必要はない。教師データは、単一ガウス分布モデルや、確率モデル(GMM:ガウシャンミクスチャモデル)や、統計モデルなど、他のモデルに基づくデータでも良い。HMMに基づくデータは、例えば、フレーム毎に、状態識別子と遷移確率の情報を有する。また、HMMに基づくデータは、例えば、複数の学習対象言語を母国語として話す外国人が発声した2以上のデータから学習した(推定した)モデルでも良い。教師データ格納部102は、ハードディスクやROMなどの不揮発性の記録媒体が好適であるが、RAMなどの揮発性の記録媒体でも実現可能である。
【0018】
音声受付部103は、音声の入力を受け付ける。音声受付部103は、例えば、マイクのドライバーソフトで実現され得る。また、なお、音声受付部103は、マイクとそのドライバーから実現されると考えても良い。音声は、マイクから入力されても良いし、磁気テープやCD−ROMなどの記録媒体から読み出すことにより入力されても良い。
【0019】
フレーム区分部104は、音声受付部103が受け付けた音声を、フレームに区分する。フレーム区分部104は、通常、MPUやメモリ等から実現され得る。フレーム区分部104の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
【0020】
フレーム音声データ取得部105は、フレーム区分部104が区分したフレーム毎の音声データであるフレーム音声データを1以上得る。フレーム音声データ取得部105は、通常、MPUやメモリ等から実現され得る。フレーム音声データ取得部105の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
【0021】
評定部106は、教師データ格納部102の教師データと、フレーム音声データ取得部105が取得した1以上のフレーム音声データに基づいて、音声受付部103が受け付けた音声の評定を行う。評定方法の具体例は、後述する。評定部106は、通常、MPUやメモリ等から実現され得る。評定部106の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
【0022】
出力部107は、評定部106の評定結果を出力する。出力部107の出力態様は、種々考えられる。出力とは、ディスプレイへの表示、プリンタへの印字、音出力、外部の装置への送信、記録媒体への蓄積等を含む概念である。出力部107は、例えば、評定部106の評定結果を視覚的に表示する。出力部107は、例えば、フレーム単位、または/および音素・単語単位、または/および発声全体の評定結果を視覚的に表示する。また、「出力態様」が異なるとは、例えば、出力デバイス(ディスプレイやプリンタなど)が異なることや、出力する情報(フレーム単位の評定結果や、発声全体の評定結果など)が異なることを言う。出力部107は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。出力部107は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。
【0023】
評定部106を構成している最適状態決定手段1061は、1以上のフレーム音声データのうちの少なくとも一のフレーム音声データに対する最適状態を決定する。最適状態決定手段1061は、例えば、全音韻HMMから、比較される対象(学習対象)の単語や文章などの音声を構成する1以上の音素に対応するHMMを取得し、当該取得した1以上のHMMを、音素の順序で連結したデータ(比較される対象の音声に関するデータであり、音韻毎の隠れマルコフモデルを連結したHMMに基づくデータ)を構成する。そして、構成した当該データ、および取得した特徴ベクトル系列を構成する各特徴ベクトルoに基づいて、所定のフレームの最適状態(特徴ベクトルoに対する最適状態)を決定する。なお、最適状態を決定するアルゴリズムは、例えば、Viterbiアルゴリズムである。また、教師データは、上述の比較される対象の音声に関するデータであり、音韻毎の隠れマルコフモデルを連結したHMMに基づくデータと考えても良いし、連結される前のデータであり、全音韻HMMのデータと考えても良い。
最適状態確率値取得手段1062は、最適状態決定手段1061が決定した最適状態における確率値を取得する。
【0024】
評定値算出手段1063は、最適状態確率値取得手段1062が取得した確率値をパラメータとして音声の評定値を算出する。評定値算出手段1063は、上記確率値を如何に利用して、評定値を算出するかは問わない。通常、評定値算出手段1063は、取得した確率値が大きいほど、高い評定値となるように評定値を算出する。つまり、通常、評定値算出手段1063が評定値を算出するための演算式は、確率値をパラメータとする増加関数である。評定値算出手段1063は、例えば、最適状態確率値取得手段1062が取得した確率値と、当該確率値に対応するフレームの全状態における確率値の総和をパラメータとして音声の評定値を算出する。評定値算出手段1063は、ここでは、通常、フレームごとに評定値を算出する。また、上記の演算式の情報は、評定値算出手段1063が、記憶媒体等に予め保持している。
【0025】
最適状態決定手段1061、最適状態確率値取得手段1062、評定値算出手段1063は、通常、MPUやメモリ等から実現され得る。最適状態決定手段1061等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
次に、本発音評定装置の動作について図2のフローチャートを用いて説明する。
【0026】
(ステップS201)入力受付部101は、発音評定装置の動作開始を指示する動作開始指示を受け付けたか否かを判断する。動作開始指示を受け付ければステップS202に行き、動作開始指示を受け付けなければステップS215に飛ぶ。
(ステップS202)音声受付部103は、音声の入力を受け付けたか否かを判断する。音声の入力を受け付ければステップS203に行き、音声の入力を受け付けなければステップS214に飛ぶ。
(ステップS203)フレーム区分部104は、ステップS202で受け付けた音声のデータを図示しないバッファに一時格納する。
【0027】
(ステップS204)フレーム区分部104は、バッファに一時格納した音声データをフレームに区分する。かかる段階で、区分されたフレーム毎の音声データであるフレーム音声データが構成されている。フレーム区分部104が行うフレーム分割の処理は、例えば、フレーム音声データ取得部105がフレーム音声データを取り出す際の前処理であり、入力された音声のデータを、すべてのフレームに一度に分割するとは限らない。
(ステップS205)フレーム音声データ取得部105は、カウンタiに1を代入する。
【0028】
(ステップS206)フレーム音声データ取得部105は、i番目のフレームが存在するか否かを判断する。i番目のフレームが存在すればステップS207に行き、i番目のフレームが存在しなければステップS209に行く。
【0029】
(ステップS207)フレーム音声データ取得部105は、i番目のフレームのフレーム音声データを取得する。フレーム音声データの取得とは、例えば、当該分割された音声データを音声分析し、特徴ベクトルデータを抽出することである。なお、フレーム音声データは、例えば、入力された音声データをフレーム分割されたデータである。また、フレーム音声データは、例えば、当該分割された音声データから音声分析され、抽出された特徴ベクトルデータを有する。本特徴ベクトルデータは、例えば、三角型フィルタを用いたチャネル数24のフィルタバンク出力を離散コサイン変換したMFCCであり、その静的パラメータ、デルタパラメータおよびデルタデルタパラメータをそれぞれ12次元、さらに正規化されたパワーとデルタパワーおよびデルタデルタパワー(39次元)を有する。
(ステップS208)フレーム音声データ取得部105は、カウンタiを1、インクリメントする。ステップS206に戻る。
【0030】
(ステップS209)最適状態決定手段1061は、全フレームの最適状態を決定する。最適状態決定手段1061が最適状態を決定するアルゴリズムは、例えば、Viterbiアルゴリズムによる。Viterbiアルゴリズムは、公知のアルゴリズムであるので、詳細な説明は省略する。
【0031】
(ステップS210)最適状態確率値取得手段1062は、全フレームの全状態の前向き尤度、および後向き尤度を算出する。最適状態確率値取得手段1062は、例えば、全てのHMMを用いて、フォワード・バックワードアルゴリズムにより、前向き尤度、および後向き尤度を算出する。
(ステップS211)最適状態確率値取得手段1062は、ステップS210で取得した前向き尤度、および後向き尤度を用いて、最適状態の確率値(最適状態確率値)を、すべて算出する。
【0032】
(ステップS212)評定値算出手段1063は、ステップS211で算出した1以上の最適状態確率値から、1以上のフレームの音声の評定値を算出する。評定値算出手段1063が評定値を算出する関数は問わない。評定値算出手段1063は、例えば、取得した最適状態確率値と、当該最適状態確率値に対応するフレームの全状態における確率値の総和をパラメータとして音声の評定値を算出する。詳細については、後述する。
【0033】
(ステップS213)出力部107は、ステップS212における評定結果(ここでは、音声の評定値)を、設定されている出力モードに従って、出力する。ステップS202に戻る。出力モードとは、評定値を数値で画面に表示するモード、評定値の遷移をグラフで画面に表示するモード、評定値を音声で出力するモード、評定値が所定の数値より低い場合に警告を示す情報を表示するモードなど、何でも良い。なお、ここでの出力モードは、ステップS216で設定されるモードである。
【0034】
(ステップS214)音声受付部103は、タイムアウトか否かを判断する。つまり、音声受付部103は、所定の時間以上、音声の入力を受け付けなかったか否かを判断する。タイムアウトであればステップS201に戻り、タイムアウトでなければステップS202に戻る。
【0035】
(ステップS215)入力受付部101は、出力態様変更指示を受け付けたか否かを判断する。出力態様変更指示を受け付ければステップS216に行き、出力態様変更指示を受け付なければステップS217に飛ぶ。出力態様変更指示は、上述した出力モードを有する情報である。
(ステップS216)出力部107は、ステップS215で受け付けた出力態様変更指示が有する出力モードを示す情報をメモリ等に書き込み、出力モードを設定する。ステップS201に戻る。
(ステップS217)入力受付部101は、終了指示を受け付けたか否かを判断する。終了指示を受け付ければ処理を終了し、終了指示を受け付なければステップS201に戻る。
なお、図2のフローチャートにおいて、本発音評定装置は、出力モードの設定機能を有しなくても良い。
以下、本実施の形態における発音評定装置の具体的な動作について説明する。本具体例において、発音評定装置が語学学習に利用される場合について説明する。
【0036】
まず、本発音評定装置において、図示しない手段により、ネイティブ発音の音声データベースからネイティブ発音の音韻HMMを学習しておく。ここで、音韻の種類数をLとし、l番目の音韻に対するHMMをλとする。なお、かかる学習の処理については、公知技術であるので、詳細な説明は省略する。なお、HMMの仕様について、図3に示す。なお、HMMの仕様は、他の実施の形態における具体例の説明においても同様である。ただし、HMMの仕様が、他の仕様でも良いことは言うまでもない。
【0037】
そして、学習したL種類の音韻HMMから、学習対象の単語や文章などの音声を構成する1以上の音素に対応するHMMを取得し、当該取得した1以上のHMMを、音素の順序で連結した教師データを構成する。そして、当該教師データを教師データ格納部102に保持しておく。ここでは、例えば、比較される対象の音声は、単語「right」の音声である。
次に、学習者が、語学学習の開始の指示である動作開始指示を入力する。かかる指示は、例えば、マウスで所定のボタンを押下することによりなされる。
次に、学習者は、学習対象の音声「right」を発音する。そして、音声受付部103は、学習者が発音した音声の入力を受け付ける。
次に、フレーム区分部104は、音声受付部103が受け付けた音声を、短時間フレームに区分する。なお、フレームの間隔は、予め決められている、とする。
【0038】
そして、フレーム音声データ取得部105は、フレーム区分部104が区分した音声データを、スペクトル分析し、特徴ベクトル系列「O=o,o,・・・,o」を算出する。なお、Tは、系列長である。ここで、特徴ベクトル系列は、各フレームの特徴ベクトルの集合である。また、特徴ベクトルは、例えば、三角型フィルタを用いたチャネル数24のフィルタバンク出力を離散コサイン変換したMFCCであり、その静的パラメータ、デルタパラメータおよびデルタデルタパラメータをそれぞれ12次元、さらに正規化されたパワーとデルタパワーおよびデルタデルタパワー(39次元)を有する。また、スペクトル分析において、ケプストラム平均除去を施すことは好適である。なお、音声分析条件を図4の表に示す。なお、音声分析条件は、他の実施の形態における具体例の説明においても同様である。ただし、音声分析条件が、他の条件でも良いことは言うまでもない。
【0039】
次に、最適状態決定手段1061は、取得した特徴ベクトル系列を構成する各特徴ベクトルoに基づいて、所定のフレームの最適状態(特徴ベクトルoに対する最適状態)を決定する。最適状態決定手段1061が最適状態を決定するアルゴリズムは、例えば、Viterbiアルゴリズムによる。かかる場合、最適状態決定手段1061は、上記で連結したHMMを用いて最適状態を決定する。最適状態決定手段1061は、2以上のフレームの最適状態である最適状態系列を求めることとなる。
【0040】
次に、最適状態確率値取得手段1062は、以下の数式1により、最適状態(q)における最適状態確率値(γ(q))を算出する。なお、γ(q)は、状態jの事後確率関数γ(j)のjにqを代入した値である。そして、状態jの事後確率関数γ(j)は、数式2を用いて算出される。この確率値(γ(j))は、t番目の特徴ベクトルoが状態jから生成された事後確率であり、動的計画法を用いて算出される。なお、jは、状態を識別する状態識別子である。
【数1】

数式2において、qは、oに対する状態識別子を表す。この確率値(γ(j))は、HMMの最尤推定におけるBaum−Welchアルゴリズムの中で表れる占有度数に対応する。
【数2】

【0041】
数式2において、「α(j)」「β(j)」は、全部のHMMを用いて、forward−backwardアルゴリズムにより算出される。「α(j)」は前向き尤度、「β(j)」は後向き尤度である。Baum−Welchアルゴリズム、forward−backwardアルゴリズムは、公知のアルゴリズムであるので、詳細な説明は省略する。
また、数式2において、Nは、全HMMに渡る状態の総数を示す。
【0042】
なお、評定部106は、まず最適状態を求め、次に、最適状態の確率値(なお、確率値は、0以上、1以下である。)を求めても良いし、評定部106は、まず、全状態の確率値を求め、その後、特徴ベクトル系列の各特徴ベクトルに対する最適状態を求め、当該最適状態に対応する確率値を求めても良い。
【0043】
次に、評定値算出手段1063は、例えば、上記の取得した最適状態確率値と、当該最適状態確率値に対応するフレームの全状態における確率値の総和をパラメータとして音声の評定値を算出する。かかる場合、もし学習者のtフレーム目に対応する発声が、教師データが示す発音(例えば、正しいネイティブな発音)に近ければ、数式2の(2)式の分子の値が、他の全ての可能な音韻の全ての状態と比較して大きくなり、結果的に最適状態の確率値(評定値)が大きくなる。逆にその区間が、教師データが示す発音に近くなければ、評定値は小さくなる。なお、どのネイティブ発音にも近くないような場合は、評定値はほぼ1/Nに等しくなる。Nは全ての音韻HMMにおける全ての状態の数であるから、通常、Nは大きな値となり、この評定値は十分小さくなる。また、ここでは、評定値は最適状態における確率値と全ての可能な状態における確率値との比率で定義されている。したがって、話者性や収音環境の違いにより多少のスペクトルの変動があったとしても、学習者が正しい発音をしていれば、その変動が相殺され評定値が高いスコアを維持する。よって、評定値算出手段1063は、最適状態確率値取得手段1062が取得した確率値と、当該確率値に対応するフレームの全状態における確率値の総和をパラメータとして音声の評定値を算出することは、極めて好適である。
【0044】
かかる評定値算出手段1063が算出した評定値(「DAPスコア」とも言う。)を、図5、図6に示す。図5、図6において、横軸は分析フレーム番号、縦軸はスコアを%で表わしたものである。太い破線は音素境界,細い点線は状態境界(いずれもViterbiアルゴリズムで求まったもの)を表わしており,図の上部に音素名を表記している。図5は、アメリカ人男性による英語「right」の発音のDAPスコアを示す。なお、評定値を示すグラフの横軸、縦軸は、後述するグラフにおいても同様である。
【0045】
図6は、日本人男性による英語「right」の発音のDAPスコアを示す。アメリカ人の発音は、日本人の発音と比較して、基本的にスコアが高い。また、図5において、状態の境界において所々スコアが落ち込んでいることがわかる。
【0046】
そして、出力部107は、評定部106の評定結果を出力する。具体的には、例えば、出力部107は、図7に示すような態様で、評定結果を出力する。つまり、出力部107は、各フレームにおける発音の良さを表すスコア(スコアグラフ)として、各フレームの評定値を表示する。その他、出力部107は、学習対象の単語の表示(単語表示)、音素要素の表示(音素表示)、教師データの波形の表示(教師波形)、学習者の入力した発音の波形の表示(ユーザ波形)を表示しても良い。なお、図7において、「録音」ボタンを押下すれば、動作開始指示が入力されることとなり、「停止」ボタンを押下すれば、終了指示が入力されることとなる。なお、本発音評定装置は、学習対象の単語(図7の「word1」など)や、音素(図7の「p1」など)や、教師波形が出力されるためのデータを予め格納している、とする。
【0047】
また、図7において、フレーム単位以外に、音素単位、単語単位、発声全体の評定結果を表示しても良い。上記の処理において、フレーム単位の評定値を算出するので、単語単位、発声全体の評定結果を得るためには、フレーム単位の1以上の評定値をパラメータとして、単語単位、発声全体の評定値を算出する必要がある。かかる算出式は問わないが、例えば、単語を構成するフレーム単位の1以上の評定値の平均値を単語単位の評定値とする、ことが考えられる。また、一の音素の評定値は、例えば、当該音素を構成する1以上のフレームの1以上の評定値の中間値や、平均値などである。また、一の単語の評定値は、例えば、当該単語を構成する1以上のフレームの1以上の評定値の中間値や、平均値でも良いし、当該単語を構成する1以上の音素の評定値の平均値や中間値などでも良い。また、発声全体の評定値は、例えば、当該発声全体を構成する1以上のフレームの1以上の評定値の中間値や、平均値でも良いし、当該発声全体を構成する1以上の音素の評定値の平均値や中間値などでも良いし、当該発声全体を構成する1以上の単語の評定値の平均値や中間値などでも良い。
【0048】
なお、図7において、発音評定装置は、波形表示(教師波形またはユーザ波形)の箇所においてクリックを受け付けると、再生メニューを表示し、音素区間内ではその音素またはその区間が属する単語、波形全体を再生し、単語区間外(無音部)では波形全体のみを再生するようにしても良い。
また、出力部107の表示は、図8に示すような態様でも良い。図8において、音素ごとのスコア、単語のスコア、総合スコアが、数字で表示されている。
なお、出力部107の表示は、図5、図6のような表示でも良いことは言うまでもない。
以上、本実施の形態によれば、ユーザが入力した発音を、教師データに対して、如何に似ているかを示す類似度(評定値)を算出し、出力できる。
【0049】
また、本実施の形態によれば、連結されたHMMである連結HMMを用いて最適状態を求め、評定値を算出するので、高速に評定値を求めることができる。したがって、上記の具体例で述べたように、リアルタイムに、フレームごと、音素ごと、単語ごとの評定値を出力できる。また、本実施の形態によれば、動的計画法に基づいた事後確率を確率値として算出するので、さらに高速に評定値を求めることができる。また、本実施の形態によれば、フレームごとに確率値を算出するので、上述したように、フレーム単位だけではなく、または/および音素・単語単位、または/および発声全体の評定結果を出力でき、出力態様の自由度が高い。
【0050】
また、本実施の形態によれば、発音評定装置は、語学学習に利用することを主として説明したが、物真似練習やカラオケ評定などに利用できる。つまり、本発音評定装置は、比較される対象の音声に関するデータとの類似度を精度良く、高速に評定し、出力でき、そのアプリケーションは問わない。
【0051】
また、本実施の形態において、音声の入力を受け付けた後または停止ボタン操作後に、スコアリング処理を実行するかどうかをユーザに問い合わせ、スコアリング処理を行うとの指示を受け付けた場合のみ、図8に示すような音素スコア、単語スコア、総合スコアを出力するようにしても良い。
【0052】
また、本実施の形態において、教師データは、比較される対象の音声に関するデータであり、音韻毎の隠れマルコフモデル(HMM)に基づくデータであるとして、主として説明したが、必ずしもHMMに基づくデータである必要はない。教師データは、単一ガウス分布モデルや、確率モデル(GMM:ガウシャンミクスチャモデル)や統計モデルなど、他のモデルに基づくデータでも良い。かかることは、他の実施の形態においても同様である。
【0053】
さらに、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをCD−ROMなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における発音評定装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、音声の入力を受け付ける音声受付ステップと、前記音声受付ステップで受け付けた音声を、フレームに区分するフレーム区分ステップと、前記区分されたフレーム毎の音声データであるフレーム音声データを1以上得るフレーム音声データ取得ステップと、格納されているデータであり、音韻毎の隠れマルコフモデル(HMM)に基づくデータである教師データと前記1以上のフレーム音声データに基づいて、前記音声受付ステップで受け付けた音声の評定を行う評定ステップと、前記評定ステップにおける評定結果を出力する出力ステップを実行させるためのプログラム、である。
【0054】
また、上記プログラムにおいて、前記教師データは、音韻毎の隠れマルコフモデル(HMM)を連結したHMMに基づくデータであり、前記評定ステップは、前記1以上のフレーム音声データのうちの少なくとも一の最適状態を決定する最適状態決定サブステップと、前記最適状態決定サブステップで決定した最適状態における確率値を取得する最適状態確率値取得サブステップと、前記最適状態確率値取得サブステップで取得した確率値をパラメータとして音声の評定値を算出する評定値算出サブステップを具備するプログラム、である。
【0055】
なお、上記プログラムにおいて、評定値算出サブステップにおいて、前記最適状態確率値取得サブステップで取得した確率値と、当該確率値に対応するフレームの全状態における確率値の総和をパラメータとして音声の評定値を算出することは好適である。
(実施の形態2)
【0056】
本実施の形態における発音評定装置は、実施の形態1の発音評定装置と比較して、評定部における評定アルゴリズムが異なる。本実施の形態において、評定値は、各フレームにおける、すべての音韻の中で最適な音韻の事後確率(確率値)を表すように算出される。本実施の形態における発音評定装置が算出する事後確率を、実施の形態1におけるDAPに対してp−DAPと呼ぶ。
【0057】
図9は、本実施の形態における発音評定装置のブロック図である。本発音評定装置は、入力受付部101、教師データ格納部102、音声受付部103、フレーム区分部104、フレーム音声データ取得部105、評定部906、出力部107を具備する。評定部906は、最適状態決定手段1061、音韻確率値取得手段9062、評定値算出手段9063を具備する。
音韻確率値取得手段9062は、最適状態決定手段1061が決定した最適状態を有する音韻全体の状態における1以上の確率値を取得する。ここで1以上の確率値とは、1つ以上の確率値の意味である。
【0058】
評定値算出手段9063は、音韻確率値取得手段9062が取得した1以上の確率値をパラメータとして音声の評定値を算出する。評定値算出手段9063は、例えば、音韻確率値取得手段9062が取得した1以上の確率値の総和をパラメータとして音声の評定値を算出する。
【0059】
音韻確率値取得手段9062、および評定値算出手段9063は、通常、MPUやメモリ等から実現され得る。音韻確率値取得手段9062等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
次に、本発音評定装置の動作について図10のフローチャートを用いて説明する。図10のフローチャートにおいて、図2と異なるステップについてのみ説明する。
【0060】
(ステップS1001)音韻確率値取得手段9062は、全フレームの全状態の前向き尤度と後向き尤度を算出する。そして、全フレーム、全状態の確率値を得る。具体的には、音韻確率値取得手段9062は、例えば、各特徴ベクトルが対象の状態から生成された事後確率を算出する。この事後確率は、HMMの最尤推定におけるBaum−Welchアルゴリズムの中で現れる占有度数に対応する。Baum−Welchアルゴリズムは、公知のアルゴリズムであるので、説明は省略する。
(ステップS1002)音韻確率値取得手段9062は、全フレームの最適状態確率値(最適事後確率)を算出する。
(ステップS1003)音韻確率値取得手段9062は、カウンタiに1を代入する。
【0061】
(ステップS1004)音韻確率値取得手段9062は、i番目の最適状態が存在するか否かを判断する。i番目の最適状態が存在すればステップS1005に行き、i番目の最適状態が存在しなければステップS202に戻る。
(ステップS1005)音韻確率値取得手段9062は、i番目の最適状態を含む音韻全体の確率値をすべて取得する。
【0062】
(ステップS1006)評定値算出手段9063は、ステップS1005で取得した1以上の確率値に基づいて、音声の評定値を算出する。評定値算出手段9063は、例えば、音韻確率値取得手段9062が取得した1以上の確率値の総和をパラメータとして音声の評定値を算出する。
(ステップS1007)出力部107は、ステップS1006で算出した評定値を出力する。
(ステップS1008)音韻確率値取得手段9062は、カウンタiを1、インクリメントする。ステップS1004に戻る。
以下、本実施の形態における発音評定装置の具体的な動作について説明する。本実施の形態において、評定値の算出アルゴリズムが実施の形態1とは異なるので、その動作を中心に説明する。
【0063】
まず、学習者が、語学学習の開始の指示である動作開始指示を入力した後、学習対象の音声「right」を発音する。そして、音声受付部103は、学習者が発音した音声の入力を受け付ける。次に、フレーム区分部104は、音声受付部103が受け付けた音声を、短時間フレームに区分する。
そして、フレーム音声データ取得部105は、フレーム区分部104が区分した音声データを、スペクトル分析し、特徴ベクトル系列「O=o,o,・・・,o」を算出する。
次に、音韻確率値取得手段9062は、各フレームの各状態の事後確率(確率値)を算出する。確率値の算出は、上述した数式2により算出できる。
【0064】
次に、最適状態決定手段1061は、取得した特徴ベクトル系列を構成する各特徴ベクトルoに基づいて、各フレームの最適状態(特徴ベクトルoに対する最適状態)を決定する。つまり、最適状態決定手段1061は、最適状態系列を得る。
【0065】
次に、音韻確率値取得手段9062は、フレーム毎に、当該フレームに対応する最適状態(q)を含む音韻全体の確率値をすべて取得する。そして、評定値算出手段9063は、上記取得した1以上の確率値に基づいて、音声の評定値を算出する。具体的には、評定値算出手段9063は、数式3により評定値を算出する。
【数3】

なお、数式3において、P(i)は、i番目の状態を有しているHMMの持つ全状態の集合を示す。
【0066】
かかる評定値算出手段9063が算出した評定値(「p−DAPスコア」とも言う。)を、図11、図12に示す。図11は、アメリカ人男性による英語「right」の発音のp−DAPスコアを示す。図12は、日本人男性による英語「right」の発音のp−DAPスコアを示す。アメリカ人の発音は、日本人の発音と比較して、基本的にスコアが高い。また、図11において、音素境界でスコアの落ち込みがあるものの、p−DAPは本来発音の良好なアメリカ人発音に対して,高いスコアをDAPより安定して出力していることがわかる。かかる判断は、図5のグラフと図11のグラフを比較して判断できる。また、図11において、音素/r/のスコアが低いが,この発音を聴いてみたところ/r/の発声が若干不明瞭であった。
【0067】
そして、出力部107は、算出したフレームごとの評定値を、順次出力する。かかる出力例は、図7または図8である。なお、出力部107は、図11、図12のようなグラフを出力しても良いことは言うまでもない。
以上、本実施の形態によれば、ユーザが入力した発音を、教師データに対して、如何に似ているかを示す類似度(評定値)を算出し、出力できる。
【0068】
また、本実施の形態によれば、連結されたHMMである連結HMMを用いて最適状態を求め、評定値を算出するので、高速に評定値を求めることができる。したがって、上記の具体例で述べたように、リアルタイムに、フレームごと、音素ごと、単語ごとの評定値を出力できる。また、本実施の形態によれば、動的計画法に基づいた事後確率を確率値として算出するので、さらに高速に評定値を求めることができる。また、本実施の形態によれば、フレームごとに確率値を算出するので、上述したように、フレーム単位だけではなく、音素・単語単位、または/および発声全体の評定結果を出力でき、出力態様の自由度が高い。
【0069】
また、本実施の形態によれば、評定値を、各フレームにおいて、すべての音韻の中で最適な音韻の事後確率(確率値)を表しており、実施の形態1におけるような状態単位のDAPと比較して、本来、測定したい類似度を精度良く、安定して求めることができる。つまり、実施の形態1において、DAPは、全ての可能な状態に対する最適状態の事後確率を計算する。そして、総状態数Nは、通常、非常に大きくなり、入力音声によっては、評定値(DAPのスコア)が大きく低下する。つまり、例えば、あるフレームが存在する音韻内の2つの状態の過渡部にそのフレームが対応してしまえば、評定値が小さくなる。一方、音素に対する類似性を求める本実施の形態によれば、教師データの音韻との類似度(状態との類似度ではない)を測ることができ、好適である。
【0070】
さらに、本実施の形態における発音評定装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、音声の入力を受け付ける音声受付ステップと、前記音声受付ステップで受け付けた音声を、フレームに区分するフレーム区分ステップと、前記区分されたフレーム毎の音声データであるフレーム音声データを1以上得るフレーム音声データ取得ステップと、格納されているデータであり、音韻毎の隠れマルコフモデル(HMM)に基づくデータである教師データと前記1以上のフレーム音声データに基づいて、前記音声受付ステップで受け付けた音声の評定を行う評定ステップと、前記評定ステップにおける評定結果を出力する出力ステップを実行させるためのプログラム、である。
【0071】
また、上記プログラムにおいて、前記教師データは、音韻毎の隠れマルコフモデル(HMM)を連結したHMMに基づくデータであり、前記評定ステップは、前記1以上のフレーム音声データのうちの少なくとも一の最適状態を決定する最適状態決定サブステップと、前記最適状態決定サブステップで決定した最適状態を有する音韻全体の状態における1以上の確率値を取得する音韻確率値取得サブステップと、前記音韻確率値取得サブステップで取得した1以上の確率値をパラメータとして音声の評定値を算出する評定値算出サブステップを具備するプログラム、である。さらに、上記プログラムにおける評定値算出サブステップにおいて、前記音韻確率値取得サブステップで取得した1以上の確率値の総和をパラメータとして音声の評定値を算出することは好適である。これは、音韻確率値取得サブステップで取得した1以上の確率値の総和を音声の評定値とすることも含む。
(実施の形態3)
【0072】
本実施の形態における発音評定装置は、実施の形態1、2の発音評定装置と比較して、評定部における評定アルゴリズムが異なる。本実施の形態において、評定値は、発音区間ごとに算出される。本実施の形態における発音評定装置が算出する事後確率を、実施の形態1におけるDAPに対してt−DAPと呼ぶ。
【0073】
図13は、本実施の形態における発音評定装置のブロック図である。本発音評定装置は、入力受付部101、教師データ格納部102、音声受付部103、フレーム区分部104、フレーム音声データ取得部105、評定部1306、出力部107を具備する。評定部1306は、最適状態決定手段1061、発音区間確率値取得手段13062、評定値算出手段13063を具備する。
発音区間確率値取得手段13062は、最適状態決定手段1061が決定した最適状態の確率値を、発音区間毎に取得する。ここで、発音区間とは、音韻、音節、単語など、発音の一まとまりを構成する区間である。
【0074】
評定値算出手段13063は、発音区間確率値取得手段13062が取得した1以上の発音区間毎の1以上の確率値をパラメータとして音声の評定値を算出する。評定値算出手段13063は、例えば、発音区間確率値取得手段13062が取得した各発音区間の1以上の確率値の時間平均値を、発音区間毎に算出し、1以上の時間平均値を得て、当該1以上の時間平均値をパラメータとして音声の評定値を算出する。評定値算出手段13063は、例えば、発音区間確率値取得手段13062が取得した各発音区間内の1以上の確率値の中間値を、発音区間毎に取得し、当該1以上の値(取得した中間値)をパラメータとして音声の評定値を算出しても良い。なお、評定値算出手段13063は、発音区間確率値取得手段13062が取得した各発音区間の1以上の確率値の中間値を評定値としても良い。
【0075】
発音区間確率値取得手段13062、および評定値算出手段13063は、通常、MPUやメモリ等から実現され得る。発音区間確率値取得手段13062等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
次に、本発音評定装置の動作について図14のフローチャートを用いて説明する。図14のフローチャートにおいて、図10と異なるステップについてのみ説明する。
(ステップS1401)発音区間確率値取得手段13062は、jに1を代入する。
【0076】
(ステップS1402)発音区間確率値取得手段13062は、次の評定対象の発音区間である、j番目の発音区間が存在するか否かを判断する。j番目の発音区間が存在すればステップS1403に行き、j番目の発音区間が存在しなければステップS202に行く。
(ステップS1403)発音区間確率値取得手段13062は、j番目の発音区間に対応する1以上の最適状態の確率値をすべて取得する。
【0077】
(ステップS1404)評定値算出手段13063は、ステップS1403で取得した1以上の発音区間毎の1以上の確率値をパラメータとして音声の評定値を算出する。例えば、ステップS1403で取得した1以上の確率値の平均値(時間平均値)を評定値として算出する。評定値算出手段13063は、例えば、ステップS1403で取得した1以上の確率値の中間値を評定値として取得しても良い。
(ステップS1405)出力部107は、ステップS1404で算出した評定値を出力する。
(ステップS1406)発音区間確率値取得手段13062は、カウンタjを1、インクリメントする。ステップS1402に戻る。
以下、本実施の形態における発音評定装置の具体的な動作について説明する。本実施の形態において、評定値の算出アルゴリズムが実施の形態2とは異なるので、その動作を中心に説明する。
【0078】
まず、学習者が、語学学習の開始の指示である動作開始指示を入力した後、学習対象の音声を発音する。そして、音声受付部103は、学習者が発音した音声の入力を受け付ける。次に、フレーム区分部104は、音声受付部103が受け付けた音声を、短時間フレームに区分する。
そして、フレーム音声データ取得部105は、フレーム区分部104が区分した音声データを、スペクトル分析し、特徴ベクトル系列「O=o,o,・・・,o」を算出する。
【0079】
次に、最適状態決定手段1061は、取得した特徴ベクトル系列を構成する各特徴ベクトルoに基づいて、各フレームの最適状態(特徴ベクトルoに対する最適状態)を決定する。つまり、最適状態決定手段1061は、最適状態系列を得る。
次に、発音区間確率値取得手段13062は、各フレームの各状態の事後確率(確率値)を算出する。なお、確率値の算出は、上述した数式2により算出できる。
【0080】
そして、発音区間確率値取得手段13062は、発音区間に対応する1以上の最適状態の確率値をすべて取得する。そして、評定値算出手段13063は、例えば、取得した1以上の確率値の平均値(時間平均値)を算出する。具体的には、評定値算出手段13063は、数式4により評定値を算出する。なお、数式4において、Τ(q)は、状態qを含むHMMが含まれる評定対象の発音区間である。|Τ(q)|は、Τ(q)の区間長である。また、τは発音区間Τ(q)内のある時刻を表わす。そして、数式4の分子は、Τ(q)内において、時刻τにおける最適状態qτ*の事後確率γτ(qτ*)の総和をとった値である。
【数4】

【0081】
かかる評定値算出手段13063が算出した評定値(「t−DAPスコア」とも言う。)を、図15の表に示す。図15において、アメリカ人男性と日本人男性の評定結果を示す。PhonemeおよびWordは,t−DAPにおける時間平均の範囲を示す。図15において、アメリカ人男性の発音の評定値が日本人男性の発音の評定値より高く、良好な評定結果が得られている。
そして、出力部107は、算出した発音区間ごと(例えば、音素毎)の評定値を、順次出力する。かかる出力例は、図16である。
以上、本実施の形態によれば、ユーザが入力した発音を、教師データに対して、如何に似ているかを示す類似度(評定値)を算出し、出力できる。
【0082】
また、本実施の形態によれば、連結されたHMMである連結HMMを用いて最適状態を求め、評定値を算出するので、高速に評定値を求めることができる。したがって、上記の具体例で述べたように、リアルタイムに、フレームごと、音素ごと、単語ごとの評定値を出力できる。また、本実施の形態によれば、動的計画法に基づいた事後確率を確率値として算出するので、さらに高速に評定値を求めることができる。また、本実施の形態によれば、フレームごとに確率値を算出するので、上述したように、フレーム単位だけではなく、音素・単語単位、または/および発声全体の評定結果を出力でき、出力態様の自由度が高い。
また、本実施の形態によれば、評定値を、発音区間の単位で算出でき、実施の形態1におけるような状態単位のDAPと比較して、本来、測定したい類似度を精度良く、安定して求めることができる。
【0083】
さらに、本実施の形態における発音評定装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、音声の入力を受け付ける音声受付ステップと、前記音声受付ステップで受け付けた音声を、フレームに区分するフレーム区分ステップと、前記区分されたフレーム毎の音声データであるフレーム音声データを1以上得るフレーム音声データ取得ステップと、格納されているデータであり、音韻毎の隠れマルコフモデル(HMM)に基づくデータである教師データと前記1以上のフレーム音声データに基づいて、前記音声受付ステップで受け付けた音声の評定を行う評定ステップと、前記評定ステップにおける評定結果を出力する出力ステップを実行させるためのプログラム、である。
【0084】
また、上記プログラムにおいて、前記教師データは、音韻毎の隠れマルコフモデル(HMM)を連結したHMMに基づくデータであり、前記評定ステップは、前記1以上のフレーム音声データの最適状態を決定する最適状態決定サブステップと、前記最適状態決定サブステップで決定した最適状態の確率値を、発音区間毎に取得する発音区間確率値取得サブステップと、前記発音区間確率値取得サブステップで取得した1以上の発音区間毎の1以上の確率値をパラメータとして音声の評定値を算出する評定値算出サブステップを具備するプログラム、である。
【0085】
さらに、評定値算出サブステップは、前記発音区間確率値取得サブステップで取得した各発音区間の1以上の確率値の時間平均値を、発音区間毎に算出し、1以上の時間平均値を得て、当該1以上の時間平均値をパラメータとして音声の評定値を算出することが好適である。
(実施の形態4)
【0086】
本実施の形態における発音評定装置は、実施の形態1、2、3の発音評定装置と比較して、評定部における評定アルゴリズムが異なる。本実施の形態において、評定値は、最適状態を含む音韻の中の全状態の確率値を発音区間で評価して、算出される。本実施の形態における発音評定装置が算出する事後確率を、実施の形態1におけるDAPに対してt-p−DAPと呼ぶ。
【0087】
図17は、本実施の形態における発音評定装置のブロック図である。本発音評定装置は、入力受付部101、教師データ格納部102、音声受付部103、フレーム区分部104、フレーム音声データ取得部105、評定部1706、出力部107を具備する。評定部1706は、最適状態決定手段1061、発音区間フレーム音韻確率値取得手段17062、評定値算出手段17063を具備する。
発音区間フレーム音韻確率値取得手段17062は、最適状態決定手段1061が決定した各フレームの最適状態を有する音韻全体の状態における1以上の確率値を、発音区間毎に取得する。
【0088】
評定値算出手段17063は、発音区間フレーム音韻確率値取得手段17062が取得した1以上の発音区間毎の1以上の確率値をパラメータとして音声の評定値を算出する。評定値算出手段17063は、例えば、最適状態決定手段1061が決定した各フレームの最適状態を有する音韻全体の状態における1以上の確率値の総和を、フレーム毎に得て、当該フレーム毎の確率値の総和に基づいて、発音区間毎の確率値の総和の時間平均値を1以上得て、当該1以上の時間平均値をパラメータとして音声の評定値を算出する。評定値算出手段17063は、例えば、最適状態決定手段1061が決定した各フレームの最適状態を有する音韻全体の状態における1以上の確率値の総和を、フレーム毎に得て、当該フレーム毎の確率値の総和に基づいて、発音区間毎の確率値の総和の中間値を1以上得て、当該1以上の値(取得した中間値)をパラメータとして音声の評定値を算出しても良い。評定値算出手段17063は、例えば、最適状態決定手段1061が決定した各フレームの最適状態を有する音韻全体の状態における1以上の確率値の総和を、フレーム毎に得て、当該フレーム毎の確率値の総和(通常、2以上の値である)の中間値を取得し、当該中間値を当該発音区間の評定値としても良い。
【0089】
発音区間フレーム音韻確率値取得手段17062、および評定値算出手段17063は、通常、MPUやメモリ等から実現され得る。発音区間フレーム音韻確率値取得手段17062等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
次に、本発音評定装置の動作について図18のフローチャートを用いて説明する。図18のフローチャートにおいて、図14と異なるステップについてのみ説明する。
(ステップS1801)発音区間フレーム音韻確率値取得手段17062は、カウンタkに1を代入する。
【0090】
(ステップS1802)発音区間フレーム音韻確率値取得手段17062は、k番目のフレームが、j番目の発音区間に存在するか否かを判断する。k番目のフレームが存在すればステップS1803に行き、k番目のフレームが存在しなければステップS1801106に飛ぶ。
(ステップS1803)発音区間フレーム音韻確率値取得手段17062は、k番目のフレームの最適状態を含む音韻の全ての確率値を取得する。
(ステップS1804)評定値算出手段17063は、ステップS1803で取得した1以上の確率値をパラメータとして、1フレームの音声の評定値を算出する。
(ステップS1805)発音区間フレーム音韻確率値取得手段17062は、kを1、インクメントする。ステップS1802に戻る。
【0091】
(ステップS1806)評定値算出手段17063は、j番目の発音区間の評定値を算出する。評定値算出手段17063は、例えば、最適状態決定手段1061が決定した各フレームの最適状態を有する音韻全体の状態における1以上の確率値の総和を、フレーム毎に得て、当該フレーム毎の確率値の総和に基づいて、発音区間の確率値の総和の時間平均値を、当該発音区間の音声の評定値として算出する。
(ステップS1807)出力部107は、ステップS1806で算出した評定値を出力する。
(ステップS1808)発音区間フレーム音韻確率値取得手段17062は、jを1、インクメントする。ステップS1402に戻る。
以下、本実施の形態における発音評定装置の具体的な動作について説明する。本実施の形態において、評定値の算出アルゴリズムが実施の形態3とは異なるので、その動作を中心に説明する。
【0092】
まず、学習者が、語学学習の開始の指示である動作開始指示を入力した後、学習対象の音声を発音する。そして、音声受付部103は、学習者が発音した音声の入力を受け付ける。次に、フレーム区分部104は、音声受付部103が受け付けた音声を、短時間フレームに区分する。
そして、フレーム音声データ取得部105は、フレーム区分部104が区分した音声データを、スペクトル分析し、特徴ベクトル系列「O=o,o,・・・,o」を算出する。
次に、発音区間フレーム音韻確率値取得手段17062は、各フレームの各状態の事後確率(確率値)を算出する。確率値の算出は、上述した数式2により算出できる。
【0093】
次に、最適状態決定手段1061は、取得した特徴ベクトル系列を構成する各特徴ベクトルoに基づいて、各フレームの最適状態(特徴ベクトルoに対する最適状態)を決定する。つまり、最適状態決定手段1061は、最適状態系列を得る。なお、各フレームの各状態の事後確率(確率値)の算出と、最適状態の決定の順序は問わない。
【0094】
次に、発音区間フレーム音韻確率値取得手段17062は、発音区間ごとに、当該発音区間に含まれる各フレームの最適状態(q)を含む音韻の全ての確率値を取得する。そして、評定値算出手段17063は、各フレームの最適状態を含む音韻の全ての確率値の総和を、フレーム毎に算出する。そして、評定値算出手段17063は、フレーム毎に算出された確率値の総和を、例えば、発音区間毎に時間平均し、発音区間毎の評定値を算出する。具体的には、評定値算出手段17063は、数式5により評定値を算出する。
【数5】

【0095】
かかる評定値算出手段17063が算出した評定値(「t−p−DAPスコア」とも言う。)を、図19の表に示す。図19において、アメリカ人男性と日本人男性の評定結果を示す。PhonemeおよびWordは,t−p−DAPにおける時間平均の範囲を示す。ここでは、DAPの代わりにp−DAPの時間平均を採用したものである。図19において、アメリカ人男性の発音の評定値が日本人男性の発音の評定値より高く、良好な評定結果が得られている。なお、上記のp−DAPの時間平均の変わりに、中央値を採用しても良いことは言うまでもない。
そして、出力部107は、算出した発音区間ごと(ここでは、音素毎)の評定値を、順次出力する。かかる出力例は、図16である。
以上、本実施の形態によれば、ユーザが入力した発音を、教師データに対して、如何に似ているかを示す類似度(評定値)を算出し、出力できる。
【0096】
また、本実施の形態によれば、連結されたHMMである連結HMMを用いて最適状態を求め、評定値を算出するので、高速に評定値を求めることができる。したがって、上記の具体例で述べたように、リアルタイムに、発音区間ごとの評定値を出力できる。また、本実施の形態によれば、動的計画法に基づいた事後確率を確率値として算出するので、さらに高速に評定値を求めることができる。
【0097】
また、本実施の形態によれば、評定値を、発音区間の単位で算出でき、実施の形態1におけるような状態単位のDAPと比較して、本来、測定したい類似度(発音区間の類似度)を精度良く、安定して求めることができる。
【0098】
さらに、本実施の形態における発音評定装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、音声の入力を受け付ける音声受付ステップと、前記音声受付ステップで受け付けた音声を、フレームに区分するフレーム区分ステップと、前記区分されたフレーム毎の音声データであるフレーム音声データを1以上得るフレーム音声データ取得ステップと、格納されているデータであり、音韻毎の隠れマルコフモデル(HMM)に基づくデータである教師データと前記1以上のフレーム音声データに基づいて、前記音声受付ステップで受け付けた音声の評定を行う評定ステップと、前記評定ステップにおける評定結果を出力する出力ステップを実行させるためのプログラム、である。
【0099】
また、上記プログラムにおいて、前記教師データは、音韻毎の隠れマルコフモデル(HMM)を連結したHMMに基づくデータであり、前記評定ステップは、前記1以上のフレーム音声データの最適状態を決定する最適状態決定サブステップと、前記最適状態決定サブステップで決定した各フレームの最適状態を有する音韻全体の状態における1以上の確率値を、発音区間毎に取得する発音区間フレーム音韻確率値取得サブステップと、前記発音区間フレーム音韻確率値取得サブステップで取得した1以上の発音区間毎の1以上の確率値をパラメータとして音声の評定値を算出する評定値算出サブステップを具備するプログラム、である。
【0100】
以上の4つの実施の形態で算出した評定値は、図20において、それぞれ(1)〜(4)の類似度である。つまり、図20において、縦軸は、音韻毎の隠れマルコフモデル(HMM)を、任意の順番に並べたHMMである。図20の横軸は、入力音声の特徴ベクトル系列を示す。また、図20の実線は、最適状態系列である。そして、黒丸の(1)はDAP、斜線部の(2)はp−DAP、網掛け部の(3)はt−DAPを示す。tp−DAPは、発音区間において、最適状態を含む全音韻の状態の確率値に基づいて算出される。
【0101】
また、図21は、本明細書で述べたプログラムを実行して、上述した種々の実施の形態の発音評定装置を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図21は、このコンピュータシステム210の概観図であり、図22は、コンピュータシステム210のブロック図である。
【0102】
図21において、コンピュータシステム210は、FD(Flexible Disk)ドライブ、CD−ROM(Compact Disk Read Only Memory)ドライブを含むコンピュータ211と、キーボード212と、マウス213と、モニタ214と、マイク215とを含む。
【0103】
図17において、コンピュータ211は、FDドライブ2111、CD−ROMドライブ2112に加えて、CPU(Central Processing Unit)2113と、CPU2113、CD−ROMドライブ2112及びFDドライブ2111に接続されたバス2114と、ブートアッププログラム等のプログラムを記憶するためのROM(Read−Only Memory)2115と、CPU2113に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのRAM(Random Access Memory)2116と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク2117とを含む。ここでは、図示しないが、コンピュータ211は、さらに、LANへの接続を提供するネットワークカードを含んでも良い。
【0104】
コンピュータシステム210に、上述した実施の形態の発音評定装置の機能を実行させるプログラムは、CD−ROM2201、またはFD2202に記憶されて、CD−ROMドライブ2112またはFDドライブ2111に挿入され、さらにハードディスク2117に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ211に送信され、ハードディスク2117に記憶されても良い。プログラムは実行の際にRAM2116にロードされる。プログラムは、CD−ROM2201、FD2202またはネットワークから直接、ロードされても良い。
【0105】
プログラムは、コンピュータ211に、上述した実施の形態の発音評定装置の機能を実行させるオペレーティングシステム(OS)、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム210がどのように動作するかは周知であり、詳細な説明は省略する。
【0106】
また、上記各実施の形態において、各処理(各機能)は、単一の装置(システム)によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。
なお、上記プログラムにおいて、ハードウェアによって行われる処理、例えば、出力ステップにおけるディスプレイなどで行われる処理(ハードウェアでしか行われない処理)は含まれない。
また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
【産業上の利用可能性】
【0107】
以上のように、本発明にかかる発音評定装置は、比較対象の音声と入力音声の類似度を精度高く評定できるという効果を有し、語学学習装置や物真似練習装置等として有用である。
【図面の簡単な説明】
【0108】
【図1】実施の形態1における発音評定装置のブロック図
【図2】同発音評定装置の動作について説明するフローチャート
【図3】同HMMの仕様を説明する図
【図4】同音声分析条件を説明する図
【図5】同評定値算出手段が算出した評定値を示すグラフを示す図
【図6】同評定値算出手段が算出した評定値を示すグラフを示す図
【図7】同出力部が出力する出力態様を示す図
【図8】同出力部が出力する出力態様を示す図
【図9】実施の形態2における発音評定装置のブロック図
【図10】同発音評定装置の動作について説明するフローチャート
【図11】同評定値算出手段が算出した評定値を示すグラフを示す図
【図12】同評定値算出手段が算出した評定値を示すグラフを示す図
【図13】実施の形態3における発音評定装置のブロック図
【図14】同発音評定装置の動作について説明するフローチャート
【図15】同評定値算出手段が算出した評定値を示す図
【図16】同出力部が出力する出力態様を示す図
【図17】実施の形態4における発音評定装置のブロック図
【図18】同発音評定装置の動作について説明するフローチャート
【図19】同評定値算出手段が算出した評定値を示す図
【図20】4つの実施の形態で算出した評定値について説明する図
【図21】発音評定装置を構成するコンピュータシステムの概観図
【図22】発音評定装置を構成するコンピュータのブロック図
【符号の説明】
【0109】
101 入力受付部
102 教師データ格納部
103 音声受付部
104 フレーム区分部
105 フレーム音声データ取得部
106、906、1306、1706 評定部
107 出力部
1061 最適状態決定手段
1062 最適状態確率値取得手段
1063、9063、13063、17063 評定値算出手段
9062 音韻確率値取得手段
13062 発音区間確率値取得手段
17062 発音区間フレーム音韻確率値取得手段

【特許請求の範囲】
【請求項1】
比較される対象の音声に関するデータであり、1以上の音韻毎のデータである教師データを1以上格納している教師データ格納部と、
音声の入力を受け付ける音声受付部と、
前記音声受付部が受け付けた音声を、フレームに区分するフレーム区分部と、
前記区分されたフレーム毎の音声データであるフレーム音声データを1以上得るフレーム音声データ取得部と、
前記教師データと前記1以上のフレーム音声データに基づいて、前記音声受付部が受け付けた音声の評定を行う評定部と、
前記評定部の評定結果を出力する出力部を具備する発音評定装置。
【請求項2】
前記評定部は、
前記1以上のフレーム音声データのうちの少なくとも一のフレーム音声データに対する最適状態を決定する最適状態決定手段と、
前記最適状態決定手段が決定した最適状態における確率値を取得する最適状態確率値取得手段と、
前記最適状態確率値取得手段が取得した確率値をパラメータとして音声の評定値を算出する評定値算出手段を具備する請求項1記載の発音評定装置。
【請求項3】
前記評定部は、
前記1以上のフレーム音声データのうちの少なくとも一の最適状態を決定する最適状態決定手段と、
前記最適状態決定手段が決定した最適状態を有する音韻全体の状態における1以上の確率値を取得する音韻確率値取得手段と、
前記音韻確率値取得手段が取得した1以上の確率値をパラメータとして音声の評定値を算出する評定値算出手段を具備する請求項1記載の発音評定装置。
【請求項4】
前記評定部は、
前記1以上のフレーム音声データの最適状態を決定する最適状態決定手段と、
前記最適状態決定手段が決定した最適状態の確率値を、発音区間毎に取得する発音区間確率値取得手段と、
前記発音区間確率値取得手段が取得した1以上の発音区間毎の1以上の確率値をパラメータとして音声の評定値を算出する評定値算出手段を具備する請求項1記載の発音評定装置。
【請求項5】
前記評定部は、
前記1以上のフレーム音声データの最適状態を決定する最適状態決定手段と、
前記最適状態決定手段が決定した各フレームの最適状態を有する音韻全体の状態における1以上の確率値を、発音区間毎に取得する発音区間フレーム音韻確率値取得手段と、
前記発音区間フレーム音韻確率値取得手段が取得した1以上の発音区間毎の1以上の確率値をパラメータとして音声の評定値を算出する評定値算出手段を具備する請求項1記載の発音評定装置。
【請求項6】
前記出力部は、
前記評定部の評定結果を視覚的に表示する請求項1から請求項5いずれか記載の発音評定装置。
【請求項7】
前記出力部は、
フレーム単位、または/および音素・単語単位、または/および発声全体の評定結果を視覚的に表示する請求項6記載の発音評定装置。
【請求項8】
前記教師データは、比較される対象の音声に関するデータであり、音韻毎の隠れマルコフモデルを連結したHMMに基づくデータである請求項1から請求項7いずれか記載の発音評定装置。
【請求項9】
コンピュータに、
音声の入力を受け付ける音声受付ステップと、
前記音声受付ステップで受け付けた音声を、フレームに区分するフレーム区分ステップと、
前記区分されたフレーム毎の音声データであるフレーム音声データを1以上得るフレーム音声データ取得ステップと、
格納されているデータであり、1以上の音韻毎のデータである教師データと前記1以上のフレーム音声データに基づいて、前記音声受付ステップで受け付けた音声の評定を行う評定ステップと、
前記評定ステップにおける評定結果を出力する出力ステップを実行させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図9】
image rotate

【図10】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図21】
image rotate

【図22】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図11】
image rotate

【図12】
image rotate

【図16】
image rotate

【図20】
image rotate


【公開番号】特開2006−227587(P2006−227587A)
【公開日】平成18年8月31日(2006.8.31)
【国際特許分類】
【出願番号】特願2005−373841(P2005−373841)
【出願日】平成17年12月27日(2005.12.27)
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成17年度独立行政法人情報通信研究機構、研究テーマ「人間情報コミュニケーションの研究開発」に関する委託研究、産業活力再生特別措置法第30条の適用を受ける特許出願
【出願人】(393031586)株式会社国際電気通信基礎技術研究所 (905)
【Fターム(参考)】