発音評定装置、およびプログラム

【課題】従来の語学学習装置では、標準音データと学習者の発音の類似度の評定の精度が低く、また、リアルタイムに高速に点数を表示するためには、処理能力が極めて高いＣＰＵ、多量のメモリが必要であった。
【解決手段】比較される対象の音声に関するデータであり、音韻毎の隠れマルコフモデル（ＨＭＭ）に基づくデータである教師データを１以上格納しており、音声入力を受け付ける音声受付部と、前記受け付けた音声を、フレームに区分するフレーム区分部と、前記区分されたフレーム毎の音声データであるフレーム音声データを１以上得るフレーム音声データ取得部と、前記教師データと前記１以上のフレーム音声データに基づいて、前記音声受付部が受け付けた音声の評定を行う評定部と、前記評定部の評定結果を出力する出力部を具備する発音評定装置により、両者の類似度の評定の精度を高くすることができる。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、入力された音声を評価する装置等に関し、特に、語学学習等に利用できる発音評定装置等に関するものである。
【背景技術】
【０００２】
従来の技術として、以下の語学学習装置がある（特許文献１参照）。本語学学習装置は、学習者が選択した役割の発音をレファランスデータと比較して一致度によって点数化して表示し、点数によって適当な次の画面を自動に表示することにより、学習能率を向上させる装置である。本従来の語学学習装置は、入力された音声信号は音声認識技術により分析された後、学習者発音のスペクトルと抑揚とが学習者発音表示ボックスに表れるという構成になっている。そして、従来の技術においては、標準音データと学習者の発音のスペクトル、および抑揚が比較されて点数が表示される。
【特許文献１】特開２００３−２２８２７９（第１頁、第１図等）
【発明の開示】
【発明が解決しようとする課題】
【０００３】
しかし、従来の技術においては、標準音データと学習者の発音のスペクトル、および抑揚が比較されて点数が表示される構成であるので、両者の類似度の評定の精度が低く、また、リアルタイムに高速に点数を表示するためには、処理能力が極めて高いＣＰＵ、多量のメモリが必要であった。
【課題を解決するための手段】
【０００４】
本第一の発明の発音評定装置は、比較される対象の音声に関するデータであり、音韻毎に連結したデータである教師データを１以上格納している教師データ格納部と、音声の入力を受け付ける音声受付部と、前記音声受付部が受け付けた音声を、フレームに区分するフレーム区分部と、前記区分されたフレーム毎の音声データであるフレーム音声データを１以上得るフレーム音声データ取得部と、前記教師データと前記１以上のフレーム音声データに基づいて、前記音声受付部が受け付けた音声の評定を行う評定部と、前記評定部の評定結果を出力する出力部を具備する発音評定装置である。
【０００５】
かかる発音評定装置は、音韻毎に連結したデータである教師データとフレーム分割された入力音声データを用いて、比較対象の音声と入力音声の類似度を評定することができるので、両者の類似度の評定の精度を高く、高速に行うことができる。なお、教師データは、比較される対象の音声に関するデータであり、音韻毎の隠れマルコフモデルを連結したＨＭＭに基づくデータであることは好適である。
【０００６】
また、本第二の発明の発音評定装置は、第一の発明の発音評定装置において、前記教師データは、音韻毎の隠れマルコフモデル（ＨＭＭ）を連結したＨＭＭに基づくデータであり、前記評定部は、前記１以上のフレーム音声データのうちの少なくとも一の最適状態を決定する最適状態決定手段と、前記最適状態決定手段が決定した最適状態における確率値を取得する最適状態確率値取得手段と、前記最適状態確率値取得手段が取得した確率値をパラメータとして音声の評定値を算出する評定値算出手段を具備する発音評定装置である。
かかる構成により、比較対象の音声と入力音声の類似度の評定を精度高く、かつ高速にできる。
【０００７】
また、本第三の発明の発音評定装置は、第一の発明の発音評定装置において、前記教師データは、音韻毎の隠れマルコフモデル（ＨＭＭ）を連結したＨＭＭに基づくデータであり、前記評定部は、前記１以上のフレーム音声データのうちの少なくとも一の最適状態を決定する最適状態決定手段と、前記最適状態決定手段が決定した最適状態を有する音韻全体の状態における１以上の確率値を取得する音韻確率値取得手段と、前記音韻確率値取得手段が取得した１以上の確率値をパラメータとして音声の評定値を算出する評定値算出手段を具備する発音評定装置である。
【０００８】
かかる構成により、比較対象の音声と入力音声の類似度の評定を精度高く、かつ高速にできる。また、かかる構成の発音評定装置により、第二の発明の発音評定装置と比較しても、評定値のパラメータで用いる確率値が、各フレームにおけるすべての音韻の中で最適な音韻の事後確率（確率値）を表しており、測定したい類似度（いわゆる音韻らしさ）を精度良く、安定して求めることができる。
【０００９】
また、本第四の発明の発音評定装置は、第一の発明の発音評定装置において、前記教師データは、音韻毎の隠れマルコフモデル（ＨＭＭ）を連結したＨＭＭに基づくデータであり、前記評定部は、前記１以上のフレーム音声データの最適状態を決定する最適状態決定手段と、前記最適状態決定手段が決定した最適状態の確率値を、発音区間毎に取得する発音区間確率値取得手段と、前記発音区間確率値取得手段が取得した１以上の発音区間毎の１以上の確率値をパラメータとして音声の評定値を算出する評定値算出手段を具備する発音評定装置である。
【００１０】
かかる構成により、比較対象の音声と入力音声の類似度の評定を精度高く、かつ高速にできる。また、かかる構成の発音評定装置により、上記の発明の発音評定装置と比較しても、発音区間単位での類似度を評定でき、かつ計算量の多大な増加を招くことがない。
また、本第五の発明の発音評定装置は、第一の発明の発音評定装置において、前記教師データは、音韻毎の隠れマルコフモデル（ＨＭＭ）を連結したＨＭＭに基づくデータであり、前記評定部は、前記１以上のフレーム音声データの最適状態を決定する最適状態決定手段と、前記最適状態決定手段が決定した各フレームの最適状態を有する音韻全体の状態における１以上の確率値を、発音区間毎に取得する発音区間フレーム音韻確率値取得手段と、前記発音区間フレーム音韻確率値取得手段が取得した１以上の発音区間毎の１以上の確率値をパラメータとして音声の評定値を算出する評定値算出手段を具備する発音評定装置である。
【００１１】
かかる構成により、比較対象の音声と入力音声の類似度の評定を精度高く、かつ高速にできる。また、かかる構成の発音評定装置により、上記の発明の発音評定装置と比較しても、発音区間単位での類似度を精度良く、安定して評定でき、かつ計算量の多大な増加を招くことがない。
【発明の効果】
【００１２】
本発明による発音評定装置によれば、比較対象の音声と入力音声の類似度の評定を精度高く、かつ高速にできる。
【発明を実施するための最良の形態】
【００１３】
以下、発音評定装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
（実施の形態１）
【００１４】
本実施の形態において、比較対象の音声と入力音声の類似度の評定を精度高く、かつ高速にできる発音評定装置について説明する。特に、本発音評定装置は、入力音声のフレームに対する最適状態の事後確率を、動的計画法を用いて算出することから、当該事後確率をＤＡＰ（ＤｙｎａｍｉｃＡＰｏｓｔｅｒｉｏｒｉＰｒｏｂａｂｉｌｉｔｙ）と呼び、ＤＡＰに基づく類似度計算法および発音評定装置をＤＡＰＳと呼ぶ。
【００１５】
また、本実施の形態における発音評定装置は、例えば、語学学習や物真似練習などに利用できる。図１は、本実施の形態における発音評定装置のブロック図である。本発音評定装置は、入力受付部１０１、教師データ格納部１０２、音声受付部１０３、フレーム区分部１０４、フレーム音声データ取得部１０５、評定部１０６、出力部１０７を具備する。評定部１０６は、最適状態決定手段１０６１、最適状態確率値取得手段１０６２、評定値算出手段１０６３を具備する。
【００１６】
入力受付部１０１は、発音評定装置の動作開始を指示する動作開始指示や、入力した音声の評定結果の出力態様の変更を指示する出力態様変更指示や、処理を終了する終了指示などの入力を受け付ける。かかる指示等の入力手段は、テンキーやキーボードやマウスやメニュー画面によるもの等、何でも良い。入力受付部１０１は、テンキーやキーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。
【００１７】
教師データ格納部１０２は、教師データとして比較される対象の音声に関するデータであり、音韻毎の隠れマルコフモデル（ＨＭＭ）に基づくデータを１以上格納している。教師データは、音韻毎の隠れマルコフモデル（ＨＭＭ）を連結したＨＭＭに基づくデータであることが好適である。また、教師データは、入力される音声を構成する音素に対応するＨＭＭを、入力順序に従って連結されているＨＭＭに基づくデータであることが好適である。ここで、「入力順序」とは、音声受付部１０３が受け付ける音声の並び、順序のことである。ただし、教師データは、必ずしも、音韻毎のＨＭＭを連結したＨＭＭに基づくデータである必要はない。教師データは、全音素のＨＭＭの、単なる集合であっても良い。また、教師データは、必ずしもＨＭＭに基づくデータである必要はない。教師データは、単一ガウス分布モデルや、確率モデル（ＧＭＭ：ガウシャンミクスチャモデル）や、統計モデルなど、他のモデルに基づくデータでも良い。ＨＭＭに基づくデータは、例えば、フレーム毎に、状態識別子と遷移確率の情報を有する。また、ＨＭＭに基づくデータは、例えば、複数の学習対象言語を母国語として話す外国人が発声した２以上のデータから学習した（推定した）モデルでも良い。教師データ格納部１０２は、ハードディスクやＲＯＭなどの不揮発性の記録媒体が好適であるが、ＲＡＭなどの揮発性の記録媒体でも実現可能である。
【００１８】
音声受付部１０３は、音声の入力を受け付ける。音声受付部１０３は、例えば、マイクのドライバーソフトで実現され得る。また、なお、音声受付部１０３は、マイクとそのドライバーから実現されると考えても良い。音声は、マイクから入力されても良いし、磁気テープやＣＤ−ＲＯＭなどの記録媒体から読み出すことにより入力されても良い。
【００１９】
フレーム区分部１０４は、音声受付部１０３が受け付けた音声を、フレームに区分する。フレーム区分部１０４は、通常、ＭＰＵやメモリ等から実現され得る。フレーム区分部１０４の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。
【００２０】
フレーム音声データ取得部１０５は、フレーム区分部１０４が区分したフレーム毎の音声データであるフレーム音声データを１以上得る。フレーム音声データ取得部１０５は、通常、ＭＰＵやメモリ等から実現され得る。フレーム音声データ取得部１０５の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。
【００２１】
評定部１０６は、教師データ格納部１０２の教師データと、フレーム音声データ取得部１０５が取得した１以上のフレーム音声データに基づいて、音声受付部１０３が受け付けた音声の評定を行う。評定方法の具体例は、後述する。評定部１０６は、通常、ＭＰＵやメモリ等から実現され得る。評定部１０６の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。
【００２２】
出力部１０７は、評定部１０６の評定結果を出力する。出力部１０７の出力態様は、種々考えられる。出力とは、ディスプレイへの表示、プリンタへの印字、音出力、外部の装置への送信、記録媒体への蓄積等を含む概念である。出力部１０７は、例えば、評定部１０６の評定結果を視覚的に表示する。出力部１０７は、例えば、フレーム単位、または／および音素・単語単位、または／および発声全体の評定結果を視覚的に表示する。また、「出力態様」が異なるとは、例えば、出力デバイス（ディスプレイやプリンタなど）が異なることや、出力する情報（フレーム単位の評定結果や、発声全体の評定結果など）が異なることを言う。出力部１０７は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。出力部１０７は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。
【００２３】
評定部１０６を構成している最適状態決定手段１０６１は、１以上のフレーム音声データのうちの少なくとも一のフレーム音声データに対する最適状態を決定する。最適状態決定手段１０６１は、例えば、全音韻ＨＭＭから、比較される対象（学習対象）の単語や文章などの音声を構成する1以上の音素に対応するＨＭＭを取得し、当該取得した1以上のＨＭＭを、音素の順序で連結したデータ（比較される対象の音声に関するデータであり、音韻毎の隠れマルコフモデルを連結したＨＭＭに基づくデータ）を構成する。そして、構成した当該データ、および取得した特徴ベクトル系列を構成する各特徴ベクトルｏ_ｔに基づいて、所定のフレームの最適状態（特徴ベクトルｏ_ｔに対する最適状態）を決定する。なお、最適状態を決定するアルゴリズムは、例えば、Ｖｉｔｅｒｂｉアルゴリズムである。また、教師データは、上述の比較される対象の音声に関するデータであり、音韻毎の隠れマルコフモデルを連結したＨＭＭに基づくデータと考えても良いし、連結される前のデータであり、全音韻ＨＭＭのデータと考えても良い。
最適状態確率値取得手段１０６２は、最適状態決定手段１０６１が決定した最適状態における確率値を取得する。
【００２４】
評定値算出手段１０６３は、最適状態確率値取得手段１０６２が取得した確率値をパラメータとして音声の評定値を算出する。評定値算出手段１０６３は、上記確率値を如何に利用して、評定値を算出するかは問わない。通常、評定値算出手段１０６３は、取得した確率値が大きいほど、高い評定値となるように評定値を算出する。つまり、通常、評定値算出手段１０６３が評定値を算出するための演算式は、確率値をパラメータとする増加関数である。評定値算出手段１０６３は、例えば、最適状態確率値取得手段１０６２が取得した確率値と、当該確率値に対応するフレームの全状態における確率値の総和をパラメータとして音声の評定値を算出する。評定値算出手段１０６３は、ここでは、通常、フレームごとに評定値を算出する。また、上記の演算式の情報は、評定値算出手段１０６３が、記憶媒体等に予め保持している。
【００２５】
最適状態決定手段１０６１、最適状態確率値取得手段１０６２、評定値算出手段１０６３は、通常、ＭＰＵやメモリ等から実現され得る。最適状態決定手段１０６１等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。
次に、本発音評定装置の動作について図２のフローチャートを用いて説明する。
【００２６】
（ステップＳ２０１）入力受付部１０１は、発音評定装置の動作開始を指示する動作開始指示を受け付けたか否かを判断する。動作開始指示を受け付ければステップＳ２０２に行き、動作開始指示を受け付けなければステップＳ２１５に飛ぶ。
（ステップＳ２０２）音声受付部１０３は、音声の入力を受け付けたか否かを判断する。音声の入力を受け付ければステップＳ２０３に行き、音声の入力を受け付けなければステップＳ２１４に飛ぶ。
（ステップＳ２０３）フレーム区分部１０４は、ステップＳ２０２で受け付けた音声のデータを図示しないバッファに一時格納する。
【００２７】
（ステップＳ２０４）フレーム区分部１０４は、バッファに一時格納した音声データをフレームに区分する。かかる段階で、区分されたフレーム毎の音声データであるフレーム音声データが構成されている。フレーム区分部１０４が行うフレーム分割の処理は、例えば、フレーム音声データ取得部１０５がフレーム音声データを取り出す際の前処理であり、入力された音声のデータを、すべてのフレームに一度に分割するとは限らない。
（ステップＳ２０５）フレーム音声データ取得部１０５は、カウンタｉに１を代入する。
【００２８】
（ステップＳ２０６）フレーム音声データ取得部１０５は、ｉ番目のフレームが存在するか否かを判断する。ｉ番目のフレームが存在すればステップＳ２０７に行き、ｉ番目のフレームが存在しなければステップＳ２０９に行く。
【００２９】
（ステップＳ２０７）フレーム音声データ取得部１０５は、ｉ番目のフレームのフレーム音声データを取得する。フレーム音声データの取得とは、例えば、当該分割された音声データを音声分析し、特徴ベクトルデータを抽出することである。なお、フレーム音声データは、例えば、入力された音声データをフレーム分割されたデータである。また、フレーム音声データは、例えば、当該分割された音声データから音声分析され、抽出された特徴ベクトルデータを有する。本特徴ベクトルデータは、例えば、三角型フィルタを用いたチャネル数２４のフィルタバンク出力を離散コサイン変換したＭＦＣＣであり、その静的パラメータ、デルタパラメータおよびデルタデルタパラメータをそれぞれ１２次元、さらに正規化されたパワーとデルタパワーおよびデルタデルタパワー（３９次元）を有する。
（ステップＳ２０８）フレーム音声データ取得部１０５は、カウンタｉを１、インクリメントする。ステップＳ２０６に戻る。
【００３０】
（ステップＳ２０９）最適状態決定手段１０６１は、全フレームの最適状態を決定する。最適状態決定手段１０６１が最適状態を決定するアルゴリズムは、例えば、Ｖｉｔｅｒｂｉアルゴリズムによる。Ｖｉｔｅｒｂｉアルゴリズムは、公知のアルゴリズムであるので、詳細な説明は省略する。
【００３１】
（ステップＳ２１０）最適状態確率値取得手段１０６２は、全フレームの全状態の前向き尤度、および後向き尤度を算出する。最適状態確率値取得手段１０６２は、例えば、全てのＨＭＭを用いて、フォワード・バックワードアルゴリズムにより、前向き尤度、および後向き尤度を算出する。
（ステップＳ２１１）最適状態確率値取得手段１０６２は、ステップＳ２１０で取得した前向き尤度、および後向き尤度を用いて、最適状態の確率値（最適状態確率値）を、すべて算出する。
【００３２】
（ステップＳ２１２）評定値算出手段１０６３は、ステップＳ２１１で算出した1以上の最適状態確率値から、1以上のフレームの音声の評定値を算出する。評定値算出手段１０６３が評定値を算出する関数は問わない。評定値算出手段１０６３は、例えば、取得した最適状態確率値と、当該最適状態確率値に対応するフレームの全状態における確率値の総和をパラメータとして音声の評定値を算出する。詳細については、後述する。
【００３３】
（ステップＳ２１３）出力部１０７は、ステップＳ２１２における評定結果（ここでは、音声の評定値）を、設定されている出力モードに従って、出力する。ステップＳ２０２に戻る。出力モードとは、評定値を数値で画面に表示するモード、評定値の遷移をグラフで画面に表示するモード、評定値を音声で出力するモード、評定値が所定の数値より低い場合に警告を示す情報を表示するモードなど、何でも良い。なお、ここでの出力モードは、ステップＳ２１６で設定されるモードである。
【００３４】
（ステップＳ２１４）音声受付部１０３は、タイムアウトか否かを判断する。つまり、音声受付部１０３は、所定の時間以上、音声の入力を受け付けなかったか否かを判断する。タイムアウトであればステップＳ２０１に戻り、タイムアウトでなければステップＳ２０２に戻る。
【００３５】
（ステップＳ２１５）入力受付部１０１は、出力態様変更指示を受け付けたか否かを判断する。出力態様変更指示を受け付ければステップＳ２１６に行き、出力態様変更指示を受け付なければステップＳ２１７に飛ぶ。出力態様変更指示は、上述した出力モードを有する情報である。
（ステップＳ２１６）出力部１０７は、ステップＳ２１５で受け付けた出力態様変更指示が有する出力モードを示す情報をメモリ等に書き込み、出力モードを設定する。ステップＳ２０１に戻る。
（ステップＳ２１７）入力受付部１０１は、終了指示を受け付けたか否かを判断する。終了指示を受け付ければ処理を終了し、終了指示を受け付なければステップＳ２０１に戻る。
なお、図２のフローチャートにおいて、本発音評定装置は、出力モードの設定機能を有しなくても良い。
以下、本実施の形態における発音評定装置の具体的な動作について説明する。本具体例において、発音評定装置が語学学習に利用される場合について説明する。
【００３６】
まず、本発音評定装置において、図示しない手段により、ネイティブ発音の音声データベースからネイティブ発音の音韻ＨＭＭを学習しておく。ここで、音韻の種類数をＬとし、ｌ番目の音韻に対するＨＭＭをλ_ｌとする。なお、かかる学習の処理については、公知技術であるので、詳細な説明は省略する。なお、ＨＭＭの仕様について、図３に示す。なお、ＨＭＭの仕様は、他の実施の形態における具体例の説明においても同様である。ただし、ＨＭＭの仕様が、他の仕様でも良いことは言うまでもない。
【００３７】
そして、学習したＬ種類の音韻ＨＭＭから、学習対象の単語や文章などの音声を構成する１以上の音素に対応するＨＭＭを取得し、当該取得した１以上のＨＭＭを、音素の順序で連結した教師データを構成する。そして、当該教師データを教師データ格納部１０２に保持しておく。ここでは、例えば、比較される対象の音声は、単語「ｒｉｇｈｔ」の音声である。
次に、学習者が、語学学習の開始の指示である動作開始指示を入力する。かかる指示は、例えば、マウスで所定のボタンを押下することによりなされる。
次に、学習者は、学習対象の音声「ｒｉｇｈｔ」を発音する。そして、音声受付部１０３は、学習者が発音した音声の入力を受け付ける。
次に、フレーム区分部１０４は、音声受付部１０３が受け付けた音声を、短時間フレームに区分する。なお、フレームの間隔は、予め決められている、とする。
【００３８】
そして、フレーム音声データ取得部１０５は、フレーム区分部１０４が区分した音声データを、スペクトル分析し、特徴ベクトル系列「Ｏ＝ｏ_１，ｏ_２，・・・，ｏ_Ｔ」を算出する。なお、Ｔは、系列長である。ここで、特徴ベクトル系列は、各フレームの特徴ベクトルの集合である。また、特徴ベクトルは、例えば、三角型フィルタを用いたチャネル数２４のフィルタバンク出力を離散コサイン変換したＭＦＣＣであり、その静的パラメータ、デルタパラメータおよびデルタデルタパラメータをそれぞれ１２次元、さらに正規化されたパワーとデルタパワーおよびデルタデルタパワー（３９次元）を有する。また、スペクトル分析において、ケプストラム平均除去を施すことは好適である。なお、音声分析条件を図４の表に示す。なお、音声分析条件は、他の実施の形態における具体例の説明においても同様である。ただし、音声分析条件が、他の条件でも良いことは言うまでもない。
【００３９】
次に、最適状態決定手段１０６１は、取得した特徴ベクトル系列を構成する各特徴ベクトルｏ_ｔに基づいて、所定のフレームの最適状態（特徴ベクトルｏ_ｔに対する最適状態）を決定する。最適状態決定手段１０６１が最適状態を決定するアルゴリズムは、例えば、Ｖｉｔｅｒｂｉアルゴリズムによる。かかる場合、最適状態決定手段１０６１は、上記で連結したＨＭＭを用いて最適状態を決定する。最適状態決定手段１０６１は、２以上のフレームの最適状態である最適状態系列を求めることとなる。
【００４０】
次に、最適状態確率値取得手段１０６２は、以下の数式１により、最適状態（ｑ_ｔ^＊）における最適状態確率値（γ_ｔ（ｑ_ｔ^＊））を算出する。なお、γ_ｔ（ｑ_ｔ^＊）は、状態ｊの事後確率関数γ_ｔ（ｊ）のｊにｑ_ｔ^＊を代入した値である。そして、状態ｊの事後確率関数γ_ｔ（ｊ）は、数式２を用いて算出される。この確率値（γ_ｔ（ｊ））は、ｔ番目の特徴ベクトルｏ_ｔが状態ｊから生成された事後確率であり、動的計画法を用いて算出される。なお、ｊは、状態を識別する状態識別子である。
【数１】

数式２において、ｑ_ｔは、ｏ_ｔに対する状態識別子を表す。この確率値（γ_ｔ（ｊ））は、ＨＭＭの最尤推定におけるＢａｕｍ−Ｗｅｌｃｈアルゴリズムの中で表れる占有度数に対応する。
【数２】

【００４１】
数式２において、「α_ｔ（ｊ）」「β_ｔ（ｊ）」は、全部のＨＭＭを用いて、ｆｏｒｗａｒｄ−ｂａｃｋｗａｒｄアルゴリズムにより算出される。「α_ｔ（ｊ）」は前向き尤度、「β_ｔ（ｊ）」は後向き尤度である。Ｂａｕｍ−Ｗｅｌｃｈアルゴリズム、ｆｏｒｗａｒｄ−ｂａｃｋｗａｒｄアルゴリズムは、公知のアルゴリズムであるので、詳細な説明は省略する。
また、数式２において、Ｎは、全ＨＭＭに渡る状態の総数を示す。
【００４２】
なお、評定部１０６は、まず最適状態を求め、次に、最適状態の確率値（なお、確率値は、０以上、１以下である。）を求めても良いし、評定部１０６は、まず、全状態の確率値を求め、その後、特徴ベクトル系列の各特徴ベクトルに対する最適状態を求め、当該最適状態に対応する確率値を求めても良い。
【００４３】
次に、評定値算出手段１０６３は、例えば、上記の取得した最適状態確率値と、当該最適状態確率値に対応するフレームの全状態における確率値の総和をパラメータとして音声の評定値を算出する。かかる場合、もし学習者のｔフレーム目に対応する発声が、教師データが示す発音（例えば、正しいネイティブな発音）に近ければ、数式２の（２）式の分子の値が、他の全ての可能な音韻の全ての状態と比較して大きくなり、結果的に最適状態の確率値（評定値）が大きくなる。逆にその区間が、教師データが示す発音に近くなければ、評定値は小さくなる。なお、どのネイティブ発音にも近くないような場合は、評定値はほぼ１／Ｎに等しくなる。Ｎは全ての音韻ＨＭＭにおける全ての状態の数であるから、通常、Ｎは大きな値となり、この評定値は十分小さくなる。また、ここでは、評定値は最適状態における確率値と全ての可能な状態における確率値との比率で定義されている。したがって、話者性や収音環境の違いにより多少のスペクトルの変動があったとしても、学習者が正しい発音をしていれば、その変動が相殺され評定値が高いスコアを維持する。よって、評定値算出手段１０６３は、最適状態確率値取得手段１０６２が取得した確率値と、当該確率値に対応するフレームの全状態における確率値の総和をパラメータとして音声の評定値を算出することは、極めて好適である。
【００４４】
かかる評定値算出手段１０６３が算出した評定値（「ＤＡＰスコア」とも言う。）を、図５、図６に示す。図５、図６において、横軸は分析フレーム番号、縦軸はスコアを％で表わしたものである。太い破線は音素境界，細い点線は状態境界（いずれもＶｉｔｅｒｂｉアルゴリズムで求まったもの）を表わしており，図の上部に音素名を表記している。図５は、アメリカ人男性による英語「ｒｉｇｈｔ」の発音のＤＡＰスコアを示す。なお、評定値を示すグラフの横軸、縦軸は、後述するグラフにおいても同様である。
【００４５】
図６は、日本人男性による英語「ｒｉｇｈｔ」の発音のＤＡＰスコアを示す。アメリカ人の発音は、日本人の発音と比較して、基本的にスコアが高い。また、図５において、状態の境界において所々スコアが落ち込んでいることがわかる。
【００４６】
そして、出力部１０７は、評定部１０６の評定結果を出力する。具体的には、例えば、出力部１０７は、図７に示すような態様で、評定結果を出力する。つまり、出力部１０７は、各フレームにおける発音の良さを表すスコア（スコアグラフ）として、各フレームの評定値を表示する。その他、出力部１０７は、学習対象の単語の表示（単語表示）、音素要素の表示（音素表示）、教師データの波形の表示（教師波形）、学習者の入力した発音の波形の表示（ユーザ波形）を表示しても良い。なお、図７において、「録音」ボタンを押下すれば、動作開始指示が入力されることとなり、「停止」ボタンを押下すれば、終了指示が入力されることとなる。なお、本発音評定装置は、学習対象の単語（図７の「ｗｏｒｄ１」など）や、音素（図７の「ｐ１」など）や、教師波形が出力されるためのデータを予め格納している、とする。
【００４７】
また、図７において、フレーム単位以外に、音素単位、単語単位、発声全体の評定結果を表示しても良い。上記の処理において、フレーム単位の評定値を算出するので、単語単位、発声全体の評定結果を得るためには、フレーム単位の１以上の評定値をパラメータとして、単語単位、発声全体の評定値を算出する必要がある。かかる算出式は問わないが、例えば、単語を構成するフレーム単位の１以上の評定値の平均値を単語単位の評定値とする、ことが考えられる。また、一の音素の評定値は、例えば、当該音素を構成する1以上のフレームの１以上の評定値の中間値や、平均値などである。また、一の単語の評定値は、例えば、当該単語を構成する1以上のフレームの１以上の評定値の中間値や、平均値でも良いし、当該単語を構成する1以上の音素の評定値の平均値や中間値などでも良い。また、発声全体の評定値は、例えば、当該発声全体を構成する1以上のフレームの１以上の評定値の中間値や、平均値でも良いし、当該発声全体を構成する1以上の音素の評定値の平均値や中間値などでも良いし、当該発声全体を構成する1以上の単語の評定値の平均値や中間値などでも良い。
【００４８】
なお、図７において、発音評定装置は、波形表示（教師波形またはユーザ波形）の箇所においてクリックを受け付けると、再生メニューを表示し、音素区間内ではその音素またはその区間が属する単語、波形全体を再生し、単語区間外（無音部）では波形全体のみを再生するようにしても良い。
また、出力部１０７の表示は、図８に示すような態様でも良い。図８において、音素ごとのスコア、単語のスコア、総合スコアが、数字で表示されている。
なお、出力部１０７の表示は、図５、図６のような表示でも良いことは言うまでもない。
以上、本実施の形態によれば、ユーザが入力した発音を、教師データに対して、如何に似ているかを示す類似度（評定値）を算出し、出力できる。
【００４９】
また、本実施の形態によれば、連結されたＨＭＭである連結ＨＭＭを用いて最適状態を求め、評定値を算出するので、高速に評定値を求めることができる。したがって、上記の具体例で述べたように、リアルタイムに、フレームごと、音素ごと、単語ごとの評定値を出力できる。また、本実施の形態によれば、動的計画法に基づいた事後確率を確率値として算出するので、さらに高速に評定値を求めることができる。また、本実施の形態によれば、フレームごとに確率値を算出するので、上述したように、フレーム単位だけではなく、または／および音素・単語単位、または／および発声全体の評定結果を出力でき、出力態様の自由度が高い。
【００５０】
また、本実施の形態によれば、発音評定装置は、語学学習に利用することを主として説明したが、物真似練習やカラオケ評定などに利用できる。つまり、本発音評定装置は、比較される対象の音声に関するデータとの類似度を精度良く、高速に評定し、出力でき、そのアプリケーションは問わない。
【００５１】
また、本実施の形態において、音声の入力を受け付けた後または停止ボタン操作後に、スコアリング処理を実行するかどうかをユーザに問い合わせ、スコアリング処理を行うとの指示を受け付けた場合のみ、図８に示すような音素スコア、単語スコア、総合スコアを出力するようにしても良い。
【００５２】
また、本実施の形態において、教師データは、比較される対象の音声に関するデータであり、音韻毎の隠れマルコフモデル（ＨＭＭ）に基づくデータであるとして、主として説明したが、必ずしもＨＭＭに基づくデータである必要はない。教師データは、単一ガウス分布モデルや、確率モデル（ＧＭＭ：ガウシャンミクスチャモデル）や統計モデルなど、他のモデルに基づくデータでも良い。かかることは、他の実施の形態においても同様である。
【００５３】
さらに、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをＣＤ−ＲＯＭなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における発音評定装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、音声の入力を受け付ける音声受付ステップと、前記音声受付ステップで受け付けた音声を、フレームに区分するフレーム区分ステップと、前記区分されたフレーム毎の音声データであるフレーム音声データを1以上得るフレーム音声データ取得ステップと、格納されているデータであり、音韻毎の隠れマルコフモデル（ＨＭＭ）に基づくデータである教師データと前記1以上のフレーム音声データに基づいて、前記音声受付ステップで受け付けた音声の評定を行う評定ステップと、前記評定ステップにおける評定結果を出力する出力ステップを実行させるためのプログラム、である。
【００５４】
また、上記プログラムにおいて、前記教師データは、音韻毎の隠れマルコフモデル（ＨＭＭ）を連結したＨＭＭに基づくデータであり、前記評定ステップは、前記1以上のフレーム音声データのうちの少なくとも一の最適状態を決定する最適状態決定サブステップと、前記最適状態決定サブステップで決定した最適状態における確率値を取得する最適状態確率値取得サブステップと、前記最適状態確率値取得サブステップで取得した確率値をパラメータとして音声の評定値を算出する評定値算出サブステップを具備するプログラム、である。
【００５５】
なお、上記プログラムにおいて、評定値算出サブステップにおいて、前記最適状態確率値取得サブステップで取得した確率値と、当該確率値に対応するフレームの全状態における確率値の総和をパラメータとして音声の評定値を算出することは好適である。
（実施の形態２）
【００５６】
本実施の形態における発音評定装置は、実施の形態１の発音評定装置と比較して、評定部における評定アルゴリズムが異なる。本実施の形態において、評定値は、各フレームにおける、すべての音韻の中で最適な音韻の事後確率（確率値）を表すように算出される。本実施の形態における発音評定装置が算出する事後確率を、実施の形態１におけるＤＡＰに対してｐ−ＤＡＰと呼ぶ。
【００５７】
図９は、本実施の形態における発音評定装置のブロック図である。本発音評定装置は、入力受付部１０１、教師データ格納部１０２、音声受付部１０３、フレーム区分部１０４、フレーム音声データ取得部１０５、評定部９０６、出力部１０７を具備する。評定部９０６は、最適状態決定手段１０６１、音韻確率値取得手段９０６２、評定値算出手段９０６３を具備する。
音韻確率値取得手段９０６２は、最適状態決定手段１０６１が決定した最適状態を有する音韻全体の状態における１以上の確率値を取得する。ここで１以上の確率値とは、１つ以上の確率値の意味である。
【００５８】
評定値算出手段９０６３は、音韻確率値取得手段９０６２が取得した１以上の確率値をパラメータとして音声の評定値を算出する。評定値算出手段９０６３は、例えば、音韻確率値取得手段９０６２が取得した１以上の確率値の総和をパラメータとして音声の評定値を算出する。
【００５９】
音韻確率値取得手段９０６２、および評定値算出手段９０６３は、通常、ＭＰＵやメモリ等から実現され得る。音韻確率値取得手段９０６２等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。
次に、本発音評定装置の動作について図１０のフローチャートを用いて説明する。図１０のフローチャートにおいて、図２と異なるステップについてのみ説明する。
【００６０】
（ステップＳ１００１）音韻確率値取得手段９０６２は、全フレームの全状態の前向き尤度と後向き尤度を算出する。そして、全フレーム、全状態の確率値を得る。具体的には、音韻確率値取得手段９０６２は、例えば、各特徴ベクトルが対象の状態から生成された事後確率を算出する。この事後確率は、ＨＭＭの最尤推定におけるＢａｕｍ−Ｗｅｌｃｈアルゴリズムの中で現れる占有度数に対応する。Ｂａｕｍ−Ｗｅｌｃｈアルゴリズムは、公知のアルゴリズムであるので、説明は省略する。
（ステップＳ１００２）音韻確率値取得手段９０６２は、全フレームの最適状態確率値（最適事後確率）を算出する。
（ステップＳ１００３）音韻確率値取得手段９０６２は、カウンタｉに１を代入する。
【００６１】
（ステップＳ１００４）音韻確率値取得手段９０６２は、ｉ番目の最適状態が存在するか否かを判断する。ｉ番目の最適状態が存在すればステップＳ１００５に行き、ｉ番目の最適状態が存在しなければステップＳ２０２に戻る。
（ステップＳ１００５）音韻確率値取得手段９０６２は、ｉ番目の最適状態を含む音韻全体の確率値をすべて取得する。
【００６２】
（ステップＳ１００６）評定値算出手段９０６３は、ステップＳ１００５で取得した１以上の確率値に基づいて、音声の評定値を算出する。評定値算出手段９０６３は、例えば、音韻確率値取得手段９０６２が取得した１以上の確率値の総和をパラメータとして音声の評定値を算出する。
（ステップＳ１００７）出力部１０７は、ステップＳ１００６で算出した評定値を出力する。
（ステップＳ１００８）音韻確率値取得手段９０６２は、カウンタｉを１、インクリメントする。ステップＳ１００４に戻る。
以下、本実施の形態における発音評定装置の具体的な動作について説明する。本実施の形態において、評定値の算出アルゴリズムが実施の形態１とは異なるので、その動作を中心に説明する。
【００６３】
まず、学習者が、語学学習の開始の指示である動作開始指示を入力した後、学習対象の音声「ｒｉｇｈｔ」を発音する。そして、音声受付部１０３は、学習者が発音した音声の入力を受け付ける。次に、フレーム区分部１０４は、音声受付部１０３が受け付けた音声を、短時間フレームに区分する。
そして、フレーム音声データ取得部１０５は、フレーム区分部１０４が区分した音声データを、スペクトル分析し、特徴ベクトル系列「Ｏ＝ｏ_１，ｏ_２，・・・，ｏ_Ｔ」を算出する。
次に、音韻確率値取得手段９０６２は、各フレームの各状態の事後確率（確率値）を算出する。確率値の算出は、上述した数式２により算出できる。
【００６４】
次に、最適状態決定手段１０６１は、取得した特徴ベクトル系列を構成する各特徴ベクトルｏ_ｔに基づいて、各フレームの最適状態（特徴ベクトルｏ_ｔに対する最適状態）を決定する。つまり、最適状態決定手段１０６１は、最適状態系列を得る。
【００６５】
次に、音韻確率値取得手段９０６２は、フレーム毎に、当該フレームに対応する最適状態（ｑ_ｔ^＊）を含む音韻全体の確率値をすべて取得する。そして、評定値算出手段９０６３は、上記取得した１以上の確率値に基づいて、音声の評定値を算出する。具体的には、評定値算出手段９０６３は、数式３により評定値を算出する。
【数３】

なお、数式３において、Ｐ（ｉ）は、ｉ番目の状態を有しているＨＭＭの持つ全状態の集合を示す。
【００６６】
かかる評定値算出手段９０６３が算出した評定値（「ｐ−ＤＡＰスコア」とも言う。）を、図１１、図１２に示す。図１１は、アメリカ人男性による英語「ｒｉｇｈｔ」の発音のｐ−ＤＡＰスコアを示す。図１２は、日本人男性による英語「ｒｉｇｈｔ」の発音のｐ−ＤＡＰスコアを示す。アメリカ人の発音は、日本人の発音と比較して、基本的にスコアが高い。また、図１１において、音素境界でスコアの落ち込みがあるものの、ｐ−ＤＡＰは本来発音の良好なアメリカ人発音に対して，高いスコアをＤＡＰより安定して出力していることがわかる。かかる判断は、図５のグラフと図１１のグラフを比較して判断できる。また、図１１において、音素／ｒ／のスコアが低いが，この発音を聴いてみたところ／ｒ／の発声が若干不明瞭であった。
【００６７】
そして、出力部１０７は、算出したフレームごとの評定値を、順次出力する。かかる出力例は、図７または図８である。なお、出力部１０７は、図１１、図１２のようなグラフを出力しても良いことは言うまでもない。
以上、本実施の形態によれば、ユーザが入力した発音を、教師データに対して、如何に似ているかを示す類似度（評定値）を算出し、出力できる。
【００６８】
また、本実施の形態によれば、連結されたＨＭＭである連結ＨＭＭを用いて最適状態を求め、評定値を算出するので、高速に評定値を求めることができる。したがって、上記の具体例で述べたように、リアルタイムに、フレームごと、音素ごと、単語ごとの評定値を出力できる。また、本実施の形態によれば、動的計画法に基づいた事後確率を確率値として算出するので、さらに高速に評定値を求めることができる。また、本実施の形態によれば、フレームごとに確率値を算出するので、上述したように、フレーム単位だけではなく、音素・単語単位、または／および発声全体の評定結果を出力でき、出力態様の自由度が高い。
【００６９】
また、本実施の形態によれば、評定値を、各フレームにおいて、すべての音韻の中で最適な音韻の事後確率（確率値）を表しており、実施の形態１におけるような状態単位のＤＡＰと比較して、本来、測定したい類似度を精度良く、安定して求めることができる。つまり、実施の形態１において、ＤＡＰは、全ての可能な状態に対する最適状態の事後確率を計算する。そして、総状態数Ｎは、通常、非常に大きくなり、入力音声によっては、評定値（ＤＡＰのスコア）が大きく低下する。つまり、例えば、あるフレームが存在する音韻内の２つの状態の過渡部にそのフレームが対応してしまえば、評定値が小さくなる。一方、音素に対する類似性を求める本実施の形態によれば、教師データの音韻との類似度（状態との類似度ではない）を測ることができ、好適である。
【００７０】
さらに、本実施の形態における発音評定装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、音声の入力を受け付ける音声受付ステップと、前記音声受付ステップで受け付けた音声を、フレームに区分するフレーム区分ステップと、前記区分されたフレーム毎の音声データであるフレーム音声データを1以上得るフレーム音声データ取得ステップと、格納されているデータであり、音韻毎の隠れマルコフモデル（ＨＭＭ）に基づくデータである教師データと前記1以上のフレーム音声データに基づいて、前記音声受付ステップで受け付けた音声の評定を行う評定ステップと、前記評定ステップにおける評定結果を出力する出力ステップを実行させるためのプログラム、である。
【００７１】
また、上記プログラムにおいて、前記教師データは、音韻毎の隠れマルコフモデル（ＨＭＭ）を連結したＨＭＭに基づくデータであり、前記評定ステップは、前記1以上のフレーム音声データのうちの少なくとも一の最適状態を決定する最適状態決定サブステップと、前記最適状態決定サブステップで決定した最適状態を有する音韻全体の状態における１以上の確率値を取得する音韻確率値取得サブステップと、前記音韻確率値取得サブステップで取得した１以上の確率値をパラメータとして音声の評定値を算出する評定値算出サブステップを具備するプログラム、である。さらに、上記プログラムにおける評定値算出サブステップにおいて、前記音韻確率値取得サブステップで取得した１以上の確率値の総和をパラメータとして音声の評定値を算出することは好適である。これは、音韻確率値取得サブステップで取得した１以上の確率値の総和を音声の評定値とすることも含む。
（実施の形態３）
【００７２】
本実施の形態における発音評定装置は、実施の形態１、２の発音評定装置と比較して、評定部における評定アルゴリズムが異なる。本実施の形態において、評定値は、発音区間ごとに算出される。本実施の形態における発音評定装置が算出する事後確率を、実施の形態１におけるＤＡＰに対してｔ−ＤＡＰと呼ぶ。
【００７３】
図１３は、本実施の形態における発音評定装置のブロック図である。本発音評定装置は、入力受付部１０１、教師データ格納部１０２、音声受付部１０３、フレーム区分部１０４、フレーム音声データ取得部１０５、評定部１３０６、出力部１０７を具備する。評定部１３０６は、最適状態決定手段１０６１、発音区間確率値取得手段１３０６２、評定値算出手段１３０６３を具備する。
発音区間確率値取得手段１３０６２は、最適状態決定手段１０６１が決定した最適状態の確率値を、発音区間毎に取得する。ここで、発音区間とは、音韻、音節、単語など、発音の一まとまりを構成する区間である。
【００７４】
評定値算出手段１３０６３は、発音区間確率値取得手段１３０６２が取得した１以上の発音区間毎の１以上の確率値をパラメータとして音声の評定値を算出する。評定値算出手段１３０６３は、例えば、発音区間確率値取得手段１３０６２が取得した各発音区間の１以上の確率値の時間平均値を、発音区間毎に算出し、１以上の時間平均値を得て、当該１以上の時間平均値をパラメータとして音声の評定値を算出する。評定値算出手段１３０６３は、例えば、発音区間確率値取得手段１３０６２が取得した各発音区間内の１以上の確率値の中間値を、発音区間毎に取得し、当該１以上の値（取得した中間値）をパラメータとして音声の評定値を算出しても良い。なお、評定値算出手段１３０６３は、発音区間確率値取得手段１３０６２が取得した各発音区間の１以上の確率値の中間値を評定値としても良い。
【００７５】
発音区間確率値取得手段１３０６２、および評定値算出手段１３０６３は、通常、ＭＰＵやメモリ等から実現され得る。発音区間確率値取得手段１３０６２等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。
次に、本発音評定装置の動作について図１４のフローチャートを用いて説明する。図１４のフローチャートにおいて、図１０と異なるステップについてのみ説明する。
（ステップＳ１４０１）発音区間確率値取得手段１３０６２は、ｊに１を代入する。
【００７６】
（ステップＳ１４０２）発音区間確率値取得手段１３０６２は、次の評定対象の発音区間である、ｊ番目の発音区間が存在するか否かを判断する。ｊ番目の発音区間が存在すればステップＳ１４０３に行き、ｊ番目の発音区間が存在しなければステップＳ２０２に行く。
（ステップＳ１４０３）発音区間確率値取得手段１３０６２は、ｊ番目の発音区間に対応する１以上の最適状態の確率値をすべて取得する。
【００７７】
（ステップＳ１４０４）評定値算出手段１３０６３は、ステップＳ１４０３で取得した１以上の発音区間毎の１以上の確率値をパラメータとして音声の評定値を算出する。例えば、ステップＳ１４０３で取得した１以上の確率値の平均値（時間平均値）を評定値として算出する。評定値算出手段１３０６３は、例えば、ステップＳ１４０３で取得した１以上の確率値の中間値を評定値として取得しても良い。
（ステップＳ１４０５）出力部１０７は、ステップＳ１４０４で算出した評定値を出力する。
（ステップＳ１４０６）発音区間確率値取得手段１３０６２は、カウンタｊを１、インクリメントする。ステップＳ１４０２に戻る。
以下、本実施の形態における発音評定装置の具体的な動作について説明する。本実施の形態において、評定値の算出アルゴリズムが実施の形態２とは異なるので、その動作を中心に説明する。
【００７８】
まず、学習者が、語学学習の開始の指示である動作開始指示を入力した後、学習対象の音声を発音する。そして、音声受付部１０３は、学習者が発音した音声の入力を受け付ける。次に、フレーム区分部１０４は、音声受付部１０３が受け付けた音声を、短時間フレームに区分する。
そして、フレーム音声データ取得部１０５は、フレーム区分部１０４が区分した音声データを、スペクトル分析し、特徴ベクトル系列「Ｏ＝ｏ_１，ｏ_２，・・・，ｏ_Ｔ」を算出する。
【００７９】
次に、最適状態決定手段１０６１は、取得した特徴ベクトル系列を構成する各特徴ベクトルｏ_ｔに基づいて、各フレームの最適状態（特徴ベクトルｏ_ｔに対する最適状態）を決定する。つまり、最適状態決定手段１０６１は、最適状態系列を得る。
次に、発音区間確率値取得手段１３０６２は、各フレームの各状態の事後確率（確率値）を算出する。なお、確率値の算出は、上述した数式２により算出できる。
【００８０】
そして、発音区間確率値取得手段１３０６２は、発音区間に対応する１以上の最適状態の確率値をすべて取得する。そして、評定値算出手段１３０６３は、例えば、取得した１以上の確率値の平均値（時間平均値）を算出する。具体的には、評定値算出手段１３０６３は、数式４により評定値を算出する。なお、数式４において、Τ（ｑ_ｔ^＊）は、状態ｑ_ｔ^＊を含むＨＭＭが含まれる評定対象の発音区間である。｜Τ（ｑ_ｔ^＊）｜は、Τ（ｑ_ｔ^＊）の区間長である。また、τは発音区間Τ（ｑ_ｔ^＊）内のある時刻を表わす。そして、数式４の分子は、Τ（ｑ_ｔ^＊）内において、時刻τにおける最適状態ｑ_τ^*の事後確率γ_τ(ｑ_τ^*)の総和をとった値である。
【数４】

【００８１】
かかる評定値算出手段１３０６３が算出した評定値（「ｔ−ＤＡＰスコア」とも言う。）を、図１５の表に示す。図１５において、アメリカ人男性と日本人男性の評定結果を示す。ＰｈｏｎｅｍｅおよびＷｏｒｄは，ｔ−ＤＡＰにおける時間平均の範囲を示す。図１５において、アメリカ人男性の発音の評定値が日本人男性の発音の評定値より高く、良好な評定結果が得られている。
そして、出力部１０７は、算出した発音区間ごと（例えば、音素毎）の評定値を、順次出力する。かかる出力例は、図１６である。
以上、本実施の形態によれば、ユーザが入力した発音を、教師データに対して、如何に似ているかを示す類似度（評定値）を算出し、出力できる。
【００８２】
また、本実施の形態によれば、連結されたＨＭＭである連結ＨＭＭを用いて最適状態を求め、評定値を算出するので、高速に評定値を求めることができる。したがって、上記の具体例で述べたように、リアルタイムに、フレームごと、音素ごと、単語ごとの評定値を出力できる。また、本実施の形態によれば、動的計画法に基づいた事後確率を確率値として算出するので、さらに高速に評定値を求めることができる。また、本実施の形態によれば、フレームごとに確率値を算出するので、上述したように、フレーム単位だけではなく、音素・単語単位、または／および発声全体の評定結果を出力でき、出力態様の自由度が高い。
また、本実施の形態によれば、評定値を、発音区間の単位で算出でき、実施の形態１におけるような状態単位のＤＡＰと比較して、本来、測定したい類似度を精度良く、安定して求めることができる。
【００８３】
さらに、本実施の形態における発音評定装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、音声の入力を受け付ける音声受付ステップと、前記音声受付ステップで受け付けた音声を、フレームに区分するフレーム区分ステップと、前記区分されたフレーム毎の音声データであるフレーム音声データを1以上得るフレーム音声データ取得ステップと、格納されているデータであり、音韻毎の隠れマルコフモデル（ＨＭＭ）に基づくデータである教師データと前記1以上のフレーム音声データに基づいて、前記音声受付ステップで受け付けた音声の評定を行う評定ステップと、前記評定ステップにおける評定結果を出力する出力ステップを実行させるためのプログラム、である。
【００８４】
また、上記プログラムにおいて、前記教師データは、音韻毎の隠れマルコフモデル（ＨＭＭ）を連結したＨＭＭに基づくデータであり、前記評定ステップは、前記1以上のフレーム音声データの最適状態を決定する最適状態決定サブステップと、前記最適状態決定サブステップで決定した最適状態の確率値を、発音区間毎に取得する発音区間確率値取得サブステップと、前記発音区間確率値取得サブステップで取得した１以上の発音区間毎の１以上の確率値をパラメータとして音声の評定値を算出する評定値算出サブステップを具備するプログラム、である。
【００８５】
さらに、評定値算出サブステップは、前記発音区間確率値取得サブステップで取得した各発音区間の１以上の確率値の時間平均値を、発音区間毎に算出し、１以上の時間平均値を得て、当該１以上の時間平均値をパラメータとして音声の評定値を算出することが好適である。
（実施の形態４）
【００８６】
本実施の形態における発音評定装置は、実施の形態１、２、３の発音評定装置と比較して、評定部における評定アルゴリズムが異なる。本実施の形態において、評定値は、最適状態を含む音韻の中の全状態の確率値を発音区間で評価して、算出される。本実施の形態における発音評定装置が算出する事後確率を、実施の形態１におけるＤＡＰに対してｔ-ｐ−ＤＡＰと呼ぶ。
【００８７】
図１７は、本実施の形態における発音評定装置のブロック図である。本発音評定装置は、入力受付部１０１、教師データ格納部１０２、音声受付部１０３、フレーム区分部１０４、フレーム音声データ取得部１０５、評定部１７０６、出力部１０７を具備する。評定部１７０６は、最適状態決定手段１０６１、発音区間フレーム音韻確率値取得手段１７０６２、評定値算出手段１７０６３を具備する。
発音区間フレーム音韻確率値取得手段１７０６２は、最適状態決定手段１０６１が決定した各フレームの最適状態を有する音韻全体の状態における１以上の確率値を、発音区間毎に取得する。
【００８８】
評定値算出手段１７０６３は、発音区間フレーム音韻確率値取得手段１７０６２が取得した１以上の発音区間毎の１以上の確率値をパラメータとして音声の評定値を算出する。評定値算出手段１７０６３は、例えば、最適状態決定手段１０６１が決定した各フレームの最適状態を有する音韻全体の状態における１以上の確率値の総和を、フレーム毎に得て、当該フレーム毎の確率値の総和に基づいて、発音区間毎の確率値の総和の時間平均値を１以上得て、当該１以上の時間平均値をパラメータとして音声の評定値を算出する。評定値算出手段１７０６３は、例えば、最適状態決定手段１０６１が決定した各フレームの最適状態を有する音韻全体の状態における１以上の確率値の総和を、フレーム毎に得て、当該フレーム毎の確率値の総和に基づいて、発音区間毎の確率値の総和の中間値を１以上得て、当該１以上の値（取得した中間値）をパラメータとして音声の評定値を算出しても良い。評定値算出手段１７０６３は、例えば、最適状態決定手段１０６１が決定した各フレームの最適状態を有する音韻全体の状態における１以上の確率値の総和を、フレーム毎に得て、当該フレーム毎の確率値の総和（通常、２以上の値である）の中間値を取得し、当該中間値を当該発音区間の評定値としても良い。
【００８９】
発音区間フレーム音韻確率値取得手段１７０６２、および評定値算出手段１７０６３は、通常、ＭＰＵやメモリ等から実現され得る。発音区間フレーム音韻確率値取得手段１７０６２等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。
次に、本発音評定装置の動作について図１８のフローチャートを用いて説明する。図１８のフローチャートにおいて、図１４と異なるステップについてのみ説明する。
（ステップＳ１８０１）発音区間フレーム音韻確率値取得手段１７０６２は、カウンタｋに１を代入する。
【００９０】
（ステップＳ１８０２）発音区間フレーム音韻確率値取得手段１７０６２は、ｋ番目のフレームが、ｊ番目の発音区間に存在するか否かを判断する。ｋ番目のフレームが存在すればステップＳ１８０３に行き、ｋ番目のフレームが存在しなければステップＳ１８０１１０６に飛ぶ。
（ステップＳ１８０３）発音区間フレーム音韻確率値取得手段１７０６２は、ｋ番目のフレームの最適状態を含む音韻の全ての確率値を取得する。
（ステップＳ１８０４）評定値算出手段１７０６３は、ステップＳ１８０３で取得した１以上の確率値をパラメータとして、１フレームの音声の評定値を算出する。
（ステップＳ１８０５）発音区間フレーム音韻確率値取得手段１７０６２は、ｋを１、インクメントする。ステップＳ１８０２に戻る。
【００９１】
（ステップＳ１８０６）評定値算出手段１７０６３は、ｊ番目の発音区間の評定値を算出する。評定値算出手段１７０６３は、例えば、最適状態決定手段１０６１が決定した各フレームの最適状態を有する音韻全体の状態における１以上の確率値の総和を、フレーム毎に得て、当該フレーム毎の確率値の総和に基づいて、発音区間の確率値の総和の時間平均値を、当該発音区間の音声の評定値として算出する。
（ステップＳ１８０７）出力部１０７は、ステップＳ１８０６で算出した評定値を出力する。
（ステップＳ１８０８）発音区間フレーム音韻確率値取得手段１７０６２は、ｊを１、インクメントする。ステップＳ１４０２に戻る。
以下、本実施の形態における発音評定装置の具体的な動作について説明する。本実施の形態において、評定値の算出アルゴリズムが実施の形態３とは異なるので、その動作を中心に説明する。
【００９２】
まず、学習者が、語学学習の開始の指示である動作開始指示を入力した後、学習対象の音声を発音する。そして、音声受付部１０３は、学習者が発音した音声の入力を受け付ける。次に、フレーム区分部１０４は、音声受付部１０３が受け付けた音声を、短時間フレームに区分する。
そして、フレーム音声データ取得部１０５は、フレーム区分部１０４が区分した音声データを、スペクトル分析し、特徴ベクトル系列「Ｏ＝ｏ_１，ｏ_２，・・・，ｏ_Ｔ」を算出する。
次に、発音区間フレーム音韻確率値取得手段１７０６２は、各フレームの各状態の事後確率（確率値）を算出する。確率値の算出は、上述した数式２により算出できる。
【００９３】
次に、最適状態決定手段１０６１は、取得した特徴ベクトル系列を構成する各特徴ベクトルｏ_ｔに基づいて、各フレームの最適状態（特徴ベクトルｏ_ｔに対する最適状態）を決定する。つまり、最適状態決定手段１０６１は、最適状態系列を得る。なお、各フレームの各状態の事後確率（確率値）の算出と、最適状態の決定の順序は問わない。
【００９４】
次に、発音区間フレーム音韻確率値取得手段１７０６２は、発音区間ごとに、当該発音区間に含まれる各フレームの最適状態（ｑ_ｔ^＊）を含む音韻の全ての確率値を取得する。そして、評定値算出手段１７０６３は、各フレームの最適状態を含む音韻の全ての確率値の総和を、フレーム毎に算出する。そして、評定値算出手段１７０６３は、フレーム毎に算出された確率値の総和を、例えば、発音区間毎に時間平均し、発音区間毎の評定値を算出する。具体的には、評定値算出手段１７０６３は、数式５により評定値を算出する。
【数５】

【００９５】
かかる評定値算出手段１７０６３が算出した評定値（「ｔ−ｐ−ＤＡＰスコア」とも言う。）を、図１９の表に示す。図１９において、アメリカ人男性と日本人男性の評定結果を示す。ＰｈｏｎｅｍｅおよびＷｏｒｄは，ｔ−ｐ−ＤＡＰにおける時間平均の範囲を示す。ここでは、ＤＡＰの代わりにｐ−ＤＡＰの時間平均を採用したものである。図１９において、アメリカ人男性の発音の評定値が日本人男性の発音の評定値より高く、良好な評定結果が得られている。なお、上記のｐ−ＤＡＰの時間平均の変わりに、中央値を採用しても良いことは言うまでもない。
そして、出力部１０７は、算出した発音区間ごと（ここでは、音素毎）の評定値を、順次出力する。かかる出力例は、図１６である。
以上、本実施の形態によれば、ユーザが入力した発音を、教師データに対して、如何に似ているかを示す類似度（評定値）を算出し、出力できる。
【００９６】
また、本実施の形態によれば、連結されたＨＭＭである連結ＨＭＭを用いて最適状態を求め、評定値を算出するので、高速に評定値を求めることができる。したがって、上記の具体例で述べたように、リアルタイムに、発音区間ごとの評定値を出力できる。また、本実施の形態によれば、動的計画法に基づいた事後確率を確率値として算出するので、さらに高速に評定値を求めることができる。
【００９７】
また、本実施の形態によれば、評定値を、発音区間の単位で算出でき、実施の形態１におけるような状態単位のＤＡＰと比較して、本来、測定したい類似度（発音区間の類似度）を精度良く、安定して求めることができる。
【００９８】
さらに、本実施の形態における発音評定装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、音声の入力を受け付ける音声受付ステップと、前記音声受付ステップで受け付けた音声を、フレームに区分するフレーム区分ステップと、前記区分されたフレーム毎の音声データであるフレーム音声データを1以上得るフレーム音声データ取得ステップと、格納されているデータであり、音韻毎の隠れマルコフモデル（ＨＭＭ）に基づくデータである教師データと前記1以上のフレーム音声データに基づいて、前記音声受付ステップで受け付けた音声の評定を行う評定ステップと、前記評定ステップにおける評定結果を出力する出力ステップを実行させるためのプログラム、である。
【００９９】
また、上記プログラムにおいて、前記教師データは、音韻毎の隠れマルコフモデル（ＨＭＭ）を連結したＨＭＭに基づくデータであり、前記評定ステップは、前記1以上のフレーム音声データの最適状態を決定する最適状態決定サブステップと、前記最適状態決定サブステップで決定した各フレームの最適状態を有する音韻全体の状態における１以上の確率値を、発音区間毎に取得する発音区間フレーム音韻確率値取得サブステップと、前記発音区間フレーム音韻確率値取得サブステップで取得した１以上の発音区間毎の１以上の確率値をパラメータとして音声の評定値を算出する評定値算出サブステップを具備するプログラム、である。
【０１００】
以上の４つの実施の形態で算出した評定値は、図２０において、それぞれ（１）〜（４）の類似度である。つまり、図２０において、縦軸は、音韻毎の隠れマルコフモデル（ＨＭＭ）を、任意の順番に並べたＨＭＭである。図２０の横軸は、入力音声の特徴ベクトル系列を示す。また、図２０の実線は、最適状態系列である。そして、黒丸の（１）はＤＡＰ、斜線部の（２）はｐ−ＤＡＰ、網掛け部の（３）はｔ−ＤＡＰを示す。ｔｐ−ＤＡＰは、発音区間において、最適状態を含む全音韻の状態の確率値に基づいて算出される。
【０１０１】
また、図２１は、本明細書で述べたプログラムを実行して、上述した種々の実施の形態の発音評定装置を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図２１は、このコンピュータシステム２１０の概観図であり、図２２は、コンピュータシステム２１０のブロック図である。
【０１０２】
図２１において、コンピュータシステム２１０は、ＦＤ（ＦｌｅｘｉｂｌｅＤｉｓｋ）ドライブ、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｋＲｅａｄＯｎｌｙＭｅｍｏｒｙ）ドライブを含むコンピュータ２１１と、キーボード２１２と、マウス２１３と、モニタ２１４と、マイク２１５とを含む。
【０１０３】
図１７において、コンピュータ２1１は、ＦＤドライブ２１１１、ＣＤ−ＲＯＭドライブ２１１２に加えて、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）２１１３と、ＣＰＵ２１１３、ＣＤ−ＲＯＭドライブ２１１２及びＦＤドライブ２１１１に接続されたバス２１１４と、ブートアッププログラム等のプログラムを記憶するためのＲＯＭ（Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）２１１５と、ＣＰＵ２１１３に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）２１１６と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク２１１７とを含む。ここでは、図示しないが、コンピュータ２１１は、さらに、ＬＡＮへの接続を提供するネットワークカードを含んでも良い。
【０１０４】
コンピュータシステム２１０に、上述した実施の形態の発音評定装置の機能を実行させるプログラムは、ＣＤ−ＲＯＭ２２０１、またはＦＤ２２０２に記憶されて、ＣＤ−ＲＯＭドライブ２１１２またはＦＤドライブ２１１１に挿入され、さらにハードディスク２１１７に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ２１１に送信され、ハードディスク２１１７に記憶されても良い。プログラムは実行の際にＲＡＭ２１１６にロードされる。プログラムは、ＣＤ−ＲＯＭ２２０１、ＦＤ２２０２またはネットワークから直接、ロードされても良い。
【０１０５】
プログラムは、コンピュータ２１１に、上述した実施の形態の発音評定装置の機能を実行させるオペレーティングシステム（ＯＳ）、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能（モジュール）を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム２１０がどのように動作するかは周知であり、詳細な説明は省略する。
【０１０６】
また、上記各実施の形態において、各処理（各機能）は、単一の装置（システム）によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。
なお、上記プログラムにおいて、ハードウェアによって行われる処理、例えば、出力ステップにおけるディスプレイなどで行われる処理（ハードウェアでしか行われない処理）は含まれない。
また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
【産業上の利用可能性】
【０１０７】
以上のように、本発明にかかる発音評定装置は、比較対象の音声と入力音声の類似度を精度高く評定できるという効果を有し、語学学習装置や物真似練習装置等として有用である。
【図面の簡単な説明】
【０１０８】
【図１】実施の形態１における発音評定装置のブロック図
【図２】同発音評定装置の動作について説明するフローチャート
【図３】同ＨＭＭの仕様を説明する図
【図４】同音声分析条件を説明する図
【図５】同評定値算出手段が算出した評定値を示すグラフを示す図
【図６】同評定値算出手段が算出した評定値を示すグラフを示す図
【図７】同出力部が出力する出力態様を示す図
【図８】同出力部が出力する出力態様を示す図
【図９】実施の形態２における発音評定装置のブロック図
【図１０】同発音評定装置の動作について説明するフローチャート
【図１１】同評定値算出手段が算出した評定値を示すグラフを示す図
【図１２】同評定値算出手段が算出した評定値を示すグラフを示す図
【図１３】実施の形態３における発音評定装置のブロック図
【図１４】同発音評定装置の動作について説明するフローチャート
【図１５】同評定値算出手段が算出した評定値を示す図
【図１６】同出力部が出力する出力態様を示す図
【図１７】実施の形態４における発音評定装置のブロック図
【図１８】同発音評定装置の動作について説明するフローチャート
【図１９】同評定値算出手段が算出した評定値を示す図
【図２０】４つの実施の形態で算出した評定値について説明する図
【図２１】発音評定装置を構成するコンピュータシステムの概観図
【図２２】発音評定装置を構成するコンピュータのブロック図
【符号の説明】
【０１０９】
１０１入力受付部
１０２教師データ格納部
１０３音声受付部
１０４フレーム区分部
１０５フレーム音声データ取得部
１０６、９０６、１３０６、１７０６評定部
１０７出力部
１０６１最適状態決定手段
１０６２最適状態確率値取得手段
１０６３、９０６３、１３０６３、１７０６３評定値算出手段
９０６２音韻確率値取得手段
１３０６２発音区間確率値取得手段
１７０６２発音区間フレーム音韻確率値取得手段

【特許請求の範囲】
【請求項１】
比較される対象の音声に関するデータであり、1以上の音韻毎のデータである教師データを１以上格納している教師データ格納部と、
音声の入力を受け付ける音声受付部と、
前記音声受付部が受け付けた音声を、フレームに区分するフレーム区分部と、
前記区分されたフレーム毎の音声データであるフレーム音声データを1以上得るフレーム音声データ取得部と、
前記教師データと前記1以上のフレーム音声データに基づいて、前記音声受付部が受け付けた音声の評定を行う評定部と、
前記評定部の評定結果を出力する出力部を具備する発音評定装置。
【請求項２】
前記評定部は、
前記1以上のフレーム音声データのうちの少なくとも一のフレーム音声データに対する最適状態を決定する最適状態決定手段と、
前記最適状態決定手段が決定した最適状態における確率値を取得する最適状態確率値取得手段と、
前記最適状態確率値取得手段が取得した確率値をパラメータとして音声の評定値を算出する評定値算出手段を具備する請求項１記載の発音評定装置。
【請求項３】
前記評定部は、
前記1以上のフレーム音声データのうちの少なくとも一の最適状態を決定する最適状態決定手段と、
前記最適状態決定手段が決定した最適状態を有する音韻全体の状態における１以上の確率値を取得する音韻確率値取得手段と、
前記音韻確率値取得手段が取得した１以上の確率値をパラメータとして音声の評定値を算出する評定値算出手段を具備する請求項１記載の発音評定装置。
【請求項４】
前記評定部は、
前記1以上のフレーム音声データの最適状態を決定する最適状態決定手段と、
前記最適状態決定手段が決定した最適状態の確率値を、発音区間毎に取得する発音区間確率値取得手段と、
前記発音区間確率値取得手段が取得した１以上の発音区間毎の１以上の確率値をパラメータとして音声の評定値を算出する評定値算出手段を具備する請求項１記載の発音評定装置。
【請求項５】
前記評定部は、
前記1以上のフレーム音声データの最適状態を決定する最適状態決定手段と、
前記最適状態決定手段が決定した各フレームの最適状態を有する音韻全体の状態における１以上の確率値を、発音区間毎に取得する発音区間フレーム音韻確率値取得手段と、
前記発音区間フレーム音韻確率値取得手段が取得した１以上の発音区間毎の１以上の確率値をパラメータとして音声の評定値を算出する評定値算出手段を具備する請求項１記載の発音評定装置。
【請求項６】
前記出力部は、
前記評定部の評定結果を視覚的に表示する請求項１から請求項５いずれか記載の発音評定装置。
【請求項７】
前記出力部は、
フレーム単位、または／および音素・単語単位、または／および発声全体の評定結果を視覚的に表示する請求項６記載の発音評定装置。
【請求項８】
前記教師データは、比較される対象の音声に関するデータであり、音韻毎の隠れマルコフモデルを連結したＨＭＭに基づくデータである請求項１から請求項７いずれか記載の発音評定装置。
【請求項９】
コンピュータに、
音声の入力を受け付ける音声受付ステップと、
前記音声受付ステップで受け付けた音声を、フレームに区分するフレーム区分ステップと、
前記区分されたフレーム毎の音声データであるフレーム音声データを1以上得るフレーム音声データ取得ステップと、
格納されているデータであり、1以上の音韻毎のデータである教師データと前記1以上のフレーム音声データに基づいて、前記音声受付ステップで受け付けた音声の評定を行う評定ステップと、
前記評定ステップにおける評定結果を出力する出力ステップを実行させるためのプログラム。

【図１】

【図２】

【図３】

【図４】

【図９】

【図１０】

【図１３】

【図１４】

【図１５】

【図１７】

【図１８】

【図１９】

【図２１】

【図２２】

【図５】

【図６】

【図７】

【図８】

【図１１】

【図１２】

【図１６】

【図２０】

【公開番号】特開２００６−２２７５８７（Ｐ２００６−２２７５８７Ａ）
【公開日】平成１８年８月３１日（２００６．８．３１）
【国際特許分類】

物理学 (1,541,580)
- 教育；暗号方法；表示；広告；シール (131,780)
  - 教育用または教示用の器具；盲人，聾者または唖者の教習，または意... (19,563)
    - このサブクラスの他のメイングループに包含されない教習 (1,268)
      - 話し方 (109)
    - 電気的操作による教育用具 (1,132)
      - 学習素材を聴覚的に提示するもの (76)
      - 複数の生徒側ステーションへ個々に情報を提示するもの (316)
- 楽器；音響 (32,226)
  - 音声の分析または合成；音声認識；音響分析または処理 (17,022)
    - 音声認識 (6,879)
      - 音声の識別または探索 (1,500)
        
        統計的モデルを用いるもの，例．隠れマルコフモデル［ＨＭＭ］ (175)
    - １５／００〜２１／００のグループ中のどれか一つに限定されない音... (1,940)

【出願番号】特願２００５−３７３８４１（Ｐ２００５−３７３８４１）
【出願日】平成１７年１２月２７日（２００５．１２．２７）
【国等の委託研究の成果に係る記載事項】（出願人による申告）平成１７年度独立行政法人情報通信研究機構、研究テーマ「人間情報コミュニケーションの研究開発」に関する委託研究、産業活力再生特別措置法第３０条の適用を受ける特許出願
【出願人】（３９３０３１５８６）株式会社国際電気通信基礎技術研究所 (905)
【Ｆターム（参考）】

[ Back to top ]

発音評定装置、およびプログラム

メニュー

スポンサーリンク

次の公報 »

« 前の公報

発音評定装置、およびプログラム

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク