説明

発音評定装置、およびプログラム

【課題】従来の発音評定装置においては、精度高く発音評定ができなかった、という課題があった。
【解決手段】受け付けた音声を、フレームに区分するフレーム区分部と、区分された各フレームの特徴ベクトルを取得する特徴ベクトル系列取得部と、特徴ベクトル系列と母語音素HMMを用いて第一の最適状態番号系列を取得する第一最適状態番号系列取得部と、特徴ベクトル系列と連結HMMを用いて第二の最適状態番号系列を取得する第二最適状態番号系列取得部と、特徴ベクトル系列、母語音素HMM、第一の最適状態番号系列、および第二の最適状態番号系列を用いて、フレームごとに最適状態に対する確率を算出し、フレームごとに発音の良し悪しを示すスコアを算出するフレーム状態最適パススコア算出部と、スコアを出力する出力部を具備する発音評定装置により、精度高く発音評定ができる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、入力された音声を評価する装置等に関し、例えば、語学学習等に利用できる発音評定装置等に関するものである。
【背景技術】
【0002】
従来の技術として、以下の語学学習装置がある(特許文献1参照)。本語学学習装置は、学習者が選択した役割の発音をレファランスデータと比較して一致度によって点数化して表示し、点数によって適当な次の画面を自動に表示することにより、学習能率を向上させる装置である。本従来の語学学習装置は、入力された音声信号は音声認識技術により分析された後、学習者発音のスペクトルと抑揚とが学習者発音表示ボックスに表れるという構成になっている。そして、従来の技術においては、標準音データと学習者の発音のスペクトル、および抑揚が比較されて点数が表示される。
【特許文献1】特開2003−228279(第1頁、第1図等)
【発明の開示】
【発明が解決しようとする課題】
【0003】
しかし、従来の技術においては、標準音データと学習者の発音のスペクトル、および抑揚が比較されて点数が表示される構成であるので、両者の類似度の評定の精度が低く、また、リアルタイムに高速に点数を表示するためには、処理能力が極めて高いCPU、多量のメモリが必要であった。
【課題を解決するための手段】
【0004】
本第一の発明の発音評定装置は、音韻毎の隠れマルコフモデルに基づくデータである母語音素HMMを格納している母語音素HMM格納部と、発音評定の対象である正解トランスクリプションに従ってHMMに基づくデータを連結したデータである連結HMMを格納している連結HMM格納部と、音声の入力を受け付ける音声受付部と、前記音声受付部が受け付けた音声を、フレームに区分するフレーム区分部と、前記区分された各フレームの特徴ベクトルを算出し、特徴ベクトル系列を取得する特徴ベクトル系列取得部と、前記特徴ベクトル系列と前記母語音素HMMを取得し、前記特徴ベクトル系列と前記母語音素HMMを用いて、ビタビアルゴリズムにより第一の最適状態番号系列を取得する第一最適状態番号系列取得部と、前記特徴ベクトル系列と前記連結HMMを取得し、前記特徴ベクトル系列と前記連結HMMを用いて、ビタビアルゴリズムにより第二の最適状態番号系列を取得する第二最適状態番号系列取得部と、前記特徴ベクトル系列、前記母語音素HMM、前記第一の最適状態番号系列、および前記第二の最適状態番号系列を用いて、前記区分されたフレームごとに最適状態に対する確率を算出し、当該確率を用いて、前記区分されたフレームごとに発音の良し悪しを示すスコアを算出するフレーム状態最適パススコア算出部と、前記フレーム状態最適パススコア算出部が算出したフレームごとのスコアを出力する出力部を具備する発音評定装置である。
【0005】
かかる構成により、音韻毎に連結した連結HMMとフレーム分割されたデータを用いて、比較対象の音声と入力音声の類似度を評定することができるので、両者の類似度の評定の精度を高く、高速に行うことができる。
【0006】
また、本第二の発明の発音評定装置は、音韻毎の隠れマルコフモデルに基づくデータである母語音素HMMを格納している母語音素HMM格納部と、発音評定の対象である正解トランスクリプションに従ってHMMに基づくデータを連結したデータである連結HMMを格納している連結HMM格納部と、音声の入力を受け付ける音声受付部と、前記音声受付部が受け付けた音声を、フレームに区分するフレーム区分部と、前記区分された各フレームの特徴ベクトルを算出し、特徴ベクトル系列を取得する特徴ベクトル系列取得部と、前記特徴ベクトル系列と前記母語音素HMMを取得し、前記特徴ベクトル系列と前記母語音素HMMを用いて、ビタビアルゴリズムにより第一の最適状態番号系列を取得する第一最適状態番号系列取得部と、前記特徴ベクトル系列と前記連結HMMを取得し、前記特徴ベクトル系列と前記連結HMMを用いて、ビタビアルゴリズムにより第二の最適状態番号系列を取得する第二最適状態番号系列取得部と、前記特徴ベクトル系列、前記母語音素HMM、前記第一の最適状態番号系列、および前記第二の最適状態番号系列を用いて、前記区分されたフレームごとに最適音素内の1以上の各状態に対する確率を算出し、当該1以上の確率を用いて、前記区分されたフレームごとに発音の良し悪しを示すスコアを算出するフレーム音素最適パススコア算出部と、前記フレーム音素最適パススコア算出部が算出したフレームごとのスコアを出力する出力部を具備する発音評定装置である。
【0007】
かかる構成により、状態のもっともらしさではなく、母語音素のもっともらしさを評定するので、第一の発明と比較しても、精度高く発音評定ができる。
【0008】
また、本第三の発明の発音評定装置は、第一、第二いずれかの発明に対して、前記音声受付部が受け付けた音声の発音区間を取得する発音区間取得部と、前記発音区間ごとに、当該発音区間に対応する1以上のフレームごとの1以上のスコアを用いて、当該発音区間の代表のスコアを算出する代表値演算部をさらに具備し、前記出力部は、少なくとも前記代表値演算部が算出した各発音区間の代表のスコアを出力する発音評定装置である。
【0009】
かかる構成により、発音区間ごとのスコアを得ることができる。
【0010】
また、本第四の発明の発音評定装置は、第一から第三いずれかの発明に対して、前記母語音素HMM格納部の母語音素HMMから、発音評定の対象である正解トランスクリプションに従って連結HMMを構成する連結HMM構成部をさらに具備し、前記連結HMM格納部の連結HMMは、前記連結HMM構成部が構成した連結HMMである発音評定装置である。
【0011】
かかる構成により、予め連結HMMを取得する必要がなく、連結HMMを準備する手間を省くことができる。
【発明の効果】
【0012】
本発明による発音評定装置によれば、精度高く発音評定ができる。
【発明を実施するための最良の形態】
【0013】
以下、発音評定装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
(実施の形態1)
【0014】
本実施の形態において、比較対象の音声と入力音声の類似度の評定を精度高く、かつ高速にできる発音評定装置について説明する。本実施の形態における発音評定装置は、入力された音声が、比較対象の音声(例えば、ネイティブが発音した音声)と比較して、音声を構成する各フレームの状態の類似度を算定するものである。
【0015】
図1は、本実施の形態における発音評定装置のブロック図である。
【0016】
発音評定装置は、母語音素HMM格納部101、連結HMM格納部102、音声受付部103、フレーム区分部104、特徴ベクトル系列取得部105、第一最適状態番号系列取得部106、第二最適状態番号系列取得部107、フレーム状態最適パススコア算出部108、発音区間取得部109、代表値演算部110、出力部111、連結HMM構成部112を具備する。
【0017】
フレーム状態最適パススコア算出部108は、演算式格納手段1081、フレーム状態最適パススコア算出手段1082を具備する。
【0018】
母語音素HMM格納部101は、音韻毎の隠れマルコフモデル(HMM)に基づくデータである母語音素HMMを格納している。母語音素HMMとは、ネイティブ発音の音声データベースから学習したネイティブ発音の音韻HMMである。HMMに基づくデータは、例えば、フレーム毎に、状態識別子と遷移確率の情報を有する。母語音素HMM格納部101は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
【0019】
連結HMM格納部102は、発音評定の対象である正解トランスクリプションに従ってHMMに基づくデータを連結したデータである連結HMMを格納している。連結HMM格納部102の連結HMMは、後述する連結HMM構成部112が構成したものであることが好適である。ただし、本発音評定装置で連結HMMを構成せず、他の装置で構成した連結HMMを、連結HMM格納部102に記憶させても良い。連結HMM格納部102は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
【0020】
音声受付部103は、音声の入力を受け付ける。音声の入力手段は、例えば、マイクや、記録媒体や、受信手段である。つまり、音声受付部103は、マイクからユーザの音声を受け付けても良いし、ハードディスクやCD−ROMなどの記録媒体から音声データを読み出しても良いし、外部装置から音声データを受信しても良い。音声受付部103は、例えば、マイクと、そのデバイスドライバー等で実現され得る。また、音声をユーザから受け付ける場合、ユーザが発音すべき音声を、図示しない手段により、ディスプレイに文字列などで出力することは好適である。
【0021】
フレーム区分部104は、音声受付部103が受け付けた音声を、フレームに区分する。音声をフレームに区分する技術は公知技術であるので、詳細な説明を省略する。フレーム区分部104は、通常、MPUやメモリ等から実現され得る。フレーム区分部104の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
【0022】
特徴ベクトル系列取得部105は、区分された各フレームの特徴ベクトルを算出し、特徴ベクトル系列を取得する。特徴ベクトル系列は、各フレームの特徴ベクトルの列である。なお、各フレームの特徴ベクトルを取得する技術は公知技術であるので、詳細な説明を省略する。例えば、特徴ベクトルは、三角型フィルタを用いたチャネル数24のフィルタバンク出力を離散コサイン変換したMFCCであり、その静的パラメータ、デルタパラメータおよびデルタデルタパラメータをそれぞれ12次元、さらに正規化されたパワーとデルタパワーおよびデルタデルタパワー(39次元)を有する。特徴ベクトル系列取得部105は、通常、MPUやメモリ等から実現され得る。特徴ベクトル系列取得部105の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
【0023】
第一最適状態番号系列取得部106は、特徴ベクトル系列取得部105が取得した特徴ベクトル系列と、母語音素HMM格納部101の母語音素HMMを読み出し、当該特徴ベクトル系列と当該母語音素HMMを用いて、ビタビアルゴリズムにより全フレームの最適状態を決定する。各フレームの特徴ベクトルと母語音素HMMを用いて、ビタビアルゴリズムにより、当該フレームの最適状態を決定する処理は公知技術であるので詳細な説明を省略する。第一最適状態番号系列取得部106が取得した全フレームの最適状態を、第一の最適状態番号系列という。第一最適状態番号系列取得部106は、通常、MPUやメモリ等から実現され得る。第一最適状態番号系列取得部106の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
【0024】
第二最適状態番号系列取得部107は、特徴ベクトル系列取得部105が取得した特徴ベクトル系列と、連結HMM格納部102の連結HMMを読み出し、当該特徴ベクトル系列と当該連結HMMを用いて、ビタビアルゴリズムにより全フレームの最適状態を決定する。各フレームの特徴ベクトルと連結HMMを用いて、ビタビアルゴリズムにより、当該フレームの最適状態を決定する処理は公知技術であるので詳細な説明を省略する。第二最適状態番号系列取得部107が取得した全フレームの最適状態を、第二の最適状態番号系列という。第二最適状態番号系列取得部107は、通常、MPUやメモリ等から実現され得る。第二最適状態番号系列取得部107の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
【0025】
フレーム状態最適パススコア算出部108は、特徴ベクトル系列、母語音素HMM、第一の最適状態番号系列、および第二の最適状態番号系列を用いて、区分されたフレームごとに最適状態に対する確率を算出し、当該確率を用いて、区分されたフレームごとに発音の良し悪しを示すスコアを算出する。フレーム状態最適パススコア算出部108は、特徴ベクトル系列、母語音素HMM、第一の最適状態番号系列、および第二の最適状態番号系列を用いて、区分されたフレームごとに、状態らしさを算出することとなる。また、フレーム状態最適パススコア算出部108は、後述する演算式格納手段1081に格納されている演算式を用いて、状態らしさを算出するが、その演算式は後述の数式1に限られない。つまり、数式1のパラメータを若干、変更している演算式でも良い。また、フレーム状態最適パススコア算出部108は、例えば、数式1の「aqt−1(1)qt(2)」が「0」である場合に、予め決められた0でない値に変更して、「OPS(t)」を算出しても良い。同様に、フレーム状態最適パススコア算出部108は、例えば、数式1の「aqt(2)qt+1(1)」が「0」である場合に、予め決められた0でない値に変更して、「OPS(t)」を算出しても良い。つまり、フレーム状態最適パススコア算出部108は、特徴ベクトル系列、母語音素HMM、第一の最適状態番号系列、および第二の最適状態番号系列を用いて、区分されたフレームごとに最適状態に対する確率を算出し、当該確率を用いて、区分されたフレームごとに発音の良し悪しを示すスコアを算出すれば、その算出に用いる演算式は問わない。フレーム状態最適パススコア算出部108は、通常、MPUやメモリ等から実現され得る。フレーム状態最適パススコア算出部108の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
【0026】
演算式格納手段1081は、特徴ベクトル系列、母語音素HMM、第一の最適状態番号系列、および第二の最適状態番号系列をパラメータとして、フレーム状態最適パススコアを算出する演算式の情報を格納している。演算式格納手段1081は、例えば、以下の数式1の演算式の情報を格納している。
【数1】

【0027】
数式1において、「OPS(t)」は、t番目のフレームのフレーム状態最適パススコアを示す関数である。「t」はフレームを識別する番号であり、「t」は、(t=1,2,....,T,Tはフレーム総数)の範囲を取り得る。また、t番目のフレームにおける特徴ベクトルを「o」、t番目分析フレームに対応するHMMの状態(状態番号)をq、特徴ベクトル系列をO={o,o,.....,o}、t番目フレームに対する状態qを除いた系列をQ\{q}={q,...,qt−1,qt+1,...,q}、すべての母語音素モデルの(連結順序を考えない)集合をΛall、母語音素モデルを評定対象の正解トランスクリプションに従って連結したモデル(連結モデル)をΛcorとする。また、Λallのもとで、音素系列の制約なしに求めた最適状態系列(第一の最適状態番号系列)をQ={q(1),q(1),.....,q(1)}、Λcorのもとで求めた最適パス(forced alignment 最適パス[第二の最適状態番号系列])をQ={q(2),q(2),.....,q(2)}とする。また、aijは、i番目状態からj番目状態へ遷移する確率、b(o)はj番目状態における特徴ベクトルoの出力確率密度関数である。さらに、qT+1は特徴ベクトルを出力しない最終状態であり、状態系列Qには含まれない便宜的に設定した状態である。なお、数式1において、t=1の場合、aq0(1)をπに置き換える(j=1,2,...,N)。なお、πは、j番目状態に対する初期状態確率である。なお、数式1において、「q(1)」の添え字の「t」と「(1)」は上下に配置されているが、「q(1)」と同意義である、とする。その他、本明細書の数式における添え字が上下に配置されているものと、「q(1)」の「t」と「(1)」のように横に並んで配置されているものとは同意義である、とする。また、「N」は、すべての母語音素モデルにわたる総状態数である。
【0028】
演算式格納手段1081は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
【0029】
フレーム状態最適パススコア算出手段1082は、演算式格納手段1081から演算式の情報を読み出し、当該演算式に従って、パラメータの値を取得し、当該パラメータの値を、読み出した演算式に代入し、スコアを算出する。さらに、具体的には、フレーム状態最適パススコア算出手段1082は、上記の数式1を読み出し、1番目のフレームから、T番目のフレームまで、フレームごとに、フレーム状態最適パススコアを算出する。フレーム状態最適パススコアは、各フレームの状態らしさを示すスコアである。フレーム状態最適パススコア算出手段1082は、フレームごとに、例えば、以下のように分母の値を算出する。つまり、まず、フレーム状態最適パススコア算出手段1082は、「j=1」から、「aqt−1(1)」(qt−1(1)番目状態から1番目状態へ遷移する確率)を母語音素HMM格納部101から読み出す(なお、t=1の場合は、「aqt−1(1)」はπになる。)。また、フレーム状態最適パススコア算出手段1082は、「a1qt+1(1)」(1番目状態からqt+1(1)番目状態へ遷移する確率)を母語音素HMM格納部101から読み出す。そして、フレーム状態最適パススコア算出手段1082は、t番目のフレームの特徴ベクトルを取得し、当該特徴ベクトルを出力密度関数に代入し、b(o)を得る。そして、フレーム状態最適パススコア算出手段1082は、得た「aqt−1(1)」、「a1qt+1(1)」、およびb(o)を乗算し、その結果を一時的にメモリに記憶する。次に、フレーム状態最適パススコア算出手段1082は、「j=2」として、同様に演算し、その結果を一時的にメモリに記憶する。そして、フレーム状態最適パススコア算出手段1082は、以上の処理を「j=N」まで繰り返す。そして、フレーム状態最適パススコア算出手段1082は、メモリ上に一時記憶した乗算結果をすべて読み出し、それらの和を算出する。そして、フレーム状態最適パススコア算出手段1082は、数式1の分母の演算結果を得る。なお、「π」とは、1番目の状態に対する初期状態確率であり、母語音素HMM格納部101に予め格納されている。また、フレーム状態最適パススコア算出手段1082は、出力密度関数の情報を予め格納しており、かかる出力密度関数の情報を読み出し、パラメータを代入し、b(o)を得る。
【0030】
次に、フレーム状態最適パススコア算出手段1082は、フレームごとに、以下のように分子の値を算出する。つまり、フレーム状態最適パススコア算出手段1082は、「aqt−1(1)qt(2)」(qt−1(1)番目状態からq(2)番目状態へ遷移する確率)を母語音素HMM格納部101から読み出す(なお、t=1の場合は、「aqt−1(1)qt(2)」はπqt(2)になる。)。また、フレーム状態最適パススコア算出手段1082は、「aqt(2)qt+1(1)」(q(2)番目状態からqt+1(1)番目状態へ遷移する確率)を母語音素HMM格納部101から読み出す。また、フレーム状態最適パススコア算出手段1082は、t番目のフレームの特徴ベクトルを取得し、当該特徴ベクトルを出力密度関数に代入し、bqt(2)(o)を得る。そして、フレーム状態最適パススコア算出手段1082は、得た3つの値を乗算し、分子の値を取得し、メモリに一時記憶する。
【0031】
次に、フレーム状態最適パススコア算出手段1082は、フレームごとに、分母の値と分子の値からフレーム状態最適パススコアを算出し、少なくとも、メモリ上に一時記憶する。
【0032】
フレーム状態最適パススコア算出手段1082は、通常、MPUやメモリ等から実現され得る。フレーム状態最適パススコア算出手段1082の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
【0033】
発音区間取得部109は、音声受付部103が受け付けた音声の発音区間を取得する。発音区間は、音素単位でも良いし、単語単位でも良いし、文単位等でも良い。発音区間取得部109が取得する発音区間は、フレームの番号列でも良いし、音声受付部103が受け付けた音声データを発音区間に分割した結果でも良い。発音区間取得部109は、通常、MPUやメモリ等から実現され得る。発音区間取得部109の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
【0034】
代表値演算部110は、発音区間ごとに、当該発音区間に対応する1以上のフレームごとの1以上のスコアを用いて、当該発音区間の代表のスコアを算出する。代表値演算部110は、1以上のフレームごとの1以上のスコアの中央値を算出することが好適であるが、平均値や最大値などの他の代表値を算出するようにしても良い。代表値演算部110は、通常、MPUやメモリ等から実現され得る。代表値演算部110の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
【0035】
出力部111は、フレーム状態最適パススコア算出部108が算出したフレームごとのスコアを出力する。出力部111は、代表値演算部110が算出した各発音区間の代表のスコアを出力しても良い。出力部111は、フレームごとのスコアと、各発音区間の代表のスコアの両方を出力しても良いし、どちらか一方を出力しても良い。ここで、出力とは、ディスプレイへの表示、プリンタへの印字、音声出力、外部の装置への送信、記録媒体への蓄積等を含む概念である。出力部111は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。出力部111は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。
【0036】
連結HMM構成部112は、母語音素HMM格納部101の母語音素HMMから、発音評定の対象である正解トランスクリプションに従って連結HMMを構成し、連結HMM格納部102に少なくとも一時記憶する。母語音素HMMから、発音評定の対象である正解トランスクリプションに従って連結HMMを構成する技術は公知技術であるので詳細な説明を省略する。なお、正解トランスクリプションの情報は、連結HMM構成部112が、予め保持していても良いし、ユーザが手動で与えても良い。連結HMM構成部112は、通常、MPUやメモリ等から実現され得る。連結HMM構成部112の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
【0037】
次に、発音評定装置の動作について図2、図3のフローチャートを用いて説明する。
【0038】
(ステップS201)音声受付部103は、ユーザから、発音評定の対象の音声を受け付けたか否かを判断する。なお、ユーザから音声を受け付ける前に、図示しない手段により、所定の単語や文の発音をユーザに促すようにしても良い。かかる処理は、例えば、「learn と発音してください。」とディスプレイに表示したり、スピーカーで音声出力したりする処理である。音声受付部103が音声を受け付ければステップS202に行き、音声を受け付けなければステップS201に戻る。
【0039】
(ステップS202)連結HMM構成部112は、母語音素HMM格納部101から母語音素HMMを読み出し、メモリ上に配置する。
【0040】
(ステップS203)連結HMM構成部112は、正解トランスクリプションを取得する。正解トランスクリプションは、例えば、図示しない記憶手段に予め格納されていても良いし、ユーザが入力して与えても良い。
【0041】
(ステップS204)連結HMM構成部112は、ステップS202で読み出した母語音素HMMから、ステップS203で取得した正解トランスクリプションに従って連結HMMを構成し、メモリ上に配置する。かかる場合、連結HMM格納部102は、メモリである。
【0042】
(ステップS205)フレーム区分部104は、ステップS201で受け付けた音声をフレームに区分し、1以上の各フレームに対応する1以上のフレーム音声データを取得する。
【0043】
(ステップS206)特徴ベクトル系列取得部105は、ステップS205で取得された1以上の各フレーム音声データを音声分析し、1以上の各フレームに対応する1以上の特徴ベクトルを算出し、特徴ベクトル系列(O)を取得する。
【0044】
(ステップS207)第一最適状態番号系列取得部106は、ステップS206で取得した特徴ベクトル系列と、母語音素HMMを用いて、ビタビアルゴリズムにより全フレームの最適状態を決定する。ここでの最適状態の集合は、第一最適状態番号系列(Q)である。
【0045】
(ステップS208)第二最適状態番号系列取得部107は、ステップS206で取得した特徴ベクトル系列と、連結HMMを用いて、ビタビアルゴリズムにより全フレームの最適状態を決定する。ここでの最適状態の集合は、第二最適状態番号系列(Q)である。
【0046】
(ステップS209)フレーム状態最適パススコア算出部108は、カウンタtに1を代入する。ここで「t」は、フレーム番号である。
【0047】
(ステップS210)フレーム状態最適パススコア算出部108は、t番目のフレームが存在するか否かを判断する。t番目のフレームが存在すればステップS211に行き、存在しなければステップS213に行く。
【0048】
(ステップS211)フレーム状態最適パススコア算出部108は、特徴ベクトル系列、母語音素HMM、第一の最適状態番号系列、および第二の最適状態番号系列を用いて、t番目のフレームの最適状態に対する確率を算出し、当該確率を用いて、t番目のフレームについて、発音の良し悪しを示すスコアを算出する。フレーム状態最適パススコアを算出する詳細な処理例については、図3のフローチャートを用いて説明する。
【0049】
(ステップS212)フレーム状態最適パススコア算出部108は、カウンタtを1、インクリメントし、ステップS210に戻る。
【0050】
(ステップS213)発音区間取得部109は、カウンタiに1を代入する。
【0051】
(ステップS214)発音区間取得部109は、i番目の発音区間が存在するか否かを判断する。i番目の発音区間が存在すればステップS215に行き、i番目の発音区間が存在しばければ処理を終了する。
【0052】
(ステップS215)発音区間取得部109は、i番目の発音区間に対応する1以上のフレームを特定し、代表値演算部110は、当該発音区間に対応する1以上のフレームの1以上のスコアを読み出す。
【0053】
(ステップS216)代表値演算部110は、代表値を得るための関数の情報を読み出し、当該関数に、ステップS215で読み出した1以上のスコアを代入し、関数を実行し、当該発音区間の代表のスコアを算出する。
【0054】
(ステップS217)出力部111は、ステップS216で算出した代表のスコアを出力する。
【0055】
(ステップS218)発音区間取得部109は、カウンタiを1、インクリメントし、ステップS215に戻る。
【0056】
次に、ステップS211のフレーム状態最適パススコア算出処理について、図3のフローチャートを用いて説明する。
【0057】
(ステップS301)フレーム状態最適パススコア算出手段1082は、演算式格納手段1081からフレーム状態最適パススコアを算出するための演算式の情報を読み出す。
【0058】
(ステップS302)フレーム状態最適パススコア算出手段1082は、カウンタjに1を代入する。
【0059】
(ステップS303)フレーム状態最適パススコア算出手段1082は、「j>N」であるか否かを判断する。
【0060】
(ステップS304)フレーム状態最適パススコア算出手段1082は、母語音素HMM格納部101から「aqt−1(1)」を読み出す。なお、「t=1」の場合、「aqt−1(1)」は、π(j番目状態に対する初期状態確率)である。
【0061】
(ステップS305)フレーム状態最適パススコア算出手段1082は、母語音素HMM格納部101から「ajqt+1(1)」を読み出す。
【0062】
(ステップS306)フレーム状態最適パススコア算出手段1082は、特徴ベクトル(O)を読み出す。
【0063】
(ステップS307)フレーム状態最適パススコア算出手段1082は、出力密度関数b()の情報を読み出し、当該関数に特徴ベクトル(O)を代入し、出力密度関数b(o)を実行し、その結果を得る。
【0064】
(ステップS308)フレーム状態最適パススコア算出手段1082は、得た「aqt−1(1)」、「ajqt+1(1)」、およびb(o)を乗算し、その結果を一時的にメモリに記憶する。
【0065】
(ステップS309)フレーム状態最適パススコア算出手段1082は、カウンタjを1、インクリメントし、ステップS303に戻る。
【0066】
(ステップS310)フレーム状態最適パススコア算出手段1082は、ステップS308で一時格納したすべての乗算結果の和を算出し、その結果を一時的にメモリに記憶する。
【0067】
(ステップS311)フレーム状態最適パススコア算出手段1082は、「aqt−1(1)qt(2)」を母語音素HMM格納部101から読み出す。
【0068】
(ステップS312)フレーム状態最適パススコア算出手段1082は、「aqt(2)qt+1(1)」を母語音素HMM格納部101から読み出す。
【0069】
(ステップS313)フレーム状態最適パススコア算出手段1082は、t番目のフレームの特徴ベクトルを取得し、当該特徴ベクトルを出力密度関数bqt(2)()に代入し、bqt(2)(o)を演算し、その結果を一時的にメモリに記憶する。
【0070】
(ステップS314)フレーム状態最適パススコア算出手段1082は、ステップS311で得た「aqt−1(1)qt(2)」、ステップS312で得た「aqt(2)qt+1(1)」、およびステップS313で得た「bqt(2)(o)」を乗算し、その結果を一時的にメモリに記憶する。
【0071】
(ステップS315)フレーム状態最適パススコア算出手段1082は、ステップS314における演算結果を、ステップS310における演算結果で除算し、t番目のフレームのフレーム状態最適パススコア(OPS(t))を得る。
【0072】
(ステップS316)フレーム状態最適パススコア算出手段1082は、ステップS315で得たt番目のフレームのフレーム状態最適パススコア(OPS(t))を、一時的にメモリに記憶し、上位関数にリターンする。
【0073】
以下、本実施の形態における発音評定装置の発音評定の方法について説明する。
【0074】
まず、上記の数式1が導かれる過程について説明する。上述したように、ユーザ(学習者話者)音声のt番目分析フレーム(t=1,2,....,T,Tはフレーム総数)における特徴ベクトルを「o」、t番目分析フレームに対応するHMMの状態(状態番号)を「q」、特徴ベクトル系列をO={o,o,.....,o}、状態(番号)系列をQ={q,q,...,q}、t番目フレームに対する状態qを除いた系列をQ\{q}={q,...,qt−1,qt+1,...,q}、すべての母語音素モデルの(連結順序を考えない)集合をΛall、母語音素モデルを評定対象の正解トランスクリプションに従って連結したモデル(連結モデル)をΛcorとする。また、Λallのもとで、音素系列の制約なしに求めた最適状態系列(最適パス)をQ={q(1),q(1),.....,q(1)}、Λcorのもとで求めた最適パス(forced alignment 最適パス)をQ={q(2),q(2),.....,q(2)}とする。なお、「Q」は第一の最適状態番号系列、「Q」は第二の最適状態番号系列である。
【0075】
かかる概念を図4に示す。図4において、縦は母語音素HMMの状態系列、横は学習者話者の音声特徴ベクトル系列である。
【0076】
この場合、フレーム状態最適パススコアを以下の数式2で定義する。
【数2】

【0077】
なお、P(A|Λall)は、すべての音素モデルΛallが与えられたときの事象Aが起こる確率(または確率密度)、NはΛallに含まれる総状態数である。数式2を変形すると以下の数式3となり、フレーム状態最適パススコアは、特徴ベクトル系列O,およびΛallの下で求まった最適パスからt番目フレームを除いた最適パス「Q\{q(1)}={q(1),...,qt−1(1),qt+1(1),...,q(1)}」が与えられたという条件の下での、t番目フレームに対する状態が「q(2)」(forced alignmentで求めた最適状態)である事後確率を表わす。
【数3】

【0078】
また、音素モデルがHMMの場合、状態系列Qに沿った確率(確率密度)は、以下の数式4で与えられる。
【数4】

【0079】
ここでπはi番目状態に対する初期状態確率、aijはi番目状態からj番目状態へ遷移する確率,b(o)はj番目状態における特徴ベクトルの出力確率密度関数である。また、qT+1は特徴ベクトルを出力しない最終状態であり、状態系列Qには含まれない便宜的に設定した状態である。
【0080】
かかる場合、確率密度関数は、数式5に示すように簡略され得る。
【数5】

【0081】
数式5を数式2の分子と分母に代入して、約分することにより、HMMの場合のフレーム状態最適パススコアが数式1のように簡略化される。
【0082】
数式1において、t=1の場合、aq0(1)をπに置き換える(j=1,2,...,N)。
【0083】
また、数式1により算出されるフレーム状態最適パススコア(OPS(τ))を発音区間T(m)で評価した発音区間フレーム状態最適パススコア(OPS(m))は、数式6により算出される。かかる算出は、代表値演算部110が行う。
【数6】

【0084】
数式6において、mは発音区間のインデクス、Me{・}は集合{・}内の要素の中央値を表わす。ただし、中央値を算出する代表値演算は、平均値や最大値などの別の代表値演算に置き換えても良い。また、発音区間は、例えば、forced alignmentパスQにより定まる、音素区間、単語区間、フレーズ区間などである。
【0085】
次に、数式1の性質、意義、つまり、上述したフレーム状態最適パススコアの性質、意義について説明する。
【0086】
上述した数式2を詳細に記載すると、以下の数式7になる。
【数7】

【0087】
数式7において、Q={q(1),q(1),.....,q(1)}が、Λallのもとでの最適状態系列、つまり、「P(O,q,q,.....,q|Λall)を最大にする{q,q,.....,q}であるので、数式7の分母における各j(j=1,2,....,N):P(O,q(1),...,qt−1(1),j,qt+1(1),...,q(1)|Λall)において、j=q(1)で最大となる。もし、ユーザの発話がネイティブ発音らしければ、各フレームにおいてΛallの中のどれかの母語音素モデルと類似性が高く、P(O,q(1),....,qt−1(1),j,qt+1(1),....,q(1)|Λall)は最適パス{q(1),q(1),.....,q(1)}での値が優勢となるので、P(O,q(1),....,qt−1(1),j,qt+1(1),....,q(1)|Λall)の各jにおいて、「j=q(1)」での値が大きくなって、他のjでは値が大きくならない(確率値が、j=1,2,...,Nの中でq(1)の占める割合が高くなる)。すなわち、数式7の分母はΛallの下での最適状態系列Qにおける確率値に近くなる。つまり、以下の数式8がいえる。かかる状況を図5に示す。図5において、縦軸はスコア、横軸はj(状態番号)である。
【数8】

【0088】
さらに正解トランスクリプションのネイティブ発音に近ければ、Λallのもとで求めた最適パスQとΛcorのもとで求めた最適パスQが類似するため、多くのtにおいて「q(1)=q(2)」となり、以下の数式9がいえる。
【数9】

【0089】
つまり、「OPS(t)」の値が最大値1に近くなる。
【0090】
一方、正解トランスクリプションと異なるネイティブ発音であれば、QとQが大きく異なってくるため、「OPS(t)」の値が小さくなる。また、元々発話がネイティブ発音に類似していなければ、数式7の分子の値、および分母の各jに対する値がいずれも小さくなり、Nの値が大きいことから「OPS(t)」の値が小さくなる。フレーム状態最適パススコア算出部108が算出するフレーム状態最適パススコアは、以上のような性質を有する。
【0091】
以上、本実施の形態によれば、音韻毎に連結した連結HMMとフレーム分割されたデータを用いて、比較対象の音声と入力音声の類似度を評定することができるので、両者の類似度の評定の精度を高く、高速に行うことができる。さらに具体的には、本実施の形態によれば、特徴ベクトル系列、母語音素HMM、第一の最適状態番号系列、および第二の最適状態番号系列を用いて、区分されたフレームごとに最適状態に対する確率を算出し、当該確率を用いて、区分されたフレームごとに発音の良し悪しを示すスコアを算出できる。このスコアは、母語音素HMMが有する各状態と比較した、ユーザが入力した音声の各状態の状態らしさを示すスコアである。
【0092】
なお、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをCD−ROMなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、音声の入力を受け付ける音声受付ステップと、前記音声受付ステップで受け付けた音声を、フレームに区分するフレーム区分ステップと、前記区分された各フレームの特徴ベクトルを算出し、特徴ベクトル系列を取得する特徴ベクトル系列取得ステップと、前記特徴ベクトル系列と格納している母語音素HMMを取得し、前記特徴ベクトル系列と前記母語音素HMMを用いて、ビタビアルゴリズムにより第一の最適状態番号系列を取得する第一最適状態番号系列取得ステップと、前記特徴ベクトル系列と格納している連結HMMを取得し、前記特徴ベクトル系列と前記連結HMMを用いて、ビタビアルゴリズムにより第二の最適状態番号系列を取得する第二最適状態番号系列取得ステップと、前記特徴ベクトル系列、前記母語音素HMM、前記第一の最適状態番号系列、および前記第二の最適状態番号系列を用いて、前記区分されたフレームごとに最適状態に対する確率を算出し、当該確率を用いて、前記区分されたフレームごとに発音の良し悪しを示すスコアを算出するフレーム状態最適パススコア算出ステップと、前記フレーム状態最適パススコア算出ステップで算出したフレームごとのスコアを出力する出力ステップを実行させるためのプログラム、である。
【0093】
また、上記プログラムに対して、コンピュータに、前記音声受付部が受け付けた音声の発音区間を取得する発音区間取得ステップと、前記発音区間ごとに、当該発音区間に対応する1以上のフレームごとの1以上のスコアを用いて、当該発音区間の代表のスコアを算出する代表値演算ステップをさらに実行させ、前記出力ステップにおいて、少なくとも前記代表値演算ステップで算出した各発音区間の代表のスコアを出力する、ことは好適である。
【0094】
また、上記プログラムに対して、コンピュータに、前記母語音素HMMから、発音評定の対象である正解トランスクリプションに従って連結HMMを構成する連結HMM構成ステップをさらに実行させ、前記連結HMMは、前記連結HMM構成ステップで構成した連結HMMである、ことは好適である。
(実施の形態2)
【0095】
本実施の形態において、比較対象の音声と入力音声の類似度の評定を精度高く、かつ高速にできる発音評定装置について説明する。本実施の形態における発音評定装置は、入力された音声が、比較対象の音声(例えば、ネイティブが発音した音声)と比較して、音声を構成する各フレームの音素の類似度を算定するものである。
【0096】
図6は、本実施の形態における発音評定装置のブロック図である。
【0097】
発音評定装置は、母語音素HMM格納部101、連結HMM格納部102、音声受付部103、フレーム区分部104、特徴ベクトル系列取得部105、第一最適状態番号系列取得部106、第二最適状態番号系列取得部107、フレーム音素最適パススコア算出部608、発音区間取得部109、代表値演算部110、出力部111、連結HMM構成部112を具備する。
【0098】
フレーム音素最適パススコア算出部608は、演算式格納手段6081、フレーム音素最適パススコア算出手段6082を具備する。
【0099】
フレーム音素最適パススコア算出部608は、特徴ベクトル系列、母語音素HMM、第一の最適状態番号系列、および第二の最適状態番号系列を用いて、区分されたフレームごとに最適音素内の1以上の各状態に対する確率を算出し、当該1以上の確率を用いて、区分されたフレームごとに発音の良し悪しを示すスコアを算出する。また、フレーム音素最適パススコア算出部608は、後述する演算式格納手段6081に格納されている演算式を用いて、音素らしさを算出するが、その演算式は後述の数式10に限られない。つまり、数式10のパラメータを若干、変更している演算式でも良い。また、数式10において、分子の値が「0」である場合に、予め決められた0でない値に変更して、「OPS(t)」を算出しても良い。つまり、フレーム音素最適パススコア算出部608は、特徴ベクトル系列、母語音素HMM、第一の最適状態番号系列、および第二の最適状態番号系列を用いて、区分されたフレームごとに最適音素内の1以上の各状態に対する確率を算出し、当該1以上の確率を用いて、区分されたフレームごとに発音の良し悪し(音素らしさ)を示すスコアを算出すれば、その算出に用いる演算式は問わない。フレーム音素最適パススコア算出部608は、通常、MPUやメモリ等から実現され得る。フレーム音素最適パススコア算出部608の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
【0100】
演算式格納手段6081は、特徴ベクトル系列、母語音素HMM、第一の最適状態番号系列、および第二の最適状態番号系列をパラメータとして、フレーム音素最適パススコアを算出する演算式の情報を格納している。演算式格納手段6081は、例えば、以下の数式10の演算式の情報を格納している。演算式格納手段6081は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
【数10】

【0101】
数式10において、「OPS(t)」は、t番目のフレームのフレーム音素最適パススコアを示す関数である。数式10において、t番目フレームの最適状態「q(2)」を含む音素(「最適音素」という)をλ[q(2)]とし(図4にその概念を記載している。)、λ[q(2)]に含まれる状態番号の集合をS(λ[q(2)])とする。
【0102】
フレーム音素最適パススコア算出手段6082は、演算式格納手段6081から演算式の情報を読み出し、当該演算式に従って、パラメータの値を取得し、当該パラメータの値を、読み出した演算式に代入し、スコアを算出する。さらに、具体的には、フレーム音素最適パススコア算出手段6082は、上記の数式10を読み出し、1番目のフレームから、T番目のフレームまで、フレームごとに、フレーム音素最適パススコアを算出する。つまり、フレーム音素最適パススコア算出手段6082は、フレームごとに、分母の値を算出する。フレーム音素最適パススコア算出手段6082が分母の値を算出する手順は、例えば、フレーム状態最適パススコア算出手段1082が数式1の分母の値を算出する手順と同様である。
【0103】
次に、フレーム音素最適パススコア算出手段6082は、フレームごとに、数式10の分子の値を算出する。つまり、フレーム音素最適パススコア算出手段6082は、各フレームに対して、最適音素が有する1以上の状態(i)について、母語音素HMM格納部101から「aqt−1(1)」を読み出す。そして、フレーム音素最適パススコア算出手段6082は、母語音素HMM格納部101から「aiqt+1(1)」を読み出す。そして、フレーム音素最適パススコア算出手段6082は、各フレームの特徴ベクトルを取得し、当該特徴ベクトルを出力密度関数に代入し、b(o)を得る。そして、フレーム音素最適パススコア算出手段6082は、得た「aqt−1(1)」、「aiqt+1(1)」、およびb(o)を乗算し、その結果を一時的にメモリに記憶する。かかる処理を最適音素が有する各状態に対して行う。そして、フレーム音素最適パススコア算出手段6082は、一時的にメモリに記憶した値の和を算出し、数式10の分子の値を得る。次に、フレーム音素最適パススコア算出手段6082は、一時記憶した分子の値から分母の値を除算し、フレームごとのフレーム状態最適パススコアを得る。
【0104】
次に、本発音評定装置の動作について説明する。本発音評定装置の処理は、実施の形態1の発音評定装置の図2のフローチャートにおける処理と比較して、ステップS211が「フレーム音素最適パススコアの算出」に変わるだけである。フレーム音素最適パススコアの算出処理について、図7のフローチャートを用いて説明する。図7のフローチャートにおいて、図3のフローチャートと同一のステップについて、説明を省略する。ただし、図3のフローチャートにおいてフレーム状態最適パススコア算出手段1082が行った処理は、図7のフローチャートにおいてはフレーム音素最適パススコア算出手段6082が行う。
【0105】
(ステップS701)フレーム音素最適パススコア算出手段6082は、カウンタiに1を代入する。
【0106】
(ステップS702)フレーム音素最適パススコア算出手段6082は、i番目の状態が存在するか否かを判断する。i番目の状態が存在すればステップS703に行き、i番目の状態が存在しなければステップS708に行く。
【0107】
(ステップS703)フレーム音素最適パススコア算出手段6082は、母語音素HMM格納部101から「aqt−1(1)」を読み出す。
【0108】
(ステップS704)フレーム音素最適パススコア算出手段6082は、母語音素HMM格納部101から「aiqt+1(1)」を読み出す。
【0109】
(ステップS705)フレーム音素最適パススコア算出手段6082は、対応するフレームの特徴ベクトルを取得し、当該特徴ベクトルを出力密度関数に代入し、b(o)を得る。なお、特徴ベクトルは、特徴ベクトル系列取得部105が取得した情報である。また、出力密度関数の情報は、予め保持されており、かかる出力密度関数の情報を、フレーム音素最適パススコア算出手段6082は、読み出す。
【0110】
(ステップS706)フレーム音素最適パススコア算出手段6082は、ステップS703、ステップS704、およびステップS705で得た値を乗算し、その結果をメモリ上に一時格納する。
【0111】
(ステップS707)フレーム音素最適パススコア算出手段6082は、カウンタiを1、インクリメントし、ステップS702に戻る。
【0112】
(ステップS708)フレーム音素最適パススコア算出手段6082は、各状態に対応するステップS706における演算結果を、メモリから読み出し、和を求め、その結果をメモリ上に一時格納する。
【0113】
(ステップS709)フレーム音素最適パススコア算出手段6082は、OPS(t)を算出する
【0114】
(ステップS710)フレーム音素最適パススコア算出手段6082は、ステップS709で算出したOPS(t)をメモリ上に一時格納し、上位関数にリターンする。
【0115】
以下、本実施の形態における発音評定装置の発音評定の方法について説明する。
【0116】
まず、上記の数式10が導かれる過程について説明する。フレーム音素最適パススコアを以下の数式11で定義する。
【数11】

【0117】
そして、実施の形態1において数式2から数式1を算出した場合と同様に、分子と分母を約分すると、数式10が導出される。
【0118】
また、数式10により算出されるフレーム音素最適パススコア(OPS(τ))を発音区間T(m)で評価した発音区間フレーム音素最適パススコア(OPS(m))は、数式12により算出される。かかる算出は、代表値演算部110が行う。
【数12】

【0119】
数式12において、mは発音区間のインデクス、Me{・}は集合{・}内の要素の中央値を表わす。ただし中央値の代表値演算は、平均値や最大値などの別の代表値演算に置き換えても良い。また、発音区間は、例えば、forced alignmentパスQにより定まる、音素区間、単語区間、フレーズ区間などである。
【0120】
次に、数式10の性質、意義、つまり、上述したフレーム音素最適パススコアの性質、意義について説明する。
【0121】
実施の形態1におけるフレーム状態最適パススコアの数式7において、最適状態(q(2))を含む音素(最適音素)の中の各状態に対し、確率密度関数があまり変わらず、数式7の分母の値に対して「j=1,2,...,N」の中で優勢となる状態が、最適状態のみならず、最適音素内の複数個の状態となる(図8参照)。
【0122】
かかる場合、特徴ベクトル系列Oが正しいトランスクリプションのネイティブ発音に類似している場合でも、状態1個からなる分子の確率値と比較して分母の確率値は複数状態の和となり(最適状態のみが優勢、とならなくなるため)、分子に対する分母の割合が大きくなる。そのため、以下の数式13に示すように、スコアが高くならないことが生じる。
【数13】

【0123】
そこで、最適状態(q(2))のみならず、最適音素(λ[q(2)])内の複数状態で数式1あるいは数式2の分子の総和をとるフレーム音素最適パススコア(数式10あるいは数式11)が、安定かつ精度の高いスコアを提供するものとして有意義である。また、実施の形態1における状態のもっともらしさよりも、母語音素のもっともらしさを評定した方が、発音の良し悪しをより安定して、精度高く測れるものと考えられるため、この意味でもフレーム音素最適パススコアは優れている。
【0124】
以上、本実施の形態によれば、音韻毎に連結した連結HMMとフレーム分割されたデータを用いて、比較対象の音声と入力音声の類似度を評定することができ、両者の類似度の評定の極めて精度を高く、高速に行うことができる。さらに具体的には、本実施の形態によれば、特徴ベクトル系列、母語音素HMM、第一の最適状態番号系列、および第二の最適状態番号系列を用いて、区分されたフレームごとに最適音素内の1以上の各状態に対する確率を算出し、当該1以上の確率を用いて、区分されたフレームごとに発音の良し悪しを示すスコアを算出できる。このスコアは、母語音素HMMが有する1以上の状態を有する音素と比較した、ユーザが入力した音声の各音素の音素らしさを示すスコアである。
【0125】
なお、本実施の形態における発音評定装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、音声の入力を受け付ける音声受付ステップと、前記音声受付ステップで受け付けた音声を、フレームに区分するフレーム区分ステップと、前記区分された各フレームの特徴ベクトルを算出し、特徴ベクトル系列を取得する特徴ベクトル系列取得ステップと、前記特徴ベクトル系列と格納している母語音素HMMを取得し、前記特徴ベクトル系列と前記母語音素HMMを用いて、ビタビアルゴリズムにより第一の最適状態番号系列を取得する第一最適状態番号系列取得ステップと、前記特徴ベクトル系列と格納している連結HMMを取得し、前記特徴ベクトル系列と前記連結HMMを用いて、ビタビアルゴリズムにより第二の最適状態番号系列を取得する第二最適状態番号系列取得ステップと、前記特徴ベクトル系列、前記母語音素HMM、前記第一の最適状態番号系列、および前記第二の最適状態番号系列を用いて、前記区分されたフレームごとに最適音素内の1以上の各状態に対する確率を算出し、当該1以上の確率を用いて、前記区分されたフレームごとに発音の良し悪しを示すスコアを算出するフレーム音素最適パススコア算出ステップと、前記フレーム音素最適パススコア算出ステップで算出したフレームごとのスコアを出力する出力ステップを実行させるためのプログラム、である。
【0126】
また、上記プログラムに対して、コンピュータに、前記音声受付部が受け付けた音声の発音区間を取得する発音区間取得ステップと、前記発音区間ごとに、当該発音区間に対応する1以上のフレームごとの1以上のスコアを用いて、当該発音区間の代表のスコアを算出する代表値演算ステップをさらに実行させ、前記出力ステップにおいて、少なくとも前記代表値演算ステップで算出した各発音区間の代表のスコアを出力する、ことは好適である。
【0127】
また、上記プログラムに対して、コンピュータに、前記母語音素HMMから、発音評定の対象である正解トランスクリプションに従って連結HMMを構成する連結HMM構成ステップをさらに実行させ、前記連結HMMは、前記連結HMM構成ステップで構成した連結HMMである、ことは好適である。
【0128】
また、上記各実施の形態において述べた発音評定装置は、語学学習やカラオケにおける採点装置や物真似練習などに利用できる。
【0129】
また、上記各実施の形態において、各処理(各機能)は、単一の装置(システム)によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。
【0130】
また、図9は、本明細書で述べたプログラムを実行して、上述した種々の実施の形態の発音評定装置を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図9は、このコンピュータシステム340の概観図であり、図10は、コンピュータシステム340のブロック図である。
【0131】
図9において、コンピュータシステム340は、FD(Flexible Disk)ドライブ、CD−ROM(Compact Disk Read Only Memory)ドライブを含むコンピュータ341と、キーボード342と、マウス343と、モニタ344と、マイク345とを含む。
【0132】
図10において、コンピュータ341は、FDドライブ3411、CD−ROMドライブ3412に加えて、CPU(Central Processing Unit)3413と、CPU3413、CD−ROMドライブ3412及びFDドライブ3411に接続されたバス3414と、ブートアッププログラム等のプログラムを記憶するためのROM(Read−Only Memory)3415と、CPU3413に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのRAM(Random Access Memory)3416と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク3417とを含む。ここでは、図示しないが、コンピュータ341は、さらに、LANへの接続を提供するネットワークカードを含んでも良い。
【0133】
コンピュータシステム340に、上述した実施の形態の発音評定装置の機能を実行させるプログラムは、CD−ROM3501、またはFD3502に記憶されて、CD−ROMドライブ3412またはFDドライブ3411に挿入され、さらにハードディスク3417に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ341に送信され、ハードディスク3417に記憶されても良い。プログラムは実行の際にRAM3416にロードされる。プログラムは、CD−ROM3501、FD3502またはネットワークから直接、ロードされても良い。
【0134】
プログラムは、コンピュータ341に、上述した実施の形態の発音評定装置の機能を実行させるオペレーティングシステム(OS)、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム340がどのように動作するかは周知であり、詳細な説明は省略する。
【0135】
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
【産業上の利用可能性】
【0136】
以上のように、本発明にかかる発音評定装置は、精度高く発音評定ができるという効果を有し、語学学習装置等として有用である。
【図面の簡単な説明】
【0137】
【図1】実施の形態1における発音評定装置のブロック図
【図2】同発音評定装置の動作について説明するフローチャート
【図3】同フレーム状態最適パススコア算出処理について説明するフローチャート
【図4】同発音評定装置の処理の概念を示す図
【図5】同フレーム状態最適パススコアの概念を説明する図
【図6】実施の形態2における発音評定装置のブロック図
【図7】同フレーム音素最適パススコア算出処理について説明するフローチャート
【図8】同フレーム音素最適パススコアの概念を説明する図
【図9】同発音評定装置を実現するコンピュータの外観図
【図10】同発音評定システムのブロック図
【符号の説明】
【0138】
101 母語音素HMM格納部
102 連結HMM格納部
103 音声受付部
104 フレーム区分部
105 特徴ベクトル系列取得部
106 第一最適状態番号系列取得部
107 第二最適状態番号系列取得部
108 フレーム状態最適パススコア算出部
109 発音区間取得部
110 代表値演算部
111 出力部
112 連結HMM構成部
608 フレーム音素最適パススコア算出部
1081、6081 演算式格納手段
1082 フレーム状態最適パススコア算出手段
6082 フレーム音素最適パススコア算出手段

【特許請求の範囲】
【請求項1】
音韻毎の隠れマルコフモデルに基づくデータである母語音素HMMを格納している母語音素HMM格納部と、
発音評定の対象である正解トランスクリプションに従ってHMMに基づくデータを連結したデータである連結HMMを格納している連結HMM格納部と、
音声の入力を受け付ける音声受付部と、
前記音声受付部が受け付けた音声を、フレームに区分するフレーム区分部と、
前記区分された各フレームの特徴ベクトルを算出し、特徴ベクトル系列を取得する特徴ベクトル系列取得部と、
前記特徴ベクトル系列と前記母語音素HMMを取得し、前記特徴ベクトル系列と前記母語音素HMMを用いて、ビタビアルゴリズムにより第一の最適状態番号系列を取得する第一最適状態番号系列取得部と、
前記特徴ベクトル系列と前記連結HMMを取得し、前記特徴ベクトル系列と前記連結HMMを用いて、ビタビアルゴリズムにより第二の最適状態番号系列を取得する第二最適状態番号系列取得部と、
前記特徴ベクトル系列、前記母語音素HMM、前記第一の最適状態番号系列、および前記第二の最適状態番号系列を用いて、前記区分されたフレームごとに最適状態に対する確率を算出し、当該確率を用いて、前記区分されたフレームごとに発音の良し悪しを示すスコアを算出するフレーム状態最適パススコア算出部と、
前記フレーム状態最適パススコア算出部が算出したフレームごとのスコアを出力する出力部を具備する発音評定装置。
【請求項2】
音韻毎の隠れマルコフモデルに基づくデータである母語音素HMMを格納している母語音素HMM格納部と、
発音評定の対象である正解トランスクリプションに従ってHMMに基づくデータを連結したデータである連結HMMを格納している連結HMM格納部と、
音声の入力を受け付ける音声受付部と、
前記音声受付部が受け付けた音声を、フレームに区分するフレーム区分部と、
前記区分された各フレームの特徴ベクトルを算出し、特徴ベクトル系列を取得する特徴ベクトル系列取得部と、
前記特徴ベクトル系列と前記母語音素HMMを取得し、前記特徴ベクトル系列と前記母語音素HMMを用いて、ビタビアルゴリズムにより第一の最適状態番号系列を取得する第一最適状態番号系列取得部と、
前記特徴ベクトル系列と前記連結HMMを取得し、前記特徴ベクトル系列と前記連結HMMを用いて、ビタビアルゴリズムにより第二の最適状態番号系列を取得する第二最適状態番号系列取得部と、
前記特徴ベクトル系列、前記母語音素HMM、前記第一の最適状態番号系列、および前記第二の最適状態番号系列を用いて、前記区分されたフレームごとに最適音素内の1以上の各状態に対する確率を算出し、当該1以上の確率を用いて、前記区分されたフレームごとに発音の良し悪しを示すスコアを算出するフレーム音素最適パススコア算出部と、
前記フレーム音素最適パススコア算出部が算出したフレームごとのスコアを出力する出力部を具備する発音評定装置。
【請求項3】
前記音声受付部が受け付けた音声の発音区間を取得する発音区間取得部と、
前記発音区間ごとに、当該発音区間に対応する1以上のフレームごとの1以上のスコアを用いて、当該発音区間の代表のスコアを算出する代表値演算部をさらに具備し、
前記出力部は、少なくとも前記代表値演算部が算出した各発音区間の代表のスコアを出力する請求項1または請求項2記載の発音評定装置。
【請求項4】
前記母語音素HMM格納部の母語音素HMMから、発音評定の対象である正解トランスクリプションに従って連結HMMを構成する連結HMM構成部をさらに具備し、
前記連結HMM格納部の連結HMMは、前記連結HMM構成部が構成した連結HMMである請求項1から請求項3いずれか記載の発音評定装置。
【請求項5】
コンピュータに、
音声の入力を受け付ける音声受付ステップと、
前記音声受付ステップで受け付けた音声を、フレームに区分するフレーム区分ステップと、
前記区分された各フレームの特徴ベクトルを算出し、特徴ベクトル系列を取得する特徴ベクトル系列取得ステップと、
前記特徴ベクトル系列と格納している母語音素HMMを取得し、前記特徴ベクトル系列と前記母語音素HMMを用いて、ビタビアルゴリズムにより第一の最適状態番号系列を取得する第一最適状態番号系列取得ステップと、
前記特徴ベクトル系列と格納している連結HMMを取得し、前記特徴ベクトル系列と前記連結HMMを用いて、ビタビアルゴリズムにより第二の最適状態番号系列を取得する第二最適状態番号系列取得ステップと、
前記特徴ベクトル系列、前記母語音素HMM、前記第一の最適状態番号系列、および前記第二の最適状態番号系列を用いて、前記区分されたフレームごとに最適状態に対する確率を算出し、当該確率を用いて、前記区分されたフレームごとに発音の良し悪しを示すスコアを算出するフレーム状態最適パススコア算出ステップと、
前記フレーム状態最適パススコア算出ステップで算出したフレームごとのスコアを出力する出力ステップを実行させるためのプログラム。
【請求項6】
コンピュータに、
音声の入力を受け付ける音声受付ステップと、
前記音声受付ステップで受け付けた音声を、フレームに区分するフレーム区分ステップと、
前記区分された各フレームの特徴ベクトルを算出し、特徴ベクトル系列を取得する特徴ベクトル系列取得ステップと、
前記特徴ベクトル系列と格納している母語音素HMMを取得し、前記特徴ベクトル系列と前記母語音素HMMを用いて、ビタビアルゴリズムにより第一の最適状態番号系列を取得する第一最適状態番号系列取得ステップと、
前記特徴ベクトル系列と格納している連結HMMを取得し、前記特徴ベクトル系列と前記連結HMMを用いて、ビタビアルゴリズムにより第二の最適状態番号系列を取得する第二最適状態番号系列取得ステップと、
前記特徴ベクトル系列、前記母語音素HMM、前記第一の最適状態番号系列、および前記第二の最適状態番号系列を用いて、前記区分されたフレームごとに最適音素内の1以上の各状態に対する確率を算出し、当該1以上の確率を用いて、前記区分されたフレームごとに発音の良し悪しを示すスコアを算出するフレーム音素最適パススコア算出ステップと、
前記フレーム音素最適パススコア算出ステップで算出したフレームごとのスコアを出力する出力ステップを実行させるためのプログラム。


【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図6】
image rotate

【図7】
image rotate

【図9】
image rotate

【図10】
image rotate

【図4】
image rotate

【図5】
image rotate

【図8】
image rotate


【公開番号】特開2008−40035(P2008−40035A)
【公開日】平成20年2月21日(2008.2.21)
【国際特許分類】
【出願番号】特願2006−212704(P2006−212704)
【出願日】平成18年8月4日(2006.8.4)
【国等の委託研究の成果に係る記載事項】(出願人による申告)国等の委託研究成果に係る特許出願(平成18年度独立行政法人新エネルギー・産業技術総合開発機構、開発項目「半導体アプリケーションチッププロジェクト(情報家電用半導体アプリケーションチップ技術開発)マルチメディア多機能チップの研究開発」の「発音の評定を行うソフトウェアの多機能マルチメディアチップへの適応に関する研究開発」、産業活力再生特別措置法第30条の適用を受ける特許出願
【出願人】(393031586)株式会社国際電気通信基礎技術研究所 (905)
【Fターム(参考)】