説明

音響モデル学習装置、および音響モデル学習方法

【課題】マイナーな言語において学習データが十分ではない音響モデルを用いた音声認識の精度は低かった。
【解決手段】第一言語の第一音響モデルと、第二言語の第二音響モデルと、第一言語の第一発音辞書と、第二言語の第二音素関連情報を選択し、第一単語発音情報が有する音素識別子列に含まれる音素識別子を選択された第二音素関連情報が有する音素識別子に置換して、仮第一単語発音情報を構成し、第一音響モデルと第一発音辞書に仮第一単語発音情報を加えた仮第一発音辞書とを用いて、音声認識処理を行い1以上の認識結果を取得し、仮第一単語発音情報の置換数情報を取得し、置換数情報が大きい場合に第二言語の音素情報と置換された第一単語発音情報の音素識別子とを対応付けた新第一音素関連情報を構成し、新第一音素関連情報を第一音響モデルに蓄積する音響モデル学習装置により、数多くの言語の音響モデルを効率よく構築できる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識処理等で利用できる音響モデルを構築する音響モデル構築装置等に関するものである。
【背景技術】
【0002】
異なる言語の間の壁を越える技術として、音声翻訳等の技術が開発されている(非特許文献1、非特許文献2参照)。
【0003】
また、音声翻訳等にも利用される音声認識処理において、音響モデルが利用される。そして、一般に、高い音声認識率を得るための音響モデルの学習においては、十分な学習データが必要である。特に、音響モデルの構成単位である音素ごとに十分な学習データが必要である。そこで、従来、他言語データを混ぜて音響モデルを構築する方法が提案されている。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】Nakamura,Satoshietal.,"TheATRmultilingual speech-to-speechtranslationsystem,"IEEETrans.ASLP,vol.14,no.2,365-376,March2006.
【非特許文献2】Sakti,Sakriani,"TheAsianNetwork-basedSpeech-to-Speech TranslationSystem",InASRU-2009,507-512
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、従来の方法においては、例えば、ポルトガル語などのマイナーな言語において、一部または全部の音素の学習データが十分ではない音響モデルが存在し、かかる音響モデルを用いた音声認識処理の精度は低かった。
【課題を解決するための手段】
【0006】
本発明は、上記課題に鑑み、以下のような解決手段を有する。
本第一の発明の音響モデル学習装置は、第一言語の音素を識別する音素識別子と音素に関する情報である音素情報とを対応付けた1以上の第一音素関連情報を格納し得る第一音響モデル格納部と、第二言語の音素を識別する音素識別子と音素に関する情報である音素情報とを対応付けた1以上の第二音素関連情報を格納し得る第二音響モデル格納部と、第一言語の単語と単語の音素識別子列とを対応付けた1以上の第一単語発音情報を格納し得る第一発音辞書と、第二音響モデル格納部から、第二言語の第二音素関連情報を選択する第二音素関連情報選択部と、第一単語発音情報から、第一単語発音情報が有する音素識別子列に含まれる音素識別子を、第二音素関連情報選択部が選択した第二音素関連情報が有する音素識別子に置換して、仮第一単語発音情報を構成する仮第一単語発音情報構成部と、第一言語の単語の1以上の音声を受け付ける受付部と、第一音響モデル格納部に格納されている1以上の第一音素関連情報と第二音素関連情報選択部が選択した第二言語の第二音素関連情報、および第一発音辞書に格納されている1以上の第一単語発音情報に仮第一単語発音情報を加えた仮第一発音辞書を用いて、受付部が受け付けた1以上の音声に対して、音声認識処理を行い、音素識別子列を含む1以上の認識結果を取得する音声認識部と、1以上の認識結果から、新第一単語発音情報が得られた数に関する情報である置換数情報を取得する置換数情報取得部と、置換数情報が予め決められた条件を満たすほど大きい場合に、第二音素関連情報選択部が選択した第二言語の第二音素関連情報が有する音素情報と、置換された第一単語発音情報が有する音素識別子列に含まれる音素識別子とを対応付けた新音素関連情報を構成する新第一単語発音情報構成部と、新第一単語発音情報を第一音響モデル格納部に蓄積する蓄積部とを具備する音響モデル学習装置である。
【0007】
かかる構成により、数多くの言語の音響モデルを効率よく構築できる。
【0008】
また、本第二の発明の音響モデル学習装置は、第一の発明に対して、仮第一単語発音情報構成部は、第一音響モデル格納部に格納されている1以上の第一音素関連情報から、第一言語の各音素識別子に対応する音素情報の数である学習数を取得する学習数取得手段と、第一単語発音情報が有する音素識別子列に含まれる音素識別子であり、予め決められた条件を満たすほど学習数の少ない音素の音素識別子のみ、第二音素関連情報選択部が選択した第二音素関連情報が有する音素識別子に置換して、仮第一単語発音情報を構成する仮第一単語発音情報構成手段とを具備する音響モデル学習装置である。
【0009】
かかる構成により、極めて品質の高い、数多くの言語の音響モデルを効率よく構築できる。
【発明の効果】
【0010】
本発明による音響モデル学習装置によれば、数多くの言語の音響モデルを効率よく構築できる。
【図面の簡単な説明】
【0011】
【図1】実施の形態1における音響モデル学習装置のブロック図
【図2】実施の形態1における音響モデル学習装置の動作について説明するフローチャート
【図3】実施の形態1における置換数情報取得処理の動作について説明するフローチャート
【図4】実施の形態1における音響モデル学習装置の動作の一部を説明する概念図
【図5】実施の形態1における音響モデル学習装置の動作の一部を説明する概念図
【図6】実施の形態1における実験結果を示す図
【図7】実施の形態1におけるコンピュータシステムの概観図
【図8】実施の形態1におけるコンピュータシステムのブロック図
【発明を実施するための形態】
【0012】
以下、音響モデル学習装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
【0013】
(実施の形態1)
本実施の形態において、置換率等が高い第二言語の音素情報を、第一言語の音素情報として学習させる音響モデル学習装置について説明する。
【0014】
また、本実施の形態において、第一言語の音響モデル内の低頻度の音素に関して、第二言語の対応する音素の音素情報を学習させる音響モデル学習装置について説明する。
【0015】
図1は、本実施の形態における音響モデル学習装置1の内部構造を示すブロック図である。音響モデル学習装置1は、第一言語の音響モデルを格納している第一音響モデル格納部11、第二言語の音響モデルを格納している第二音響モデル格納部12、第一発音辞書13、第二音素関連情報選択部14、仮第一単語発音情報構成部15、受付部16、音声認識部17、置換数情報取得部18、新第一音素関連情報構成部19、および蓄積部20を具備する。
【0016】
また、仮第一単語発音情報構成部15は、学習数取得手段151、および仮第一単語発音情報構成手段152を具備する。
【0017】
音響モデル学習装置1を構成する第一音響モデル格納部11は、1以上の第一音素関連情報を格納し得る。第一音素関連情報とは、第一言語の音素を識別する音素識別子と音素に関する情報である音素情報とを対応付けた情報である。ここで、第一言語とは、例えば、音声認識処理を行う目的言語である。なお、第一言語を、適宜、目的言語とも言う。例えば、第一言語は、ポルトガル語、スワヒリ語など、他の言語と比較して、多数の人が使用していないマイナーな言語であることは好適である。また、音素情報とは、通常、1以上の特徴量であるが、波形でも良い。音素情報は、GMM、HMMなど、その構造は問わない。また、特徴量とは、通常、複数である。特徴量は、例えば、12次元MFCC、12次元ΔMFCC、Δ対数パワー、ケプストラム、パワースペクトル等である。また、音素とは、一つの音素でも良いし、複数の音素(又は音韻)でも良い。つまり、日本語の「か」に対して、音素を「k」や「a」という単位で捕らえても良いし、「ka」という単位で捕らえても良い。そして、音素を各言語の発音の単位と捕らえることは好適である。なお、本実施の形態等において、AとBとを対応付けた情報とは、AとBとを有する情報でも良いし、AとBとが音響モデル学習装置1の外部に存在し、AとBとを対応付けて取得するための情報(AのIDとBのIDなど)等でも良い。つまり、AとBとを対応付けた情報により、AとBとを取得できれば良い。
【0018】
第二音響モデル格納部12は、1以上の第二音素関連情報を格納し得る。第二音素関連情報は、第二言語の音素を識別する音素識別子と音素に関する情報である音素情報とを対応付けたである。第二言語とは、適宜、補完言語とも言う。第二言語は、英語、日本語など、音響モデルの学習量が多い言語であることは好適である。また、第二言語は、2以上の言語でも良く、英語、日本語以外に、例えば、中国語、スペイン語等である。
【0019】
第一発音辞書13は、1以上の第一単語発音情報を格納し得る。第一単語発音情報とは、第一言語の単語と当該単語の音素識別子列とを対応付けた情報である。
【0020】
第二音素関連情報選択部14は、第二音響モデル格納部12から、第二言語の第二音素関連情報を選択する。ここで、第二音素関連情報の選択の方法は問わない。第二音素関連情報選択部14は、任意の第二音素関連情報を選択しても良い。また、第二音素関連情報選択部14は、第二言語の音素識別子の種類だけ、1または2以上の第二音素関連情報を選択しても良い。さらに、第二音素関連情報選択部14は、第二音響モデル格納部12から、第二言語の一の音素識別子に対して一の第二音素関連情報を選択しても良いし、第二言語の一の音素識別子に対して2以上の第二音素関連情報を選択しても良い。つまり、第二音素関連情報選択部14は、一の音素識別子と一の音素情報とを取得しても良いし、一の音素識別子と2以上の音素情報とを取得しても良い。第二音素関連情報選択部14が音素識別子と音素情報とを同時に選択する必要はなく、音素識別子を選択した後、当該音素識別子に対応する1以上の音素情報を選択しても良い。
【0021】
仮第一単語発音情報構成部15は、仮第一単語発音情報を構成する。仮第一単語発音情報とは、第一単語発音情報が有する音素識別子列に含まれる一の音素識別子を、第二音素関連情報選択部14が選択した第二言語の音素識別子に置換した情報である。つまり、仮第一単語発音情報構成部15は、第一単語発音情報から、第一単語発音情報が有する音素識別子列に含まれる一の音素識別子を、第二音素関連情報選択部14が選択した第二言語の音素識別子に置換して、仮第一単語発音情報を構成する。ここで、置換について、第二音素関連情報が有する音素識別子が決まれば、第一単語発音情報が有する音素識別子が決定されても良い。また、第一言語の複数種類の各音素識別子が、第二言語の複数種類の各言語識別子に置換されても良い。
【0022】
また、仮第一単語発音情報構成部15は、他の音素置換手法との組み合わせを行えるようにしても良い。つまり、仮第一単語発音情報構成部15は、他の音素置換手法により置換されなかった第一単語発音情報が有する音素識別子列に含まれる一の音素識別子のみに対して、当該一の音素識別子を第二音素関連情報選択部14が選択した第二言語の音素識別子に置換した情報である仮第一単語発音情報を構成しても良い。なお、他の音素置換手法とは、例えば、IPA(International Phonetic Association, "Handbook of the International Phonetic Association: A Guide to the Use of the International Phonetic Alphabet",Cambr idge University Press, 1999.参照)を基準として用いる方法である。IPAを基準として用いる方法とは、IPAが一致する、または所定以上の類似度を有する第一言語の一の音素識別子と第二言語の一の音素識別子を置換する方法である。IPAが一致することの判断方法、または所定以上の類似度を有することの判断方法は公知技術であるので説明を省略する。
【0023】
仮第一単語発音情報構成部15を構成する学習数取得手段151は、第一音響モデル格納部11に格納されている1以上の第一音素関連情報から、第一言語の各音素識別子に対応する音素情報の数である学習数を取得する。なお、学習数取得手段151の処理は必須ではない。
【0024】
また、仮第一単語発音情報構成手段152は、第一単語発音情報が有する音素識別子列に含まれる音素識別子であり、予め決められた条件を満たすほど学習数の少ない音素の音素識別子のみ、第二音素関連情報選択部14が選択した音素識別子に置換して、仮第一単語発音情報を構成する。なお、仮第一単語発音情報構成手段152は、学習数の多少に関わらず、第一単語発音情報が有する音素識別子列に含まれる音素識別子を、第二音素関連情報選択部14が選択した音素識別子に置換して、仮第一単語発音情報を構成しても良い。
【0025】
受付部16は、第一言語の単語の1以上の音声を受け付ける。ここで、受け付けとは、マイクなどの入力デバイスから入力された情報の受け付け、有線もしくは無線の通信回線を介して送信された情報の受信、光ディスクや磁気ディスク、半導体メモリなどの記録媒体から読み出された情報の受け付けなどを含む概念である。
【0026】
音声認識部17は、第一音響モデル格納部11に格納されている1以上の第一音素関連情報と第二音素関連情報選択部14が選択した第二言語の第二音素関連情報、および第一発音辞書13に格納されている1以上の第一単語発音情報に仮第一単語発音情報を加えた仮第一発音辞書とを用いて、受付部16が受け付けた1以上の音声に対して、音声認識処理を行い、音素識別子列を含む1以上の認識結果を取得する。なお、通常、音声認識部17は、音響モデル(1以上の第一音素関連情報と第二音素関連情報選択部14が選択した第二言語の第二音素関連情報)、仮第一発音辞書、および言語モデルを用いて行われる。ただし、ここでは、言語モデルについては公知技術であるので、説明していない。また、音声認識部17が行う音声認識処理自体は、いかなる方法でも良く、公知技術により音声認識処理は可能であるので、説明は省略する。なお、音声認識部17は、一の音声に対して、複数の認識結果(かかる場合、候補である)を取得しても良い。
【0027】
置換数情報取得部18は、1以上の認識結果から、仮第一単語発音情報が得られた数に関する情報である置換数情報を取得する。置換数情報とは、置換数でも良いし、置換率等でも良い。置換率とは、「仮第一単語発音情報に対応する音素識別子列の数/2以上の認識結果の数」である。置換数とは、仮第一単語発音情報が得られた数である。なお、置換数情報取得部18は、音声認識結果の信頼度を考慮しても良い。例えば、置換数情報取得部18は、信頼度の低い認識結果については、置換数情報(例えば、置換数)を算出する対象から除外することは好適である。なお、音声認識部17が取得した認識結果が、信頼度(スコア)を有する場合、置換数情報取得部18は、置換数情報を算出する際に、信頼度が閾値より低い認識結果を利用しなかったり、信頼度に応じて、置換数に重み付けしたりしても良い。
【0028】
新第一音素関連情報構成部19は、置換数情報が予め決められた条件を満たすほど大きい場合に、第二音素関連情報選択部14が選択した第二言語の第二音素関連情報が有する音素情報と、置換された第一単語発音情報が有する音素識別子列に含まれる音素識別子とを対応付けた新第一音素関連情報を構成する。予め決められた条件とは、例えば、置換率が最も大きいこと、置換率が閾値以上であること、置換数が最も大きいこと、置換数が閾値以上であること等である。また、新第一音素関連情報構成部19は、1以上の新第一音素関連情報を構成しても良い。また、新第一音素関連情報構成部19は、第二音素関連情報選択部14が選択した第二言語の第二音素関連情報が有する1以上の音素情報を取得しても良い。かかる1以上の音素情報の取得も、新第一音素関連情報の構成である、とする。
【0029】
蓄積部20は、新第一音素関連情報構成部19が構成した新第一音素関連情報を第一音響モデル格納部11に蓄積する。蓄積部20は、新第一音素関連情報構成部19が取得した1以上の音素情報を、第一言語の置換された音素識別子に対応付けて、第一音響モデル格納部11に蓄積しても良い。かかる1以上の音素情報の蓄積も、新第一音素関連情報構成部19が構成した新第一音素関連情報の蓄積であると考える。
【0030】
第一音響モデル格納部11、第二音響モデル格納部12、および第一発音辞書13は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。第一音響モデル格納部11に第一音響モデル等が記憶される過程は問わない。例えば、記録媒体を介して第一音響モデル等が第一音響モデル格納部11等で記憶されるようになってもよく、通信回線等を介して送信された第一音響モデル等が第一音響モデル格納部11等で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された第一音響モデル等が第一音響モデル格納部11等で記憶されるようになってもよい。
受付部16は、
【0031】
第二音素関連情報選択部14、仮第一単語発音情報構成部15、音声認識部17、置換数情報取得部18、新第一音素関連情報構成部19、および蓄積部20は、通常、MPUやメモリ等から実現され得る。第二音素関連情報選択部14等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
【0032】
次に、音響モデル学習装置1の動作について、図2のフローチャートを用いて説明する。
【0033】
(ステップS201)仮第一単語発音情報構成部15の学習数取得手段151は、カウントiに1を代入する。
【0034】
(ステップS202)学習数取得手段151は、第一言語のi番目の音素識別子が存在するか否かを判断する。第一言語のi番目の音素識別子が存在すればステップS203に行き、存在しなければ処理を終了する。
【0035】
(ステップS203)学習数取得手段151は、第一言語のi番目の音素識別子を取得する。学習数取得手段151は、第一言語のi番目の音素識別子は、第一音響モデル格納部11に格納されている1以上の第一音素関連情報から取得しても良いし、別途、保持している第一言語の音素識別子の集合から取得しても良い。なお、第一言語の音素識別子の集合からi番目の音素識別子を取得する場合でも、第一音響モデル格納部11に格納されている1以上の第一音素関連情報から取得することと同意義である、とする。
【0036】
(ステップS204)学習数取得手段151は、第一音響モデル格納部11に格納されている1以上の第一音素関連情報から、i番目の音素識別子に対応する音素情報の数である学習数を取得する。
【0037】
(ステップS205)仮第一単語発音情報構成手段152は、i番目の音素識別子の学習数が、予め決められた条件を満たすほど少ないか否か(例えば、「i番目の音素識別子の学習数<n(nは自然数)」)を判断する。予め決められた条件を満たすほど少ない場合はステップS206に行き、少なくない場合はステップS218に行く。
【0038】
(ステップS206)第二音素関連情報選択部14は、カウントjに1を代入する。
【0039】
(ステップS207)第二音素関連情報選択部14は、第二言語のj番目の音素識別子が存在するか否かを判断する。第一言語のj番目の音素識別子が存在すればステップS208に行き、存在しなければステップS215に行く。
【0040】
(ステップS208)第二音素関連情報選択部14は、第二言語のj番目の音素識別子を含む第二音素関連情報を、第二音響モデル格納部12から取得する。ここで、第二音素関連情報選択部14は、j番目の音素識別子を含む一の第二音素関連情報を取得しても良いし、j番目の音素識別子を含む2以上の第二音素関連情報を取得しても良い。
【0041】
(ステップS209)仮第一単語発音情報構成手段152は、第一単語発音情報が有する音素識別子列に含まれるi番目の音素識別子を、第二音素関連情報選択部14が選択した第二音素関連情報が有するj番目の音素識別子に置換した情報である仮第一単語発音情報を構成する。
【0042】
(ステップS210)受付部16は、第一言語の単語の2以上の音声を受け付ける。ここでの2以上の音声は、第一言語の一の単語の2以上の音声であることが好適である。また、ここでの2以上の各音声は、通常、第一言語のi番目の音素識別子に対応する音素を含む単語の音声である。
【0043】
(ステップS211)音声認識部17は、第一音響モデル格納部11に格納されている1以上の第一音素関連情報と第二音素関連情報選択部14が選択した第二言語の第二音素関連情報、および第一発音辞書13に格納されている1以上の第一単語発音情報に仮第一単語発音情報を加えた仮第一発音辞書とを用いて、受付部16が受け付けた2以上の音声に対して、音声認識処理を行い、音素識別子列を含む2以上の認識結果を取得する。
【0044】
(ステップS212)置換数情報取得部18は、ステップS211において取得された2以上の認識結果から、仮第一単語発音情報が得られた数に関する情報である置換数情報を取得する。この置換数情報取得処理について、図3のフローチャートを用いて説明する。
【0045】
(ステップS213)新第一音素関連情報構成部19は、j番目の音素識別子と、ステップS212で取得された置換数情報とを対応付けて、図示しないバッファに一時蓄積する。
【0046】
(ステップS214)第二音素関連情報選択部14は、カウントjを1、インクリメントし、ステップS207に戻る。
【0047】
(ステップS215)新第一音素関連情報構成部19は、予め決められた条件を満たすほど大きい置換数情報と対になる1以上の音素識別子を、バッファから取得する。新第一音素関連情報構成部19は、例えば、最も置換数情報が大きい一の音素識別子をバッファから取得する。
【0048】
(ステップS216)新第一音素関連情報構成部19は、ステップS215で取得した1以上の各音素識別子に対応する第二言語の第二音素関連情報が有する音素情報と、第一言語のi番目の音素識別子とを有する新第一音素関連情報を構成する。
【0049】
(ステップS217)蓄積部20は、ステップS216で構成された新第一音素関連情報を第一音響モデル格納部11に蓄積する。
【0050】
(ステップS218)学習数取得手段151は、カウントiを1、インクリメントし、ステップS202に戻る。
【0051】
なお、図2のフローチャートにおいて、受付部16が、音響モデルを学習する指示を受け付けた場合に、処理を開始しても良い。
【0052】
また、図2のフローチャートにおいて、学習数が少ない音素に対して、新第一音素関連情報を蓄積した。しかし、すべての音素に対して、新第一音素関連情報を蓄積しても良い。
【0053】
次に、ステップS212の置換数情報取得処理について、図3のフローチャートを用いて説明する。
【0054】
(ステップS301)置換数情報取得部18は、ステップS211において取得された2以上の認識結果から、i番目の音素識別子を含む音素識別子列の数(n1)を取得する。
【0055】
(ステップS302)置換数情報取得部18は、ステップS211において取得された2以上の認識結果から、j番目の音素識別子を含む音素識別子列の数(n2)を取得する。
【0056】
(ステップS303)置換数情報取得部18は、「置換率=n2/(n1+n2)」を算出し、上位処理(ステップS213)にリターンする。
【0057】
なお、図3のフローチャートにおいて、置換数情報取得部18は、ステップS211において取得された2以上の認識結果から、j番目の音素識別子を含む音素識別子列の数(n2)を置換数情報として取得しても良い。
【0058】
以下、本実施の形態における音響モデル学習装置1の具体的な動作について説明する。まず、音響モデル学習装置1の音素マッピングの具体的な作成手順について説明する。なお、音素マッピングとは、目的言語の音素識別子と、補完言語の置換可能な音素識別子とを対応づける処理である。
【0059】
(ステップ1)各言語(目的言語と補完言語)の各音素モデルを作成する。なお、音素モデルとは、音素識別子と音素情報とを対応付けた情報である。
【0060】
(ステップ2)目的言語の各音素について、補完言語の各音素を用いて、以下の処理を実行し、コンヒュージョンマトリクス(Confusion Matrix)を作成する。コンヒュージョンマトリクスとは、目的言語の各音素を要素とする軸と補完言語の各音素を要素とする軸とを有する2次元のマトリクスである。そして、ここでは、当該2次元のマトリクスを構成する値は、補完言語の各音素の目的言語の各音素に対する置換数情報(置換率など)が代入され得る。なお、ステップ2の処理は、以下のステップ2−1からステップ2−4の処理を含む。
【0061】
(ステップ2−1)置換数情報を算出する補完言語の音素モデルを目的言語の音響モデルに追加する。
【0062】
(ステップ2−2)置換数情報を算出する補完言語の音素と目的言語の音素を置換したエントリを発音辞書に追加する。
【0063】
(ステップ2−3)前手順で作成した音響モデルと発音辞書を用いて目的言語音声の認識を行う。
【0064】
(ステップ2−4)認識結果に含まれる置換前のエントリ数と置換後のエントリ数より置換数情報(ここでは、置換率)を求める。なお、「置換率=置換後のエントリ数/(置換前のエントリ数+置換後のエントリ数)」である。
【0065】
(ステップ3)コンヒュージョンマトリクスに基づき,目的言語の音素に対して、最も置換されやすい補完言語の音素との対応付けを行う。
【0066】
なお、音素の対応付けがなされた後、補完言語の音素に対応する1以上の音素情報が、目的言語の音素に対応付けて、第一音響モデル格納部11に蓄積される。
【0067】
以下、ポルトガル語音素識別子/e/と、英語の音素識別子/E-en/間の置換検出の手順について説明する。
【0068】
仮第一単語発音情報構成部15の学習数取得手段151は、第一言語(ポルトガル語)の音素識別子/e/の学習数を3と取得した、とする。
【0069】
そして、仮第一単語発音情報構成手段152は、音素識別子/e/の学習数(n)が、予め決められた条件「n>10」を満たさない、と判断した、とする。
【0070】
次に、第二音素関連情報選択部14は、第二言語(英語)の音素識別子/E-en/を取得した、とする。
【0071】
次に、第二音素関連情報選択部14は、第二言語の音素識別子/E-en/を含む1以上の第二音素関連情報を、第二音響モデル格納部12から取得する。そして、ここでは、第二音素関連情報選択部14は、取得した1以上の第二音素関連情報(音素識別子/E-en/を含む第二音素関連情報)を第一音響モデル格納部11に追加する、とする。かかる動作の概念図が図4である。図4によれば、第一言語の第一音響モデル格納部11に第二音素関連情報(音素識別子/E-en/を含む第二音素関連情報)が追記されている。
【0072】
次に、仮第一単語発音情報構成手段152は、第一単語発音情報が有する音素識別子列に含まれるi番目の音素識別子を、第二音素関連情報選択部14が選択した第二音素関連情報が有するj番目の音素識別子に置換した情報である1以上の仮第一単語発音情報を構成する。そして、ここでは、仮第一単語発音情報構成手段152は、構成した1以上の仮第一単語発音情報を第一発音辞書13に追記する、とする。かかる動作の概念図が図5である。図5によれば、第一言語の第一発音辞書13に、1以上の仮第一単語発音情報が追記され、新しい第一発音辞書(13(2))が生成されている。
【0073】
次に、受付部16は、第一言語の単語の2以上の音声を受け付ける。そして、音声認識部17は、図4の第一音響モデル(1以上の第一音素関連情報)と、図5の第一発音辞書(13(2))と、図示しない言語モデルとを用いて、受付部16が受け付けたm個の音声に対して、音声認識処理を行い、音素識別子列を含むm個の認識結果を取得する。例えば、そして、音声認識部17は、ポルトガル語"Um belo presente"の音声に対応する音素識別子列"U n b E l o p r e z e~ tS i"(置換なし)または"U n b E l o p r E-en z e~ tS i"(置換あり)を取得する。そして、置換数情報取得部18は、音声認識部17が取得したm個の認識結果から、音素識別子列"U n b E l o p r e z e~ tS i"の数がn個、"U n b E l o p r E-en z e~ tS i"の数が(m−n)個であった、と判断した、とする。次に、置換数情報取得部18は、「置換率=(m−n)/m」を算出する。
【0074】
次に、新第一音素関連情報構成部19は、「置換率=(m−n)/m」が予め決められた条件を満たすほど大きい置換率である、と判断した、とする。
【0075】
次に、新第一音素関連情報構成部19は、第二言語(英語)の音素識別子/E-en/に対応する第二言語の1以上の音素情報を、第二言語の第二音響モデル格納部12から取得する。
【0076】
次に、蓄積部20は、取得された第二言語の1以上の音素情報を、第一言語の音素識別子/e/に対応付けて、第一音響モデル格納部11に蓄積する。
【0077】
以上により、第一音響モデルの学習処理が行われた。
(実験)
【0078】
以下に、音響モデル学習装置1の有効性を検証するための実験結果を示す。本実験は、ブラジルポルトガル語を目的言語とし、英語、日本語、中国語、およびスペイン語を補完言語とする実験である。
【0079】
まず、ベースラインとなる音響モデルについて説明する。ベースラインとなるブラジルポルトガル語の音響モデルは、GlobalPhoneプロジェクトの音声データ(T.Schultz,Proc.ICSLP,345−348,2002参照)、及びSPOLTECHプロジェクト(Schramm,Mauricio C.et alt.,Proc.ICSLP,vol.2,579−582,2002.参照)の音素バランス文発声データの計約16時間分を用いて構築した。音響モデルのサンプリング周波数は16kHz、特徴量は12次元MFCC、12次元ΔMFCC、Δ対数パワーを用いた。音響モデルは、より最適なモデル構造が得られるMDL−SSS法(Jitsuhiro et al.,IEICE Trans.Inf.&Syst.,E87−D8,2121−2129,2004.)を用いて自動的構造決定したものを用いている。
【0080】
次に、音響モデル学習装置1における音響モデルの構築について説明する。音響モデル学習装置1の音響モデルの構築法を評価するにあたり、ベースラインとなるデータセットに追加する音声データとして、日本語音素バランス文音声、英語旅行会話基本文音声、中国語旅行会話基本文音声、およびスペイン語音素バランス文音声を用意した。いずれも、各言語の音響モデルを用いて高精度にアライメントされている。本評価実験では、以下の各方法に基づきに作成されたラベル情報を用いて音響モデルの学習を行い、比較を行った。
【0081】
まず、IPAを基準に作成した共通の音素体系でラベリングを行った。
【0082】
次に、各音素に対し,Confusion Matrixを元に最も置換されやすい目的言語の音素としてラベリングを行った。
【0083】
音響モデルの学習データは、目的言語の音声データに4言語の音声データから音素頻度を基準とする選択方法とTriphoneの頻度を基準とする選択方法を用いて追加した。選択する発話数は10000発話を上限とし、各基準で最適なデータ量を追加することとし、ベースライン音響モデルと同条件で音響モデルを構築した。
【0084】
そして、評価実験では、ブラジルポルトガル語の旅行会話基本文音声データを用いた。また、この音声データは、話者15名であり、各話者が約500発話の旅行会話表現を発声したデータである。言語モデルは、旅行会話基本文約16万文を用いて作成した多重クラス複合bigramモデル(H.Yamamoto et alt., Speeech Communication,vol.41, 369-379, 2003.参照)および単語trigramモデルを用いた。デコーダは、自組織で開発した音声認識エンジンを利用した。ベースライン音響モデルによる単語誤り率は30.47%であった。一方、音響モデル学習装置1における音響モデルの構築法(以下、本手法)による認識性能は、図6の通りとなった。いずれの音素マッピングを用いた場合でも、本手法は、ベースライン音響モデルによる方法に比べ性能が改善している。さらに、本認識実験により提案する音素の置換率を用いることにより、IPAを基準とした音素の対応付けを行う手法に比べ認識率が改善することを確認した。特に、PFPを、選択方法を用いて作成した音響モデルが最も高い性能を示している。
【0085】
以上、本実施の形態によれば、言語の音響モデルを効率よく学習できる。特に、ポルトガル語、スワヒリ語など、他の言語と比較して、多数の人が使用していないマイナーな言語の音響モデルを効率よく学習できる。
【0086】
また、本実施の形態によれば、音素頻度を考慮し、低頻度の音素に対してだけ、他言語データの音声を学習データとして利用するため、数多くの言語の音響モデルを効率よく構築できる。また、十分に学習データのある言語について、他言語の音響的な違いによる影響が出ない。特に、音声データが十分に用意できない場合や、音声データは豊富にあっても音素の出現頻度が考慮されていない場合でも、音素ごとに出現頻度に応じて他の言語の音声を追加することにより、音響モデルの性能を向上させることができる。
【0087】
また、本実施の形態において、認識結果が一意に定まることを前提として説明したが、複数の候補が参照可能な音声認識システムを用いる場合には、上位候補として出力された場合に置換したと判断しても良い。
【0088】
また、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをCD−ROMなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。
【0089】
また、図7は、本明細書で述べた音響モデル学習装置を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図21は、このコンピュータシステム340の概観図であり、図8は、コンピュータシステム340の内部構成を示す図である。
【0090】
図7において、コンピュータシステム340は、FDドライブ3411、CD−ROMドライブ3412を含むコンピュータ341と、キーボード342と、マウス343と、モニタ344とを含む。
【0091】
図8において、コンピュータ341は、FDドライブ3411、CD−ROMドライブ3412に加えて、MPU3413と、CD−ROMドライブ3412及びFDドライブ3411に接続されたバス3414と、ブートアッププログラム等のプログラムを記憶するためのROM3415とに接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのRAM3416と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク3417とを含む。ここでは、図示しないが、コンピュータ341は、さらに、LANへの接続を提供するネットワークカードを含んでも良い。
【0092】
コンピュータシステム340に、上述した実施の形態の音響モデル学習装置の機能を実行させるプログラムは、CD−ROM3501、またはFD3502に記憶されて、CD−ROMドライブ3412またはFDドライブ3411に挿入され、さらにハードディスク3417に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ341に送信され、ハードディスク3417に記憶されても良い。プログラムは実行の際にRAM3416にロードされる。プログラムは、CD−ROM3501、FD3502またはネットワークから直接、ロードされても良い。
【0093】
プログラムは、コンピュータ341に、上述した実施の形態の音響モデル学習装置の機能を実行させるオペレーティングシステム(OS)、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム340がどのように動作するかは周知であり、詳細な説明は省略する。
なお、上記各実施の形態において、各処理(各機能)は、単一の装置(システム)によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。
【0094】
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
【産業上の利用可能性】
【0095】
以上のように、本発明にかかる音響モデル学習装置は、数多くの言語の音響モデルを効率よく構築できる、という効果を有し、音声認識装置等に利用できる音響モデル学習装置として有用である。
【符号の説明】
【0096】
1 音響モデル学習装置
11 第一音響モデル格納部
12 第二音響モデル格納部
13 第一発音辞書
14 第二音素関連情報選択部
15 仮第一単語発音情報構成部
16 受付部
17 音声認識部
18 置換数情報取得部
19 新第一音素関連情報構成部
20 蓄積部
151 学習数取得手段
152 仮第一単語発音情報構成手段

【特許請求の範囲】
【請求項1】
第一言語の音素を識別する音素識別子と当該音素に関する情報である音素情報とを対応付けた1以上の第一音素関連情報を格納し得る第一音響モデル格納部と、
第二言語の音素を識別する音素識別子と当該音素に関する情報である音素情報とを対応付けた1以上の第二音素関連情報を格納し得る第二音響モデル格納部と、
第一言語の単語と当該単語の音素識別子列とを対応付けた1以上の第一単語発音情報を格納し得る第一発音辞書と、
前記第二音響モデル格納部から、前記第二言語の音素識別子列を含む第二音素関連情報を選択する第二音素関連情報選択部と、
前記第一単語発音情報から、前記第一単語発音情報が有する音素識別子列に含まれる音素識別子を、前記第二音素関連情報選択部が選択した音素識別子に置換して、仮第一単語発音情報を構成する仮第一単語発音情報構成部と、
第一言語の単語の1以上の音声を受け付ける受付部と、
前記第一音響モデル格納部に格納されている1以上の第一音素関連情報と前記第二音素関連情報選択部が選択した第二言語の第二音素関連情報、および前記第一発音辞書に格納されている1以上の第一単語発音情報に前記仮第一単語発音情報を加えた仮第一発音辞書を用いて、前記受付部が受け付けた1以上の音声に対して、音声認識処理を行い、音素識別子列を含む1以上の認識結果を取得する音声認識部と、
前記1以上の認識結果から、前記新第一単語発音情報が得られた数に関する情報である置換数情報を取得する置換数情報取得部と、
前記置換数情報が予め決められた条件を満たすほど大きい場合に、前記第二音素関連情報選択部が選択した前記第二言語の第二音素関連情報が有する音素情報と、前記置換された第一単語発音情報が有する音素識別子列に含まれる音素識別子とを対応付けた新音素関連情報を構成する新第一単語発音情報構成部と、
前記新第一単語発音情報を前記第一音響モデル格納部に蓄積する蓄積部とを具備する音響モデル学習装置。
【請求項2】
前記仮第一単語発音情報構成部は、
前記第一音響モデル格納部に格納されている1以上の第一音素関連情報から、前記第一言語の各音素識別子に対応する音素情報の数である学習数を取得する学習数取得手段と、
前記第一単語発音情報が有する音素識別子列に含まれる音素識別子であり、予め決められた条件を満たすほど前記学習数の少ない音素の音素識別子のみ、前記第二音素関連情報選択部が選択した第二音素関連情報が有する音素識別子に置換して、仮第一単語発音情報を構成する仮第一単語発音情報構成手段とを具備する請求項1記載の音響モデル学習装置。
【請求項3】
記録媒体に、
第一言語の音素を識別する音素識別子と当該音素に関する情報である音素情報とを対応付けた1以上の第一音素関連情報と、
第二言語の音素を識別する音素識別子と当該音素に関する情報である音素情報とを対応付けた1以上の第二音素関連情報と、
第一言語の単語と当該単語の音素識別子列とを対応付けた1以上の第一単語発音情報とを格納しており、
第二音素関連情報選択部、仮第一単語発音情報構成部、受付部、音声認識部、置換数情報取得部、新第一単語発音情報構成部、および蓄積部とにより実現される音響モデル学習方法であって、
前記第二音素関連情報選択部が、前記記録媒体から、前記第二言語の音素識別子列を含む第二音素関連情報を選択する第二音素関連情報選択ステップと、
前記仮第一単語発音情報構成部が、前記第一単語発音情報から、前記第一単語発音情報が有する音素識別子列に含まれる音素識別子を、前記第二音素関連情報選択ステップで選択された音素識別子に置換して、仮第一単語発音情報を構成する仮第一単語発音情報構成ステップと、
前記受付部が、第一言語の単語の1以上の音声を受け付ける受付ステップと、
前記音声認識部が、前記記録媒体に格納されている1以上の第一音素関連情報と前記第二音素関連情報選択ステップで選択された第二言語の第二音素関連情報、および前記第一発音辞書に格納されている1以上の第一単語発音情報に前記仮第一単語発音情報を加えた仮第一発音辞書を用いて、前記受付部が受け付けた1以上の音声に対して、音声認識処理を行い、音素識別子列を含む1以上の認識結果を取得する音声認識ステップと、
前記置換数情報取得部が、前記1以上の認識結果から、前記新第一単語発音情報が得られた数に関する情報である置換数情報を取得する置換数情報取得ステップと、
前記新第一単語発音情報構成部が、前記置換数情報が予め決められた条件を満たすほど大きい場合に、前記第二音素関連情報選択ステップで選択された前記第二言語の第二音素関連情報が有する音素情報と、前記置換された第一単語発音情報が有する音素識別子列に含まれる音素識別子とを対応付けた新音素関連情報を構成する新第一単語発音情報構成ステップと、
前記蓄積部が、前記新第一単語発音情報を記録媒体に蓄積する蓄積ステップとを具備する音響モデル学習方法。
【請求項4】
前記仮第一単語発音情報構成ステップは、
前記記録媒体に格納されている1以上の第一音素関連情報から、前記第一言語の各音素識別子に対応する音素情報の数である学習数を取得する学習数取得ステップと、
前記第一単語発音情報が有する音素識別子列に含まれる音素識別子であり、予め決められた条件を満たすほど前記学習数の少ない音素の音素識別子のみ、前記第二音素関連情報選択部が選択した第二音素関連情報が有する音素識別子に置換して、仮第一単語発音情報を構成する仮第一単語発音情報構成ステップとを具備する請求項3記載の音響モデル学習方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2012−177815(P2012−177815A)
【公開日】平成24年9月13日(2012.9.13)
【国際特許分類】
【出願番号】特願2011−41078(P2011−41078)
【出願日】平成23年2月28日(2011.2.28)
【出願人】(301022471)独立行政法人情報通信研究機構 (1,071)
【Fターム(参考)】