説明

音声認識モデルパラメータ作成装置、音声認識モデルパラメータ作成方法および音声認識装置

【課題】音声認識率を向上させることができる音声認識モデルパラメータ作成装置を提供することである。
【解決手段】音声認識モデルパラメータ作成装置は、無雑音音声データの入力を受け付けると(S11)、複数の雑音重畳データを作成し(S12)、作成した雑音重畳データの特徴量を算出する(S13)。特徴量の算出が終了すると、算出した特徴量を正規化し、正規化特徴量を得る。具体的には、まず、バンドパスフィルタを用いて、特徴量をフィルタリングする(S14)。そして、特徴量のフィルタリングが終了すると、フィルタリングされた特徴量をその最大振幅値で除算する(S15)。そして、学習部により、それぞれの正規化特徴量を用いて、音声認識モデルパラメータを作成する(S16)。そして、音声認識モデルパラメータを音声認識装置の記憶部に記憶させる(S17)。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、音声認識モデルパラメータ作成装置、音声認識モデルパラメータ作成方法および音声認識装置に関し、特に、マルチコンディション学習を用いて音声認識モデルパラメータを作成する音声認識モデルパラメータ作成装置、音声認識モデルパラメータ作成方法、および音声認識装置に関するものである。
【背景技術】
【0002】
従来の音声認識方法として、マルチコンディション学習がある。このマルチコンディション学習は、様々な環境の雑音を有する音声データを用いて、音声認識モデルパラメータの学習を行う。そして、入力された音声データにおいて、学習の際に用いた環境の雑音と類似する雑音を有する場合には、音声認識率を向上させることとしている。
【0003】
このようなマルチコンディション学習を用いて音声認識を行う技術は、例えば、特開2008−122927号公報(特許文献1)に開示されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2008−122927号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
ここで、マルチコンディション学習では、入力された音声データにおいて、学習の際に用いた環境の雑音と大きく異なる場合には、音声認識率は低下してしまう。すなわち、マルチコンディション学習は、学習の際に用いた環境の雑音と類似する場合にのみ有効な音声認識方法である。
【0006】
また、様々な環境の雑音を有する音声データを用いて、音声認識モデルパラメータの学習を行った場合であっても、実際に音声認識を行う際には、学習の際に用いた様々な環境の雑音とは大きく異なる未知の雑音が混入する虞がある。この場合、音声認識率は低下してしまう。
【0007】
この発明の目的は、音声認識率を向上させることができる音声認識モデルパラメータ作成装置を提供することである。
【0008】
この発明の他の目的は、音声認識率を向上させることができる音声認識モデルパラメータ作成方法を提供することである。
【0009】
この発明のさらに他の目的は、音声認識率を向上させることができる音声認識装置を提供することである。
【課題を解決するための手段】
【0010】
この発明に係る音声認識モデルパラメータ作成装置は、複数の雑音が重畳された音声データの特徴量を算出する特徴量算出手段と、特徴量算出手段により算出された特徴量を正規化する正規化手段と、正規化手段により正規化された特徴量を用いて、複数の雑音下における音声認識モデルパラメータを作成する作成手段とを備える。
【0011】
好ましくは、正規化手段は、特徴量算出手段により算出された特徴量をバンドパスフィルタを用いてフィルタリングするフィルタリング手段を含む。
【0012】
さらに好ましくは、正規化手段は、フィルタリング手段によりフィルタリングされた特徴量をその最大振幅値で除算する除算手段を含む。
【0013】
さらに好ましくは、作成手段は、音声認識モデルパラメータを学習により作成する。
【0014】
また、この発明の他の局面においては、音声認識モデルパラメータ作成方法に関し、複数の雑音が重畳された音声データの特徴量を算出し、算出された特徴量を正規化し、正規化された特徴量を用いて、複数の雑音下における音声認識モデルパラメータを作成することを特徴とする。
【0015】
また、この発明のさらに他の局面においては、音声認識装置に関し、上記のいずれかに記載の音声認識モデルパラメータ作成装置により作成された音声認識モデルパラメータを用いて、音声認識を行う認識手段を備える。
【発明の効果】
【0016】
この発明に係る音声認識モデルパラメータ作成装置は、複数の雑音が重畳された音声データの特徴量を正規化し、この正規化された特徴量を用いて、音声認識モデルパラメータを作成する。これにより、複数の雑音を一般化することができるため、音声認識を行う際には、様々な雑音に適用させることができる。その結果、音声認識率を向上させることができる。
【0017】
また、この発明に係る音声認識モデルパラメータ作成方法は、複数の雑音が重畳された音声データの特徴量を正規化し、この正規化された特徴量を用いて、音声認識モデルパラメータを作成する。これにより、複数の雑音を一般化することができるため、音声認識を行う際には、様々な雑音に適用させることができる。その結果、音声認識率を向上させることができる。
【0018】
また、この発明に係る音声認識装置は、このような音声認識モデルパラメータ作成装置により作成された音声認識モデルパラメータを用いて、音声認識を行うことができるため、音声認識率を向上させることができる。
【図面の簡単な説明】
【0019】
【図1】音声認識装置の構成を示すブロック図である。
【図2】この発明の一実施形態に係る音声認識モデルパラメータ作成装置の構成を示すブロック図である。
【図3】音声認識モデルパラメータ作成装置を用いて、音声認識モデルパラメータを作成し、音声認識装置の記憶部に記憶させる場合について示すフローチャートである。
【図4】算出した特徴量を示すグラフである。
【図5】図4に示す特徴量をフィルタリングした場合について示すグラフである。
【図6】図5に示す特徴量を最大振幅値で除算した場合について示すグラフである。
【図7】音声認識装置を用いて、音声認識を行う場合について示すフローチャートである。
【図8】音声認識モデルパラメータ作成装置を用いて、音声認識モデルパラメータを作成し、音声認識装置の記憶部に記憶させる場合の他の実施形態について示すフローチャートである。
【発明を実施するための形態】
【0020】
以下、図面を参照して、この発明の一実施形態に係る音声認識モデルパラメータ作成装置について説明する。図1は、音声認識装置10の構成を示すブロック図である。図2は、この発明の一実施形態に係る音声認識モデルパラメータ作成装置20の構成を示すブロック図である。まず、図1を参照して、音声認識装置10の構成について説明する。
【0021】
音声認識装置10は、マイクロフォン14を介して、入力された音声データの特徴量を算出する音声認識装置特徴量算出部11と、音声認識を行う認識部12と、認識部12において音声認識を行う際に用いる音声認識モデルパラメータを記憶する記憶部13とを備える。
【0022】
認識部12は、音声認識装置特徴量算出部11において算出された特徴量および記憶部13において記憶された音声認識モデルパラメータを用いて音声認識を行う。記憶部13は、認識部12において音声認識を行う際に用いる音声認識モデルパラメータを記憶する。音声認識モデルパラメータは、図2に示す音声認識モデルパラメータ作成装置20によって作成される。
【0023】
次に、図2を参照して、音声認識モデルパラメータ作成装置20の構成について説明する。音声認識モデルパラメータ作成装置20は、マイクロフォン24を介して、雑音を含まない無雑音音声データの入力を受け付けると共に、受け付けた無雑音音声データに雑音を重畳して雑音重畳データを作成する雑音重畳部22と、雑音重畳部22によって作成された雑音重畳データの特徴量を算出する作成装置特徴量算出部21と、作成装置特徴量算出部21によって算出された特徴量を用いて、音声認識モデルパラメータを作成する学習部23と、雑音重畳部22において重畳する複数の雑音のデータを保持する保持部25とを備える。
【0024】
雑音重畳部22は、保持部25から所定の雑音のデータを抽出する。そして、無雑音音声データに抽出した雑音を重畳して雑音重畳データを作成する。
【0025】
作成装置特徴量算出部21は、雑音重畳データの特徴量を算出する。この特徴量は、例えば、MFCC(Mel Frequency Cepstral Coefficient)を採用することができる。
【0026】
学習部23は、音声認識モデルパラメータを作成する。この音声認識モデルパラメータは、例えば、隠れマルコフモデル(Hidden Markov Model:HMM)の平均値、分散値、遷移確率、重み係数等を採用することができる。
【0027】
保持部25は、複数の雑音のデータを保持する。複数の雑音のデータとしては、例えば、雑踏雑音、白色雑音、工場雑音等の様々な種類の環境の雑音を含む構成である。
【0028】
音声認識モデルパラメータ作成装置20は、音声認識装置10にて用いる音声認識モデルパラメータを作成する。ここで、音声認識モデルパラメータ作成装置20を用いて、音声認識モデルパラメータを作成し、音声認識装置10の記憶部13に記憶させる場合について説明する。図3は、音声認識モデルパラメータ作成装置20を用いて、音声認識モデルパラメータを作成し、音声認識装置10の記憶部13に記憶させる場合について示すフローチャートである。図1〜図3を参照して、説明する。
【0029】
まず、音声認識モデルパラメータ作成装置20は、マイクロフォン24を介して、無雑音音声データの入力を受け付ける(図3において、ステップS11、以下ステップを省略する)。そうすると、雑音重畳部22により、保持部25から、雑踏雑音のデータを抽出し、無雑音音声データに抽出した雑踏雑音のデータを重畳して雑踏雑音重畳データを作成する。また、白色雑音のデータを抽出し、上記と同様に、白色雑音重畳データを作成する。また、工場雑音のデータを抽出し、上記と同様に、工場雑音重畳データを作成する。このように、複数の雑音のデータを抽出し、複数の雑音重畳データを作成する(S12)。
【0030】
そして、作成装置特徴量算出部21により、S12において作成した雑音重畳データ、すなわち、雑踏雑音重畳データ、白色雑音重畳データ、および工場雑音重畳データの特徴量を算出する(S13)。具体的には、雑音重畳データにおいて、20〜30msを1フレームとして、雑音重畳データを複数のフレームに分割することにより、各フレームにおいて、特徴量を算出する。分割においては、その1フレームと後に位置するフレームとが部分的にデータを共有するように分割する。ここで、作成装置特徴量算出部21は、特徴量算出手段として作動する。
【0031】
図4は、算出した特徴量を示すグラフである。図4を参照して、点線で雑踏雑音重畳データの特徴量を示し、一点鎖線で白色雑音重畳データの特徴量を示し、実線で工場雑音重畳データの特徴量を示している。また、横軸はフレームを示し、縦軸は特徴量の振幅値を示している。図4を参照して、非音声区間Aにおいて、白色雑音重畳データの特徴量と、雑踏雑音重畳データの特徴量と、工場雑音重畳データの特徴量とは、振幅の差が大きくなっている。また、音声区間Bにおいても、白色雑音重畳データの特徴量と、雑踏雑音重畳データの特徴量および工場雑音重畳データの特徴量とは、振幅の差が大きくなっている。また、フレーム10における特徴量の振幅値を比較すると、雑踏雑音重畳データにおいては0.8を示し、白色雑音重畳データにおいては−4を示し、工場雑音重畳データにおいては−0.3を示している。
【0032】
そして、特徴量の算出が終了すると、算出した特徴量を正規化し、正規化された特徴量、すなわち、正規化特徴量を得る。この正規化特徴量は、音声の時間変化が緩やかであることを利用している。具体的には、まず、バンドパスフィルタを用いて、特徴量をフィルタリングする(S14)。すなわち、所定の範囲の周波数成分のみを通過させ、それ以外の周波数成分は通過させないよう、特徴量をフィルタリングする。また、このバンドパスフィルタは、FIR(Finite impulse response)型のフィルタである。これにより、安定して処理を行うことができる。
【0033】
図5は、図4に示す特徴量をフィルタリングした場合について示すグラフである。図4と同様に、点線で雑踏雑音重畳データの特徴量を示し、一点鎖線で白色雑音重畳データの特徴量を示し、実線で工場雑音重畳データの特徴量を示している。また、横軸はフレームを示し、縦軸は特徴量の振幅値を示している。図5を参照して、非音声区間Aおよび音声区間Bにおいて、白色雑音重畳データの特徴量と、雑踏雑音重畳データの特徴量と、工場雑音重畳データの特徴量とは、図4に示すよりも、波形が揃い、振幅の差が小さくなっている。また、フレーム10における特徴量の振幅値を比較すると、雑踏雑音重畳データおよび工場雑音重畳データにおいては−0.3を示し、白色雑音重畳データにおいては−0.7を示している。すなわち、フィルタリングすることにより、波形の異なる複数のデータにおいて、波形を揃えることができ、データを一般化することができる。
【0034】
そして、特徴量のフィルタリングが終了すると、フィルタリングされた特徴量を、フィルタリングされた特徴量の最大振幅値で除算(割算)する(S15)。例えば、図5を参照して、雑踏雑音重畳データにおいては、その最大振幅値であるaで除算し、白色雑音重畳データにおいては、その最大振幅値であるbで除算し、工場雑音重畳データにおいては、その最大振幅値であるcで除算する。
【0035】
図6は、図5に示す特徴量を最大振幅値a,b,cで除算した場合について示すグラフである。図5と同様に、点線で雑踏雑音重畳データの特徴量を示し、一点鎖線で白色雑音重畳データの特徴量を示し、実線で工場雑音重畳データの特徴量を示している。また、横軸はフレームを示し、縦軸は特徴量の振幅値を示している。図6を参照して、非音声区間Aおよび音声区間Bにおいて、白色雑音重畳データの特徴量と、雑踏雑音重畳データの特徴量と、工場雑音重畳データの特徴量とは、図5に示すよりも、さらに波形が揃い、振幅の差が小さくなっている。また、フレーム10における特徴量の振幅値を比較すると、雑踏雑音重畳データおよび工場雑音重畳データにおいては−0.23を示し、白色雑音重畳データにおいては−0.27を示している。すなわち、最大振幅値で除算することにより、波形の異なる複数のデータにおいて、さらに波形を揃えることができ、データを一般化することができる。
【0036】
このように、バンドパスフィルタを用いてフィルタリングし、最大振幅値で除算することにより、算出した特徴量を正規化し、正規化特徴量を得る。ここで、作成装置特徴量算出部21は、正規化手段、フィルタリング手段、および除算手段として作動する。
【0037】
そして、学習部23により、それぞれの正規化特徴量を用いて、音声認識モデルパラメータを作成する(S16)。具体的には、マルチコンディション学習を行うことにより、音声認識モデルパラメータを作成する。ここで、学習部23は、作成手段として作動する。そして、音声認識モデルパラメータを音声認識装置10の記憶部13に記憶させる(S17)。
【0038】
このように、音声認識モデルパラメータ作成装置20は、複数の雑音が重畳された音声データの特徴量を正規化し、この正規化された特徴量を用いて、音声認識モデルパラメータを作成する。これにより、複数の雑音を一般化することができるため、音声認識を行う際には、様々な雑音に適用させることができる。その結果、音声認識率を向上させることができる。
【0039】
また、このような音声認識モデルパラメータ作成方法は、複数の雑音が重畳された音声データの特徴量を正規化し、この正規化された特徴量を用いて、音声認識モデルパラメータを作成する。これにより、複数の雑音を一般化することができるため、音声認識を行う際には、様々な雑音に適用させることができる。その結果、音声認識率を向上させることができる。
【0040】
なお、図4〜図6に示す特徴量の振幅値は、入力される音声データにより異なる値となる。
【0041】
次に、音声認識装置10を用いて、音声認識を行う場合について説明する。図7は、音声認識装置10を用いて、音声認識を行う場合について示すフローチャートである。図1〜図7を参照して、説明する。
【0042】
まず、音声認識装置10は、マイクロフォン14を介して、音声データの入力を受け付ける(S21)。そして、音声認識装置特徴量算出部11により、音声データの特徴量を算出する。
【0043】
この特徴量の算出は、上記した図3のS13〜S15と同様に行う。すなわち、音声データを複数のフレームに分割し、各フレームにおいて、特徴量を算出する(S22)。そして、音声データの特徴量の算出が終了すると、算出した特徴量を正規化、すなわち、バンドパスフィルタを用いてフィルタリングし、最大振幅値で除算することにより、音声データの正規化特徴量を得る(S23)。
【0044】
そして、認識部12により、S23において算出した音声データの正規化特徴量および上記した図3において記憶した音声認識モデルパラメータを用いて音声認識を行う(S24)。ここで、認識部12は、認識手段として作動する。音声認識は、例えば、S23において算出した音声データの正規化特徴量と音声認識モデルパラメータとを比較して尤度値を算出し、算出した尤度値に基づいて行う。
【0045】
このように、音声認識装置10は、音声認識モデルパラメータ作成装置20により作成された音声認識モデルパラメータを用いて、音声認識を行うことができるため、音声認識率を向上させることができる。
【0046】
なお、上記の実施の形態においては、音声認識モデルパラメータ作成装置20を用いて、音声認識モデルパラメータを作成し、音声認識装置10の記憶部13に記憶させる際に、S14〜S15に示すように、バンドパスフィルタを用いてフィルタリングし、最大振幅値で除算する例について説明したが、これに限ることなく、バンドパスフィルタを用いてフィルタリングしたのちに、分散値で除算してもよい。
【0047】
また、上記の実施の形態においては、音声認識モデルパラメータ作成装置20を用いて、音声認識モデルパラメータを作成し、音声認識装置10の記憶部13に記憶させる際に、S14〜S15に示すように、バンドパスフィルタを用いてフィルタリングし、最大振幅値で除算する例について説明したが、これに限ることなく、以下に示す他の実施形態を採用することもできる。
【0048】
図8は、音声認識モデルパラメータ作成装置20を用いて、音声認識モデルパラメータを作成し、音声認識装置10の記憶部13に記憶させる場合の他の実施形態について示すフローチャートである。なお、S31〜S33においては、図3に示すS11〜S13と同様であるため、説明は省略する。
【0049】
図8を参照して、まず、S33において特徴量の算出が終了すると、算出した特徴量の平均値を求める(S34)。次に、求めた平均値をS33において算出した特徴量から減算する(S35)。そして、ローパスフィルタを用いて、減算した特徴量をフィルタリングする(S36)。さらに、フィルタリングした特徴量を、フィルタリングした特徴量の最大振幅値で除算する(S37)。
【0050】
このように、平均値を減算し、ローパスフィルタを用いてフィルタリングし、最大振幅値で除算することにより、算出した特徴量を正規化し、正規化特徴量を得ることとしてもよい。そして、音声認識モデルパラメータを作成し(S38)、記憶部13に記憶させる(S39)。
【0051】
また、上記の実施の形態においては、音声認識モデルパラメータ作成装置20を用いて、音声認識モデルパラメータを作成し、音声認識装置10の記憶部13に記憶させる際に、S14〜S15に示すように、バンドパスフィルタを用いてフィルタリングし、最大振幅値で除算する例について説明したが、これに限ることなく、バンドパスフィルタを用いてフィルタリングするのみであってもよい。
【0052】
また、上記の実施の形態においては、FIR型のフィルタを採用する例について説明したが、これに限ることなく、IIR(Infinite Impulse Response)型のフィルタを採用してもよい。これにより、処理の演算量を少なくすることができる。
【0053】
また、上記の実施の形態においては、S12〜S13において、雑踏雑音重畳データ、白色雑音重畳データ、および工場雑音重畳データを作成し、それぞれの特徴量を算出する例について説明したが、これに限ることなく、工場雑音重畳データを作成しない構成としてもよい。すなわち、雑踏雑音重畳データおよび白色雑音重畳データのうちの少なくともいずれか一方のデータの特徴量を算出してもよい。
【0054】
また、上記の実施の形態においては、S12において、雑音重畳データとして、雑踏雑音重畳データ、白色雑音重畳データ、および工場雑音重畳データを作成する例について説明したが、これに限ることなく、重畳する雑音の量を無視可能な程度に小さくしたデータを含める構成としてもよい。すなわち、雑音重畳データとして、無雑音音声データを含める構成としてもよい。
【0055】
また、上記の実施の形態においては、保持部25において、様々な環境の複数の雑音のデータを保持する例について説明したが、これに限ることなく、例えば、様々な環境のうち特定種類の複数の雑音を保持してもよい。すなわち、複数の雑音は、特定種類の複数の雑音を含む構成である。例えば、特定種類として工場に関する複数の雑音、具体的には、第1の工場の雑音と、第2の工場の雑音とを保持する。そして、第1の工場の雑音重畳データと、第2の工場の雑音重畳データとを作成することにより、工場における正規化特徴量を得る。また、特定種類として雑踏に関する複数の雑音、具体的には、第1の雑踏の雑音と、第2の雑踏の雑音とを保持し、第1の雑踏の雑音重畳データと、第2の雑踏の雑音重畳データとを作成することにより、雑踏における正規化特徴量を得る。そして、工場における正規化特徴量と、雑踏における正規化特徴量とを用いて、音声認識モデルパラメータを作成してもよい。
【0056】
また、上記の実施の形態においては、保持部25において、雑踏雑音、白色雑音、工場雑音等の雑音のデータを含む例について説明したが、これに限ることなく、車のエンジン雑音、コンピュータ等が複数設置される部屋の騒音、オーディオ音等の雑音のデータを含む構成としてもよいし、任意に設定可能である。
【0057】
また、音声認識モデルパラメータ作成装置20は、ハードウェアで実装してもよいし、ソフトウェアで実装してもよい。また、音声認識装置10においても同様に、ハードウェアで実装してもよいし、ソフトウェアで実装してもよい。
【0058】
以上、図面を参照してこの発明の実施形態を説明したが、この発明は、図示した実施形態のものに限定されない。図示された実施形態に対して、この発明と同一の範囲内において、あるいは均等の範囲内において、種々の修正や変形を加えることが可能である。
【符号の説明】
【0059】
10 音声認識装置、11 音声認識装置特徴量算出部、12 認識部、13 記憶部、14 マイクロフォン、20 音声認識モデルパラメータ作成装置、21 作成装置特徴量算出部、22 雑音重畳部、23 学習部、24 マイクロフォン、25 保持部。

【特許請求の範囲】
【請求項1】
複数の雑音が重畳された音声データの特徴量を算出する特徴量算出手段と、
前記特徴量算出手段により算出された特徴量を正規化する正規化手段と、
前記正規化手段により正規化された特徴量を用いて、前記複数の雑音下における音声認識モデルパラメータを作成する作成手段とを備える、音声認識モデルパラメータ作成装置。
【請求項2】
前記正規化手段は、前記特徴量算出手段により算出された特徴量をバンドパスフィルタを用いてフィルタリングするフィルタリング手段を含む、請求項1に記載の音声認識モデルパラメータ作成装置。
【請求項3】
前記正規化手段は、前記フィルタリング手段によりフィルタリングされた特徴量をその最大振幅値で除算する除算手段を含む、請求項2に記載の音声認識モデルパラメータ作成装置。
【請求項4】
前記作成手段は、前記音声認識モデルパラメータを学習により作成する、請求項1〜3のいずれかに記載の音声認識モデルパラメータ作成装置。
【請求項5】
複数の雑音が重畳された音声データの特徴量を算出し、算出された特徴量を正規化し、正規化された特徴量を用いて、複数の雑音下における音声認識モデルパラメータを作成することを特徴とする、音声認識モデルパラメータ作成方法。
【請求項6】
請求項1〜4のいずれかに記載の音声認識モデルパラメータ作成装置により作成された音声認識モデルパラメータを用いて、音声認識を行う認識手段を備える、音声認識装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2010−266488(P2010−266488A)
【公開日】平成22年11月25日(2010.11.25)
【国際特許分類】
【出願番号】特願2009−115183(P2009−115183)
【出願日】平成21年5月12日(2009.5.12)
【出願人】(501321394)株式会社レイトロン (14)
【Fターム(参考)】