音声認識装置とその方法と、プログラムと記録媒体
【課題】音声認識装置の処理効率を向上させる。
【解決手段】この発明の音声認識装置のフレーム音質推定部は、フレーム毎に音声ディジタル信号の音質を評価してフレーム音質を出力し、平均音質推定部は、複数フレームのフレーム音質から音質レベルを推定する。そして、音声認識処理制御部が、音質レベルに基づいて音声認識処理時の動作を制御する制御信号を音声認識処理部出力にする。音声認識処理部はその制御信号に基づいて音声認識処理を行う。
【解決手段】この発明の音声認識装置のフレーム音質推定部は、フレーム毎に音声ディジタル信号の音質を評価してフレーム音質を出力し、平均音質推定部は、複数フレームのフレーム音質から音質レベルを推定する。そして、音声認識処理制御部が、音質レベルに基づいて音声認識処理時の動作を制御する制御信号を音声認識処理部出力にする。音声認識処理部はその制御信号に基づいて音声認識処理を行う。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は、様々な音質の音声データを効率良く音声認識する音声認識装置とその方法と、プログラムと記録媒体に関する。
【背景技術】
【0002】
近年、音声データを記録するメモリ素子が安価になることに伴い大量の音声データを容易に入手することが可能になった。それらの音声データを音声認識する際に、音声データの品質によって認識精度や処理時間が大きく変動する問題が発生する。
【0003】
図10に従来の音声認識装置900の機能構成を示す。音声認識装置900は、A/D変換部90、特徴量分析部91、音声認識処理部92、音響モデルパラメータメモリ93、言語モデルパラメータメモリ94を備える。
【0004】
A/D変換部90は、入力されるアナログ信号の音声を、例えばサンプリング周波数16kHzで離散的なディジタル信号に変換する。特徴量分析部91は、離散値化された音声ディジタル信号を入力として、例えば320個の音声ディジタル信号を1フレーム(20ms)としたフレーム毎に、音声特徴量Otを算出する。音声特徴量Otは、例えばメル周波数ケプストラム係数(MFCC)分析によって算出される。
【0005】
音声認識処理部92は、音声特徴量Otを入力として音響モデルパラメータメモリ93に記録された音響モデルと、言語モデルパラメータメモリ94に記録された言語モデルとを参照して、ビーム探索アルゴリズムに基づいて音声認識結果を出力する。ビーム探索アルゴリズムとは、フレーム毎に最も高い累積尤度(音響モデルの尤度と言語モデルの尤度の和)から最終的に最も累積尤度が高い認識結果の存在をおおよそ保証できる所定数(ビーム幅)の音声認識結果候補(仮説)を残しながら探索する手順である。
【0006】
ここで従来は、音響モデルを適応的に変化させることで音声データの品質の変動に対応していた(非特許文献1)。図11にその考えを示す。現場で収録した音声データに含まれる背景雑音や音声歪みを推定し、適応の基になる標準音響モデルを変化させる変換行列を生成する。そして、標準音響モデルに変換行列を掛け合わせて音響モデルを、その現場の環境に適応させる。このように音響モデルを様々な環境に適応させることで、音声データの品質変動に対応していた。
【先行技術文献】
【非特許文献】
【0007】
【非特許文献1】政瀧浩和、他5名、「顧客との自然な会話を聞き取る自由発話音声認識技術「VoiceRex」」NTT技術ジャーナル、pp.15-18,2006.11
【発明の概要】
【発明が解決しようとする課題】
【0008】
従来、様々に変化する音声データの品質に対応する方法としては、上述した音響モデルを適応させる考え方が一般的であった。つまり、音声データの品質の変化に対しては音声認識装置側で対処しようとする考え方である。この結果、過剰に歪んでいる音声データ等に対しては、音響モデルをたとえ適応させたとしてもビーム探索途中の仮説間の尤度に十分な差が付かず、探索効率が悪くなり処理時間が増大する。その結果、時間ばかり掛かって高い精度の認識結果が得られない問題が発生する。
【0009】
この発明は、このような問題点に鑑みてなされたものであり、音声認識処理の事前処理として音声データの品質を評価し、その評価結果で認識処理の動作を制御するようにした音声認識装置と、その考えに基づいて複数の音声ファイルを効率良く音声認識する音声認識装置と、それらの方法とプログラムと記録媒体を提供することを目的とする。
【課題を解決するための手段】
【0010】
この発明の音声認識装置は、特徴量分析部と、フレーム音質推定部と、平均音質推定部と、音声認識処理制御部と、音声認識処理部とを具備する。特徴量分析部は、入力される音声ディジタル信号の音声特徴量をフレーム単位で分析する。フレーム音質推定部は、フレーム毎に音声ディジタル信号の音質を評価してフレーム音質を出力する。平均音質推定部は、複数フレームのフレーム音質から音質レベルを推定する。音声認識処理制御部は、音質レベルに基づいて音声認識処理時の動作を制御する制御信号を出力する。音声認識処理部は、特徴量を入力として制御信号に基づいて音声認識処理を行う。
【0011】
また、複数の音声ファイルを効率良く音声認識する音声認識装置は、上記した機能構成の他に、更に、音声ファイル制御部と、音声ファイル処理部と、音声ファイルメモリとを具備する。音声ファイル制御部は、音声ディジタル信号の音声ファイル情報と制御信号とを入力として音声ファイル情報の処理順を決定する。音声ファイル処理部は、音声ファイルメモリに音声ディジタル信号をその音声ファイル単位で記録すると共に、上記処理順に記録した音声ディジタル信号を音声認識処理部に出力する。
【発明の効果】
【0012】
この発明の音声認識装置によれば、音声データの品質に対応する制御信号によって音声認識処理部の動作を適応的に変化させるので、音声認識精度を維持したまま処理時間の効率を向上させることが出来る。また、複数の音声ファイルの音声認識を行うこの発明の音声認識装置においては、制御信号に基づいて音声品質の高い順番で音声ファイルの処理を行うことが可能である。また、音声品質が所定の水準に達しないものを認識対象外にすることも可能なので、音声認識処理全体の処理効率を改善する効果を奏する。つまり、品質の悪い音声データがボトルネックになることが無いので音声認識処理の効率が向上する。
【図面の簡単な説明】
【0013】
【図1】この発明の音声認識装置100の機能構成例を示す図。
【図2】音声認識装置100の動作フローを示す図。
【図3】フレーム音質推定部10の機能構成例を示す図。
【図4】フレーム音質推定部11の機能構成例を示す図。
【図5】音声認識処理制御部30の制御信号のビーム探索幅の設定方法を示す図。
【図6】この発明の音声認識装置200の機能構成例を示す図。
【図7】音声認識装置200の動作フローを示す図。
【図8】この発明の音声認識装置300の機能構成例を示す図。
【図9】音声認識装置300の動作フローを示す図。
【図10】従来の音声認識装置900の機能構成を示す図。
【図11】非特許文献1に開示された音声データの品質の変動に対応する考えを示す図。
【発明を実施するための形態】
【0014】
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。
【実施例1】
【0015】
図1にこの発明の音声認識装置100の機能構成例を示す。その動作フローを図2に示す。音声認識装置100は、特徴量分析部91と、フレーム音質推定部10と、平均音質推定部20と、音声認識処理制御部30と、音声認識処理部92′と、音響モデルパラメータメモリ93と、言語モデルパラメータメモリ94と、制御部35とを具備する。特徴量分析部91と音響モデルパラメータメモリ93と言語モデルパラメータメモリ94は、従来の音声認識装置900と同じものである。音声認識処理部92′は、音声認識処理制御部30が出力する制御信号に基づいて音声認識処理を行う点のみが、音声認識装置92と異なりその他の動作は同じである。アナログ信号の音声データが入力される場合にA/D変換部90が設けられる点も、音声認識装置900と同じである。
【0016】
音声認識装置100は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
【0017】
音声認識装置100は、従来の音声認識装置900と比較してフレーム音質推定部10と、平均音質推定部20と、音声認識処理制御部30とを具備する点で新しい。以降の説明では、その異なる部分を中心に説明を行う。
【0018】
特徴量分析部91は、離散値化された音声ディジタル信号を入力として、所定の数の音声ディジタル信号を1フレーム(例えば20ms)としたフレーム毎に、音声特徴量Otを算出する(ステップS91)。フレーム音質推定部10は、フレーム毎(t)に音声ディジタル信号の音質を評価してフレーム音質q(t)を出力する(ステップS10)。
【0019】
平均音質推定部20は、複数フレームのフレーム音質q(t)から音質レベルQTを推定する(ステップS20)。添え字のTは複数フレームの通し番号である。
【0020】
音声認識処理制御部30は、音質レベルQTに基づいて音声認識時の制御信号を設定する(ステップS30)。制御信号の具体例については後述する。音声認識処理部92′は、音声認識処理制御部30が設定した制御信号に基づいて音声認識処理を行う(ステップS92′)。
【0021】
以上の動作は、全てのフレームについて終了するまで繰り返される(ステップS35のN)。この音声認識装置100の各部の動作及び繰り返し動作の制御は、制御部35が行う。なお、制御部35は、フレーム毎に処理するばかりでなく、音声ファイル単位や、発話単位毎に、上記した動作が実行されるように各部を制御しても良い。
【0022】
音声認識装置100によれば、音声認識処理部92が、音声認識処理制御部30によって設定された制御信号に応じて適応的に認識処理を行う。つまり、複数フレームの音質レベルQTに応じた制御信号を設定することで、音声認識精度を維持したまま処理時間の効率を向上させることが出来る。次に、各部の具体的な構成例を示して更に詳しく音声認識装置100の動作を説明する。
【0023】
〔フレーム音質推定部〕
図3にフレーム音質推定部10の機能構成例を示す。フレーム音質推定部10は、例えばGMM尤度算出手段101と、GMM(Gaussian Mixture Model:混合正規分布モデル)102を備える。GMM102は、音響モデルパラメータメモリ93内に格納しても良い。GMM尤度算出手段101は、音声特徴量Otを入力として、GMM102を参照し、フレーム音質q(t)を現す音声特徴量Otに対応するGMM尤度を算出する。GMM102は、例えば音響モデルの学習データの全ての音素から学習されているので、その尤度は音響モデルと音声特徴量Otの合致度を示し、GMM尤度の値q(t)によって各フレームの音質(音響モデルに合致しているか否か)を評価することが可能である。つまり、GMM尤度が大きければ音質が良好(音声認識精度が高くなる)、また、その値が小さければ音質が悪い(音声認識精度が低くなる)と評価することが出来る。
【0024】
なお、GMM尤度に代えて、対数値に変換する前の出力確率値を用いても良い。更に、GMM102の学習データから無音を取り除き、そのGMM102を音声GMMとしても良い。また、音声GMMとpause(無音)モデルの両方を照合し、尤度の高い方の尤度値を用いても良い。
【0025】
図4に他の機能構成例のフレーム音質推定部11を示す。フレーム音質推定部11は、パワー算出手段111と、音声・非音声区間検出手段112と、S/N計算手段113とを備える。パワー算出手段111は、音声特徴量Otから各フレームのパワーを算出する。音声・非音声区間検出手段112は、例えば一定値以上のパワーのフレームを音声区間として検出する。また、前述の音声GMMとpauseモデルの尤度を比較して、音声GMMの尤度が高い区間を音声区間としても良い。S/N計算手段113は、非音声区間に対する音声区間のパワーの比率であるS/N比を計算する。このS/N比がフレーム音質q(t)となる。
【0026】
〔平均音質推定部〕
平均音質推定部20は、フレーム音質推定部10が出力するフレーム音質q(t)である例えばGMM尤度やS/N比を、複数フレームに渡って平均して音質レベルQTを推定する(式(1))。
【0027】
【数1】
【0028】
ここでtはフレーム番号、Tは複数フレームの数である。添え字のTは、その複数フレームの通し番号である。
【0029】
〔音声認識処理制御部〕
音声認識処理制御部30は、音質レベルQTを入力として制御信号を出力する。制御信号の具体例としては、例えばビーム探索幅N(QT)が考えられる。その一例を式(2)に示す。
【0030】
【数2】
【0031】
図5に音質レベルQTとビーム探索幅N(QT)との関係を例示する。横軸は音質レベルQTであり、縦軸はビーム探索幅N(QT)である。
【0032】
図5に示すように式(2)は、所定の範囲の音質レベルQT(Qmin〜Qmax)に対応するビーム探索幅N(QT)(Nmin〜Nmax)を、音質レベルQTの値で比例配分する考えである。ここでは、比例係数が負の値なので、音質レベルQTが小でビーム探索幅N(QT)が大であり、QTが大でN(QT)が小となる関係である。もちろん、音質レベルQTとビーム探索幅N(QT)との関係は、非線形な関数で表せる関係であっても良い。また、制御信号としてビーム探索幅N(QT)を用いる場合、ビーム探索幅は、個数ビーム幅に限定したものではなく、例えばスコアビーム幅、単語終端スコアビーム幅や、単語終端個数ビーム幅等であっても良い。
【0033】
ここで、S/N比やGMM尤度等の音質の範囲に関しては、例えばQmaxやQminをそれぞれ音響モデル学習データに対する音質の分布から最大/最小値として良い。また、音質をS/N比とした場合には、例えばQmax=30[dB]、Qmin=10[dB]のように予め定めた範囲を用いても良い。またビーム探索幅に関しては、例えばNmaxを通常用いるビーム幅の1.5倍、Nminを通常用いるビーム幅の半分等とすれば良い。
【0034】
また、音質レベルが極端に悪い場合(例えば、QT<Qmin)には、ビーム探索幅を拡大しても精度向上が望めず処理時間ばかり掛かるので、ビーム探索幅を小さく、例えばNminにしても良い。また、制御信号に認識対象外指示信号を含ませて音声認識処理を行わせないようにしても良い。
【0035】
〔音声認識処理部〕
音声認識処理部92′は、音声特徴量Otと制御信号のビーム探索幅N(QT)を入力として音響モデルパラメータメモリ93に記録された音響モデルと、言語モデルパラメータメモリ94に記録された言語モデルとを参照して、ビーム探索アルゴリズムに基づいて音声認識結果を出力する。音声認識処理部92′は、ビーム探索幅N(QT)個の音声認識結果候補から正解を探索する点のみが従来の音声認識装置と異なる。つまり、適応的に音声認識処理部の動作が変化する。ビーム探索方法そのものは、従来からの音声認識装置と同じであるので詳細な説明は省略する。
【0036】
以上述べたように、音声認識装置100は、音質レベルQTによって適応的に音声認識処理を変化させる。図5に示した例では、音質レベルQTが悪い時にはビーム探索幅N(QT)を大、音質レベルが良い時にはビーム探索幅N(QT)を小にする。すなわち、音質が良い場合には音声認識結果候補(仮説)間に尤度差が付くので、ビーム探索幅を狭めても音声認識精度が劣化することが無く、処理速度を向上させることが出来る。一方、音質が悪い場合には音声認識結果候補(仮説)間に尤度差が付き難いので、ビーム幅を広げることで音声認識精度を向上させることが可能である。但し、極端に音質が悪い場合には、ビーム探索幅を広げたとしても音声認識結果候補(仮説)間に尤度差が付かないので、逆にビーム探索幅を狭めるか音声認識対象外にすることで処理速度を向上させることが出来る。したがって、音声認識精度を維持したまま処理時間の効率を向上させることが可能である。
【実施例2】
【0037】
実施例1で説明した制御信号を音質レベルQTに応じて適応的に変化させる考えを、複数の音声ファイルを音声認識する音声認識装置に適用すると、複数の音声ファイルを効率良く音声認識することが可能である。
【0038】
図6にその音声認識装置200の機能構成例を示す。その動作フローを図7に示す。音声認識装置200は、音声ファイル制御部40と、音声ファイル処理部50と、音声ファイルメモリ60とを更に備える点で音声認識装置100と異なる。他の機能構成は、音声認識装置100と同じである。
【0039】
音声ファイル制御部40は、外部から入力される音声ディジタル信号の音声ファイル情報(たとえば音声ファイル名)と、その音声ディジタル信号の音質レベルQTと、制御信号N(QT)を入力として音声ファイルの処理順を決定する(ステップS40、図7)。音声ファイル処理部50は、音声ファイルメモリ60に音声ディジタル信号の特徴量をフレーム単位でその音声ファイル毎に記録する(ステップS501)。また同時に制御信号も記録する。そして、音声ファイル制御部40が決定した処理順に記録した音声ディジタル信号の特徴量と制御信号とを出力する(ステップS50)。
【0040】
特徴量を分析するステップS91〜その特徴量と制御信号を音声ファイル単位で音声ファイルメモリ60に記録するステップS501の処理は、入力された全ての音声ファイルが終了するまで行われる(ステップS502のN)。そして、特徴量と制御信号は、各ファイルの処理順に従ってフレーム単位で音声認識処理部92′に出力される(ステップS503)。
【0041】
音声認識処理部92′は、制御信号が音声ファイル処理部50から与えられる点のみが異なるだけで、その動作は音声認識装置100のものと同じである。音声認識処理部92′は、制御信号に基づいて音声認識処理を行う(ステップS92′)。音声認識処理は入力された全てのファイルが終了するまで繰り返される(ステップS36のN)動作は、制御部36が制御する。
【0042】
音声ファイル制御部40は、音質レベルQTに基づいて上記処理順を決定する。その処理順を、音質レベルQTの大きい順とすると、音質の良好なファイルから順に音声認識処理部92′で音声認識処理されることになる。その結果、音質の良い順番で音声ファイルが音声認識処理されるので、複数の音声ファイルを効率良く音声認識することが出来る。
【0043】
また、音声認識処理を行う計算機の台数や仕様において、全ファイルに対して音声認識処理が行えない場合には、音質レベルQTを参照することで、音質の良好な音声ファイルのみを音声認識対象とすることが出来る。
【0044】
また、音声ファイル処理部50が音質範囲判定手段501を備え、その音質範囲判定手段501で音質レベルQTが所定値Qthより大きいか否かを判定し、所定値より小さな場合にその音声ファイルを廃棄するようにしても良い。
【0045】
なお、音声ファイル処理部50は、音声ファイルメモリ60に特徴量を記録する例を説明したが、特徴量を分析する前の音声ディジタル信号を音声ファイルメモリ60に記録するようにしても良い。また、音質範囲判定手段501は、例えば、音響モデル学習データに対する音質レベルの最低値を所定値Qthとし、所定値を基準に廃棄ファイルの選別を行うようにしても良い。
【0046】
また、学習データの音質レベルの最低値に限定せずに、学習データの音質レベルの分布が正規分布に従うとした場合の音質レベルQTの分布の平均μや標準偏差σから所定値をμ−2σと定めても良い。また、音声認識処理部92′は、一般的な音声認識装置であっても良い。その場合は、制御信号は不要となり、音声認識装置は音質の良い順番で音声認識処理を行う。
【実施例3】
【0047】
図8にこの発明の音声認識装置300の機能構成例を示す。その動作フローを図9に示す。音声認識装置300は、実施例1の音声認識装置100の機能構成に更に、教師なし適応部80と、適応後音響モデルパラメータメモリ95と、第2音声認識処理部96とを備え、音声認識装置100で音声認識処理した音声認識結果を適応用ラベルとして学習した音響モデルを用いて音声認識処理を行うものである。
【0048】
教師なし適応部80は、音声認識処理部92′の出力する音声認識結果を適応用ラベルとして音響モデルパラメータメモリ93に記録された音響モデルを学習し、適応音響モデルを生成する(ステップS80、図9)。適応音響モデルは適応後音響モデルパラメータメモリ95に記録される。
【0049】
第2音声認識処理部96は、適応後音響モデルパラメータメモリ95と言語モデルパラメータメモリ94とを参照して、ビーム探索アルゴリズムに基づいて音声認識結果を出力する(ステップS96)。このステップS96の第2音声認識処理過程は、実施例1の音声認識装置100の処理でも良いし、一般的な音声認識装置による処理でもかまわない。なお、教師なし適応部80に制御信号を破線で入力しているように、教師なし適応部80が制御信号の値に応じて、音声認識処理部92′の出力する音声認識結果を適応ラベルとするか否かを判断するようにしても良い。
【0050】
以上述べたように、音声認識装置300によれば、音声データの音質レベルに応じて音声認識した結果を適応用ラベルとして音響モデルを学習するので、音響モデルの精度を高めることが出来る。そして、その精度の高い音響モデルを用いた音声認識処理を行うことが可能である。また、この発明の音声認識装置100,200によれば、音声データの品質に応じて音声認識処理部の動作を制御信号によって変化させるので、音声認識処理の効率を向上させることが出来る。
【0051】
なお、実施例1のフレーム音質推定部10をGMMで構成する例で説明を行ったが、フレーム毎にモノフォン尤度を計算し、そのモノフォン尤度でフレーム音質を推定するようにしても良い。つまり、入力される特徴量に対して、音響モデルに属するモノフォン全てを照合し、もっとも尤度の高い最尤モノフォンで音質を評価するようにしても良い。
【0052】
また、上記方法及び装置において説明した処理は、記載の順に従って時系列に実行され
るのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
【0053】
また、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
【0054】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
【0055】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0056】
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
【技術分野】
【0001】
この発明は、様々な音質の音声データを効率良く音声認識する音声認識装置とその方法と、プログラムと記録媒体に関する。
【背景技術】
【0002】
近年、音声データを記録するメモリ素子が安価になることに伴い大量の音声データを容易に入手することが可能になった。それらの音声データを音声認識する際に、音声データの品質によって認識精度や処理時間が大きく変動する問題が発生する。
【0003】
図10に従来の音声認識装置900の機能構成を示す。音声認識装置900は、A/D変換部90、特徴量分析部91、音声認識処理部92、音響モデルパラメータメモリ93、言語モデルパラメータメモリ94を備える。
【0004】
A/D変換部90は、入力されるアナログ信号の音声を、例えばサンプリング周波数16kHzで離散的なディジタル信号に変換する。特徴量分析部91は、離散値化された音声ディジタル信号を入力として、例えば320個の音声ディジタル信号を1フレーム(20ms)としたフレーム毎に、音声特徴量Otを算出する。音声特徴量Otは、例えばメル周波数ケプストラム係数(MFCC)分析によって算出される。
【0005】
音声認識処理部92は、音声特徴量Otを入力として音響モデルパラメータメモリ93に記録された音響モデルと、言語モデルパラメータメモリ94に記録された言語モデルとを参照して、ビーム探索アルゴリズムに基づいて音声認識結果を出力する。ビーム探索アルゴリズムとは、フレーム毎に最も高い累積尤度(音響モデルの尤度と言語モデルの尤度の和)から最終的に最も累積尤度が高い認識結果の存在をおおよそ保証できる所定数(ビーム幅)の音声認識結果候補(仮説)を残しながら探索する手順である。
【0006】
ここで従来は、音響モデルを適応的に変化させることで音声データの品質の変動に対応していた(非特許文献1)。図11にその考えを示す。現場で収録した音声データに含まれる背景雑音や音声歪みを推定し、適応の基になる標準音響モデルを変化させる変換行列を生成する。そして、標準音響モデルに変換行列を掛け合わせて音響モデルを、その現場の環境に適応させる。このように音響モデルを様々な環境に適応させることで、音声データの品質変動に対応していた。
【先行技術文献】
【非特許文献】
【0007】
【非特許文献1】政瀧浩和、他5名、「顧客との自然な会話を聞き取る自由発話音声認識技術「VoiceRex」」NTT技術ジャーナル、pp.15-18,2006.11
【発明の概要】
【発明が解決しようとする課題】
【0008】
従来、様々に変化する音声データの品質に対応する方法としては、上述した音響モデルを適応させる考え方が一般的であった。つまり、音声データの品質の変化に対しては音声認識装置側で対処しようとする考え方である。この結果、過剰に歪んでいる音声データ等に対しては、音響モデルをたとえ適応させたとしてもビーム探索途中の仮説間の尤度に十分な差が付かず、探索効率が悪くなり処理時間が増大する。その結果、時間ばかり掛かって高い精度の認識結果が得られない問題が発生する。
【0009】
この発明は、このような問題点に鑑みてなされたものであり、音声認識処理の事前処理として音声データの品質を評価し、その評価結果で認識処理の動作を制御するようにした音声認識装置と、その考えに基づいて複数の音声ファイルを効率良く音声認識する音声認識装置と、それらの方法とプログラムと記録媒体を提供することを目的とする。
【課題を解決するための手段】
【0010】
この発明の音声認識装置は、特徴量分析部と、フレーム音質推定部と、平均音質推定部と、音声認識処理制御部と、音声認識処理部とを具備する。特徴量分析部は、入力される音声ディジタル信号の音声特徴量をフレーム単位で分析する。フレーム音質推定部は、フレーム毎に音声ディジタル信号の音質を評価してフレーム音質を出力する。平均音質推定部は、複数フレームのフレーム音質から音質レベルを推定する。音声認識処理制御部は、音質レベルに基づいて音声認識処理時の動作を制御する制御信号を出力する。音声認識処理部は、特徴量を入力として制御信号に基づいて音声認識処理を行う。
【0011】
また、複数の音声ファイルを効率良く音声認識する音声認識装置は、上記した機能構成の他に、更に、音声ファイル制御部と、音声ファイル処理部と、音声ファイルメモリとを具備する。音声ファイル制御部は、音声ディジタル信号の音声ファイル情報と制御信号とを入力として音声ファイル情報の処理順を決定する。音声ファイル処理部は、音声ファイルメモリに音声ディジタル信号をその音声ファイル単位で記録すると共に、上記処理順に記録した音声ディジタル信号を音声認識処理部に出力する。
【発明の効果】
【0012】
この発明の音声認識装置によれば、音声データの品質に対応する制御信号によって音声認識処理部の動作を適応的に変化させるので、音声認識精度を維持したまま処理時間の効率を向上させることが出来る。また、複数の音声ファイルの音声認識を行うこの発明の音声認識装置においては、制御信号に基づいて音声品質の高い順番で音声ファイルの処理を行うことが可能である。また、音声品質が所定の水準に達しないものを認識対象外にすることも可能なので、音声認識処理全体の処理効率を改善する効果を奏する。つまり、品質の悪い音声データがボトルネックになることが無いので音声認識処理の効率が向上する。
【図面の簡単な説明】
【0013】
【図1】この発明の音声認識装置100の機能構成例を示す図。
【図2】音声認識装置100の動作フローを示す図。
【図3】フレーム音質推定部10の機能構成例を示す図。
【図4】フレーム音質推定部11の機能構成例を示す図。
【図5】音声認識処理制御部30の制御信号のビーム探索幅の設定方法を示す図。
【図6】この発明の音声認識装置200の機能構成例を示す図。
【図7】音声認識装置200の動作フローを示す図。
【図8】この発明の音声認識装置300の機能構成例を示す図。
【図9】音声認識装置300の動作フローを示す図。
【図10】従来の音声認識装置900の機能構成を示す図。
【図11】非特許文献1に開示された音声データの品質の変動に対応する考えを示す図。
【発明を実施するための形態】
【0014】
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。
【実施例1】
【0015】
図1にこの発明の音声認識装置100の機能構成例を示す。その動作フローを図2に示す。音声認識装置100は、特徴量分析部91と、フレーム音質推定部10と、平均音質推定部20と、音声認識処理制御部30と、音声認識処理部92′と、音響モデルパラメータメモリ93と、言語モデルパラメータメモリ94と、制御部35とを具備する。特徴量分析部91と音響モデルパラメータメモリ93と言語モデルパラメータメモリ94は、従来の音声認識装置900と同じものである。音声認識処理部92′は、音声認識処理制御部30が出力する制御信号に基づいて音声認識処理を行う点のみが、音声認識装置92と異なりその他の動作は同じである。アナログ信号の音声データが入力される場合にA/D変換部90が設けられる点も、音声認識装置900と同じである。
【0016】
音声認識装置100は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
【0017】
音声認識装置100は、従来の音声認識装置900と比較してフレーム音質推定部10と、平均音質推定部20と、音声認識処理制御部30とを具備する点で新しい。以降の説明では、その異なる部分を中心に説明を行う。
【0018】
特徴量分析部91は、離散値化された音声ディジタル信号を入力として、所定の数の音声ディジタル信号を1フレーム(例えば20ms)としたフレーム毎に、音声特徴量Otを算出する(ステップS91)。フレーム音質推定部10は、フレーム毎(t)に音声ディジタル信号の音質を評価してフレーム音質q(t)を出力する(ステップS10)。
【0019】
平均音質推定部20は、複数フレームのフレーム音質q(t)から音質レベルQTを推定する(ステップS20)。添え字のTは複数フレームの通し番号である。
【0020】
音声認識処理制御部30は、音質レベルQTに基づいて音声認識時の制御信号を設定する(ステップS30)。制御信号の具体例については後述する。音声認識処理部92′は、音声認識処理制御部30が設定した制御信号に基づいて音声認識処理を行う(ステップS92′)。
【0021】
以上の動作は、全てのフレームについて終了するまで繰り返される(ステップS35のN)。この音声認識装置100の各部の動作及び繰り返し動作の制御は、制御部35が行う。なお、制御部35は、フレーム毎に処理するばかりでなく、音声ファイル単位や、発話単位毎に、上記した動作が実行されるように各部を制御しても良い。
【0022】
音声認識装置100によれば、音声認識処理部92が、音声認識処理制御部30によって設定された制御信号に応じて適応的に認識処理を行う。つまり、複数フレームの音質レベルQTに応じた制御信号を設定することで、音声認識精度を維持したまま処理時間の効率を向上させることが出来る。次に、各部の具体的な構成例を示して更に詳しく音声認識装置100の動作を説明する。
【0023】
〔フレーム音質推定部〕
図3にフレーム音質推定部10の機能構成例を示す。フレーム音質推定部10は、例えばGMM尤度算出手段101と、GMM(Gaussian Mixture Model:混合正規分布モデル)102を備える。GMM102は、音響モデルパラメータメモリ93内に格納しても良い。GMM尤度算出手段101は、音声特徴量Otを入力として、GMM102を参照し、フレーム音質q(t)を現す音声特徴量Otに対応するGMM尤度を算出する。GMM102は、例えば音響モデルの学習データの全ての音素から学習されているので、その尤度は音響モデルと音声特徴量Otの合致度を示し、GMM尤度の値q(t)によって各フレームの音質(音響モデルに合致しているか否か)を評価することが可能である。つまり、GMM尤度が大きければ音質が良好(音声認識精度が高くなる)、また、その値が小さければ音質が悪い(音声認識精度が低くなる)と評価することが出来る。
【0024】
なお、GMM尤度に代えて、対数値に変換する前の出力確率値を用いても良い。更に、GMM102の学習データから無音を取り除き、そのGMM102を音声GMMとしても良い。また、音声GMMとpause(無音)モデルの両方を照合し、尤度の高い方の尤度値を用いても良い。
【0025】
図4に他の機能構成例のフレーム音質推定部11を示す。フレーム音質推定部11は、パワー算出手段111と、音声・非音声区間検出手段112と、S/N計算手段113とを備える。パワー算出手段111は、音声特徴量Otから各フレームのパワーを算出する。音声・非音声区間検出手段112は、例えば一定値以上のパワーのフレームを音声区間として検出する。また、前述の音声GMMとpauseモデルの尤度を比較して、音声GMMの尤度が高い区間を音声区間としても良い。S/N計算手段113は、非音声区間に対する音声区間のパワーの比率であるS/N比を計算する。このS/N比がフレーム音質q(t)となる。
【0026】
〔平均音質推定部〕
平均音質推定部20は、フレーム音質推定部10が出力するフレーム音質q(t)である例えばGMM尤度やS/N比を、複数フレームに渡って平均して音質レベルQTを推定する(式(1))。
【0027】
【数1】
【0028】
ここでtはフレーム番号、Tは複数フレームの数である。添え字のTは、その複数フレームの通し番号である。
【0029】
〔音声認識処理制御部〕
音声認識処理制御部30は、音質レベルQTを入力として制御信号を出力する。制御信号の具体例としては、例えばビーム探索幅N(QT)が考えられる。その一例を式(2)に示す。
【0030】
【数2】
【0031】
図5に音質レベルQTとビーム探索幅N(QT)との関係を例示する。横軸は音質レベルQTであり、縦軸はビーム探索幅N(QT)である。
【0032】
図5に示すように式(2)は、所定の範囲の音質レベルQT(Qmin〜Qmax)に対応するビーム探索幅N(QT)(Nmin〜Nmax)を、音質レベルQTの値で比例配分する考えである。ここでは、比例係数が負の値なので、音質レベルQTが小でビーム探索幅N(QT)が大であり、QTが大でN(QT)が小となる関係である。もちろん、音質レベルQTとビーム探索幅N(QT)との関係は、非線形な関数で表せる関係であっても良い。また、制御信号としてビーム探索幅N(QT)を用いる場合、ビーム探索幅は、個数ビーム幅に限定したものではなく、例えばスコアビーム幅、単語終端スコアビーム幅や、単語終端個数ビーム幅等であっても良い。
【0033】
ここで、S/N比やGMM尤度等の音質の範囲に関しては、例えばQmaxやQminをそれぞれ音響モデル学習データに対する音質の分布から最大/最小値として良い。また、音質をS/N比とした場合には、例えばQmax=30[dB]、Qmin=10[dB]のように予め定めた範囲を用いても良い。またビーム探索幅に関しては、例えばNmaxを通常用いるビーム幅の1.5倍、Nminを通常用いるビーム幅の半分等とすれば良い。
【0034】
また、音質レベルが極端に悪い場合(例えば、QT<Qmin)には、ビーム探索幅を拡大しても精度向上が望めず処理時間ばかり掛かるので、ビーム探索幅を小さく、例えばNminにしても良い。また、制御信号に認識対象外指示信号を含ませて音声認識処理を行わせないようにしても良い。
【0035】
〔音声認識処理部〕
音声認識処理部92′は、音声特徴量Otと制御信号のビーム探索幅N(QT)を入力として音響モデルパラメータメモリ93に記録された音響モデルと、言語モデルパラメータメモリ94に記録された言語モデルとを参照して、ビーム探索アルゴリズムに基づいて音声認識結果を出力する。音声認識処理部92′は、ビーム探索幅N(QT)個の音声認識結果候補から正解を探索する点のみが従来の音声認識装置と異なる。つまり、適応的に音声認識処理部の動作が変化する。ビーム探索方法そのものは、従来からの音声認識装置と同じであるので詳細な説明は省略する。
【0036】
以上述べたように、音声認識装置100は、音質レベルQTによって適応的に音声認識処理を変化させる。図5に示した例では、音質レベルQTが悪い時にはビーム探索幅N(QT)を大、音質レベルが良い時にはビーム探索幅N(QT)を小にする。すなわち、音質が良い場合には音声認識結果候補(仮説)間に尤度差が付くので、ビーム探索幅を狭めても音声認識精度が劣化することが無く、処理速度を向上させることが出来る。一方、音質が悪い場合には音声認識結果候補(仮説)間に尤度差が付き難いので、ビーム幅を広げることで音声認識精度を向上させることが可能である。但し、極端に音質が悪い場合には、ビーム探索幅を広げたとしても音声認識結果候補(仮説)間に尤度差が付かないので、逆にビーム探索幅を狭めるか音声認識対象外にすることで処理速度を向上させることが出来る。したがって、音声認識精度を維持したまま処理時間の効率を向上させることが可能である。
【実施例2】
【0037】
実施例1で説明した制御信号を音質レベルQTに応じて適応的に変化させる考えを、複数の音声ファイルを音声認識する音声認識装置に適用すると、複数の音声ファイルを効率良く音声認識することが可能である。
【0038】
図6にその音声認識装置200の機能構成例を示す。その動作フローを図7に示す。音声認識装置200は、音声ファイル制御部40と、音声ファイル処理部50と、音声ファイルメモリ60とを更に備える点で音声認識装置100と異なる。他の機能構成は、音声認識装置100と同じである。
【0039】
音声ファイル制御部40は、外部から入力される音声ディジタル信号の音声ファイル情報(たとえば音声ファイル名)と、その音声ディジタル信号の音質レベルQTと、制御信号N(QT)を入力として音声ファイルの処理順を決定する(ステップS40、図7)。音声ファイル処理部50は、音声ファイルメモリ60に音声ディジタル信号の特徴量をフレーム単位でその音声ファイル毎に記録する(ステップS501)。また同時に制御信号も記録する。そして、音声ファイル制御部40が決定した処理順に記録した音声ディジタル信号の特徴量と制御信号とを出力する(ステップS50)。
【0040】
特徴量を分析するステップS91〜その特徴量と制御信号を音声ファイル単位で音声ファイルメモリ60に記録するステップS501の処理は、入力された全ての音声ファイルが終了するまで行われる(ステップS502のN)。そして、特徴量と制御信号は、各ファイルの処理順に従ってフレーム単位で音声認識処理部92′に出力される(ステップS503)。
【0041】
音声認識処理部92′は、制御信号が音声ファイル処理部50から与えられる点のみが異なるだけで、その動作は音声認識装置100のものと同じである。音声認識処理部92′は、制御信号に基づいて音声認識処理を行う(ステップS92′)。音声認識処理は入力された全てのファイルが終了するまで繰り返される(ステップS36のN)動作は、制御部36が制御する。
【0042】
音声ファイル制御部40は、音質レベルQTに基づいて上記処理順を決定する。その処理順を、音質レベルQTの大きい順とすると、音質の良好なファイルから順に音声認識処理部92′で音声認識処理されることになる。その結果、音質の良い順番で音声ファイルが音声認識処理されるので、複数の音声ファイルを効率良く音声認識することが出来る。
【0043】
また、音声認識処理を行う計算機の台数や仕様において、全ファイルに対して音声認識処理が行えない場合には、音質レベルQTを参照することで、音質の良好な音声ファイルのみを音声認識対象とすることが出来る。
【0044】
また、音声ファイル処理部50が音質範囲判定手段501を備え、その音質範囲判定手段501で音質レベルQTが所定値Qthより大きいか否かを判定し、所定値より小さな場合にその音声ファイルを廃棄するようにしても良い。
【0045】
なお、音声ファイル処理部50は、音声ファイルメモリ60に特徴量を記録する例を説明したが、特徴量を分析する前の音声ディジタル信号を音声ファイルメモリ60に記録するようにしても良い。また、音質範囲判定手段501は、例えば、音響モデル学習データに対する音質レベルの最低値を所定値Qthとし、所定値を基準に廃棄ファイルの選別を行うようにしても良い。
【0046】
また、学習データの音質レベルの最低値に限定せずに、学習データの音質レベルの分布が正規分布に従うとした場合の音質レベルQTの分布の平均μや標準偏差σから所定値をμ−2σと定めても良い。また、音声認識処理部92′は、一般的な音声認識装置であっても良い。その場合は、制御信号は不要となり、音声認識装置は音質の良い順番で音声認識処理を行う。
【実施例3】
【0047】
図8にこの発明の音声認識装置300の機能構成例を示す。その動作フローを図9に示す。音声認識装置300は、実施例1の音声認識装置100の機能構成に更に、教師なし適応部80と、適応後音響モデルパラメータメモリ95と、第2音声認識処理部96とを備え、音声認識装置100で音声認識処理した音声認識結果を適応用ラベルとして学習した音響モデルを用いて音声認識処理を行うものである。
【0048】
教師なし適応部80は、音声認識処理部92′の出力する音声認識結果を適応用ラベルとして音響モデルパラメータメモリ93に記録された音響モデルを学習し、適応音響モデルを生成する(ステップS80、図9)。適応音響モデルは適応後音響モデルパラメータメモリ95に記録される。
【0049】
第2音声認識処理部96は、適応後音響モデルパラメータメモリ95と言語モデルパラメータメモリ94とを参照して、ビーム探索アルゴリズムに基づいて音声認識結果を出力する(ステップS96)。このステップS96の第2音声認識処理過程は、実施例1の音声認識装置100の処理でも良いし、一般的な音声認識装置による処理でもかまわない。なお、教師なし適応部80に制御信号を破線で入力しているように、教師なし適応部80が制御信号の値に応じて、音声認識処理部92′の出力する音声認識結果を適応ラベルとするか否かを判断するようにしても良い。
【0050】
以上述べたように、音声認識装置300によれば、音声データの音質レベルに応じて音声認識した結果を適応用ラベルとして音響モデルを学習するので、音響モデルの精度を高めることが出来る。そして、その精度の高い音響モデルを用いた音声認識処理を行うことが可能である。また、この発明の音声認識装置100,200によれば、音声データの品質に応じて音声認識処理部の動作を制御信号によって変化させるので、音声認識処理の効率を向上させることが出来る。
【0051】
なお、実施例1のフレーム音質推定部10をGMMで構成する例で説明を行ったが、フレーム毎にモノフォン尤度を計算し、そのモノフォン尤度でフレーム音質を推定するようにしても良い。つまり、入力される特徴量に対して、音響モデルに属するモノフォン全てを照合し、もっとも尤度の高い最尤モノフォンで音質を評価するようにしても良い。
【0052】
また、上記方法及び装置において説明した処理は、記載の順に従って時系列に実行され
るのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
【0053】
また、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
【0054】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
【0055】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0056】
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
【特許請求の範囲】
【請求項1】
入力される音声ディジタル信号の音声特徴量をフレーム単位で分析する特徴量分析部と、
上記フレーム毎に上記音声ディジタル信号の音質を評価してフレーム音質を出力するフレーム音質推定部と、
複数フレームの上記フレーム音質から音質レベルを推定する平均音質推定部と、
上記音質レベルに基づいて音声認識処理時の動作を制御する制御信号を出力する音声認識処理制御部と、
上記制御信号に基づいて音声認識処理を行う音声認識処理部と、
を具備する音声認識装置。
【請求項2】
請求項1に記載の音声認識装置において、
更に
複数の音声ファイルを記録する音声ファイルメモリと、
上記音声ディジタル信号の音声ファイル情報と上記音質レベルと上記制御信号とを入力として音声ファイルの処理順を決定する音声ファイル制御部と、
上記音声ファイルメモリに上記音声ディジタル信号をその音声ファイル単位で記録すると共に上記処理順に上記記録した音声ディジタル信号を上記音声認識処理部に出力する音声ファイル処理部と、
を具備することを特徴とする音声認識装置。
【請求項3】
入力される音声ディジタル信号の音声特徴量をフレーム単位で分析する特徴量分析部と、
上記フレーム毎に上記音声ディジタル信号の音質を評価してフレーム音質を出力するフレーム音質推定部と、
複数フレームの上記フレーム音質から音質レベルを推定する平均音質推定部と、
上記音質レベルに基づいて音声認識処理時の動作を制御する制御信号を出力する音声認識処理制御部と、
上記音声特徴量と上記制御信号を入力として上記音声特徴量に基づく音声認識処理の結果を適応用ラベルとして出力する音声認識処理部と、
上記適応用ラベルを入力として音響モデルを学習し、適応音響モデルを生成する教師なし適応部と、
上記適応音響モデルを記録する適応後音響モデルパラメータメモリと、
上記音声ディジタル信号を入力とし、上記適応後音響モデルパラメータメモリに記録された適応音響モデルを参照して音声認識処理を行う第2音声認識処理部と、
を具備する音声認識装置。
【請求項4】
請求項1乃至3の何れかに記載した音声認識装置において、
上記制御信号は、
音声認識処理のビーム探索幅を設定するものであることを特徴とする音声認識装置。
【請求項5】
請求項1乃至3の何れかに記載した音声認識装置において、
上記制御信号に、
上記音質レベルの値によって、その値に対応する上記音声ディジタル信号の廃棄を指示する廃棄指示信号が含まれることを特徴とする音声認識装置。
【請求項6】
特徴量分析部が、入力される音声ディジタル信号の音声特徴量をフレーム単位で分析する特徴量分析過程と、
フレーム音質推定部が、上記フレーム毎に上記音声ディジタル信号の音質を評価してフレーム音質を出力するフレーム音質推定過程と、
平均音質推定部が、複数フレームの上記フレーム音質から音質レベルを推定する平均音質推定過程と、
音声認識処理制御部が、上記音質レベルに基づいて音声認識処理時の動作を制御する制御信号を出力する音声認識処理制御過程と、
音声認識処理部が、上記制御信号に基づいて音声認識処理を行う音声認識処理過程と、
を備える音声認識方法。
【請求項7】
請求項6に記載した音声認識方法において、
更に
音声ファイル制御部が、上記音声ディジタル信号の音声ファイル情報と上記音質レベルと上記制御信号とを入力として音声ファイルの処理順を決定する音声ファイル制御過程と、
音声ファイル処理部が、音声ファイルメモリに上記音声ディジタル信号をその音声ファイル単位で記録すると共に上記処理順に上記記録した音声ディジタル信号を上記音声認識処理部に出力する音声ファイル処理過程と、
を備えることを特徴とする音声認識方法。
【請求項8】
特徴量分析部が、入力される音声ディジタル信号の音声特徴量をフレーム単位で分析する特徴量分析過程と、
フレーム音質推定部が、上記フレーム毎に上記音声ディジタル信号の音質を評価してフレーム音質を出力するフレーム音質推定過程と、
平均音質推定部が、複数フレームの上記フレーム音質から音質レベルを推定する平均音質推定過程と、
音声認識処理制御部が、上記音質レベルに基づいて音声認識処理時の動作を制御する制御信号を出力する音声認識処理制御過程と、
音声認識処理部が、上記音声特徴量と上記制御信号を入力として上記音声特徴量に基づく音声認識処理の結果を適応用ラベルとして出力する音声認識処理過程と、
教師なし適応部が、上記適応用ラベルを入力として音響モデルを学習し、適応音響モデルを生成する教師なし適応過程と、
第2音声認識処理部が、上記音声ディジタル信号を入力とし、適応後音響モデルパラメータメモリに記録された適応音響モデルを参照して音声認識処理を行う第2音声認識処理過程と、
を備える音声認識方法。
【請求項9】
請求項1乃至5の何れかに記載した音声認識装置としてコンピュータを機能させるための装置プログラム。
【請求項10】
請求項9に記載した何れかの装置プログラムを記録したコンピュータで読み取り可能な記録媒体。
【請求項1】
入力される音声ディジタル信号の音声特徴量をフレーム単位で分析する特徴量分析部と、
上記フレーム毎に上記音声ディジタル信号の音質を評価してフレーム音質を出力するフレーム音質推定部と、
複数フレームの上記フレーム音質から音質レベルを推定する平均音質推定部と、
上記音質レベルに基づいて音声認識処理時の動作を制御する制御信号を出力する音声認識処理制御部と、
上記制御信号に基づいて音声認識処理を行う音声認識処理部と、
を具備する音声認識装置。
【請求項2】
請求項1に記載の音声認識装置において、
更に
複数の音声ファイルを記録する音声ファイルメモリと、
上記音声ディジタル信号の音声ファイル情報と上記音質レベルと上記制御信号とを入力として音声ファイルの処理順を決定する音声ファイル制御部と、
上記音声ファイルメモリに上記音声ディジタル信号をその音声ファイル単位で記録すると共に上記処理順に上記記録した音声ディジタル信号を上記音声認識処理部に出力する音声ファイル処理部と、
を具備することを特徴とする音声認識装置。
【請求項3】
入力される音声ディジタル信号の音声特徴量をフレーム単位で分析する特徴量分析部と、
上記フレーム毎に上記音声ディジタル信号の音質を評価してフレーム音質を出力するフレーム音質推定部と、
複数フレームの上記フレーム音質から音質レベルを推定する平均音質推定部と、
上記音質レベルに基づいて音声認識処理時の動作を制御する制御信号を出力する音声認識処理制御部と、
上記音声特徴量と上記制御信号を入力として上記音声特徴量に基づく音声認識処理の結果を適応用ラベルとして出力する音声認識処理部と、
上記適応用ラベルを入力として音響モデルを学習し、適応音響モデルを生成する教師なし適応部と、
上記適応音響モデルを記録する適応後音響モデルパラメータメモリと、
上記音声ディジタル信号を入力とし、上記適応後音響モデルパラメータメモリに記録された適応音響モデルを参照して音声認識処理を行う第2音声認識処理部と、
を具備する音声認識装置。
【請求項4】
請求項1乃至3の何れかに記載した音声認識装置において、
上記制御信号は、
音声認識処理のビーム探索幅を設定するものであることを特徴とする音声認識装置。
【請求項5】
請求項1乃至3の何れかに記載した音声認識装置において、
上記制御信号に、
上記音質レベルの値によって、その値に対応する上記音声ディジタル信号の廃棄を指示する廃棄指示信号が含まれることを特徴とする音声認識装置。
【請求項6】
特徴量分析部が、入力される音声ディジタル信号の音声特徴量をフレーム単位で分析する特徴量分析過程と、
フレーム音質推定部が、上記フレーム毎に上記音声ディジタル信号の音質を評価してフレーム音質を出力するフレーム音質推定過程と、
平均音質推定部が、複数フレームの上記フレーム音質から音質レベルを推定する平均音質推定過程と、
音声認識処理制御部が、上記音質レベルに基づいて音声認識処理時の動作を制御する制御信号を出力する音声認識処理制御過程と、
音声認識処理部が、上記制御信号に基づいて音声認識処理を行う音声認識処理過程と、
を備える音声認識方法。
【請求項7】
請求項6に記載した音声認識方法において、
更に
音声ファイル制御部が、上記音声ディジタル信号の音声ファイル情報と上記音質レベルと上記制御信号とを入力として音声ファイルの処理順を決定する音声ファイル制御過程と、
音声ファイル処理部が、音声ファイルメモリに上記音声ディジタル信号をその音声ファイル単位で記録すると共に上記処理順に上記記録した音声ディジタル信号を上記音声認識処理部に出力する音声ファイル処理過程と、
を備えることを特徴とする音声認識方法。
【請求項8】
特徴量分析部が、入力される音声ディジタル信号の音声特徴量をフレーム単位で分析する特徴量分析過程と、
フレーム音質推定部が、上記フレーム毎に上記音声ディジタル信号の音質を評価してフレーム音質を出力するフレーム音質推定過程と、
平均音質推定部が、複数フレームの上記フレーム音質から音質レベルを推定する平均音質推定過程と、
音声認識処理制御部が、上記音質レベルに基づいて音声認識処理時の動作を制御する制御信号を出力する音声認識処理制御過程と、
音声認識処理部が、上記音声特徴量と上記制御信号を入力として上記音声特徴量に基づく音声認識処理の結果を適応用ラベルとして出力する音声認識処理過程と、
教師なし適応部が、上記適応用ラベルを入力として音響モデルを学習し、適応音響モデルを生成する教師なし適応過程と、
第2音声認識処理部が、上記音声ディジタル信号を入力とし、適応後音響モデルパラメータメモリに記録された適応音響モデルを参照して音声認識処理を行う第2音声認識処理過程と、
を備える音声認識方法。
【請求項9】
請求項1乃至5の何れかに記載した音声認識装置としてコンピュータを機能させるための装置プログラム。
【請求項10】
請求項9に記載した何れかの装置プログラムを記録したコンピュータで読み取り可能な記録媒体。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【公開番号】特開2011−2494(P2011−2494A)
【公開日】平成23年1月6日(2011.1.6)
【国際特許分類】
【出願番号】特願2009−143173(P2009−143173)
【出願日】平成21年6月16日(2009.6.16)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】
【公開日】平成23年1月6日(2011.1.6)
【国際特許分類】
【出願日】平成21年6月16日(2009.6.16)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】
[ Back to top ]