音声認識装置とその方法と、プログラムと記録媒体

【課題】音声認識装置の処理効率を向上させる。
【解決手段】この発明の音声認識装置のフレーム音質推定部は、フレーム毎に音声ディジタル信号の音質を評価してフレーム音質を出力し、平均音質推定部は、複数フレームのフレーム音質から音質レベルを推定する。そして、音声認識処理制御部が、音質レベルに基づいて音声認識処理時の動作を制御する制御信号を音声認識処理部出力にする。音声認識処理部はその制御信号に基づいて音声認識処理を行う。

【発明の詳細な説明】
【技術分野】
【０００１】
この発明は、様々な音質の音声データを効率良く音声認識する音声認識装置とその方法と、プログラムと記録媒体に関する。
【背景技術】
【０００２】
近年、音声データを記録するメモリ素子が安価になることに伴い大量の音声データを容易に入手することが可能になった。それらの音声データを音声認識する際に、音声データの品質によって認識精度や処理時間が大きく変動する問題が発生する。
【０００３】
図１０に従来の音声認識装置９００の機能構成を示す。音声認識装置９００は、Ａ/Ｄ変換部９０、特徴量分析部９１、音声認識処理部９２、音響モデルパラメータメモリ９３、言語モデルパラメータメモリ９４を備える。
【０００４】
Ａ/Ｄ変換部９０は、入力されるアナログ信号の音声を、例えばサンプリング周波数１６ｋＨｚで離散的なディジタル信号に変換する。特徴量分析部９１は、離散値化された音声ディジタル信号を入力として、例えば３２０個の音声ディジタル信号を１フレーム（２０ｍｓ）としたフレーム毎に、音声特徴量Ｏ_ｔを算出する。音声特徴量Ｏ_ｔは、例えばメル周波数ケプストラム係数（ＭＦＣＣ）分析によって算出される。
【０００５】
音声認識処理部９２は、音声特徴量Ｏ_ｔを入力として音響モデルパラメータメモリ９３に記録された音響モデルと、言語モデルパラメータメモリ９４に記録された言語モデルとを参照して、ビーム探索アルゴリズムに基づいて音声認識結果を出力する。ビーム探索アルゴリズムとは、フレーム毎に最も高い累積尤度（音響モデルの尤度と言語モデルの尤度の和）から最終的に最も累積尤度が高い認識結果の存在をおおよそ保証できる所定数（ビーム幅）の音声認識結果候補（仮説）を残しながら探索する手順である。
【０００６】
ここで従来は、音響モデルを適応的に変化させることで音声データの品質の変動に対応していた（非特許文献１）。図１１にその考えを示す。現場で収録した音声データに含まれる背景雑音や音声歪みを推定し、適応の基になる標準音響モデルを変化させる変換行列を生成する。そして、標準音響モデルに変換行列を掛け合わせて音響モデルを、その現場の環境に適応させる。このように音響モデルを様々な環境に適応させることで、音声データの品質変動に対応していた。
【先行技術文献】
【非特許文献】
【０００７】
【非特許文献１】政瀧浩和、他５名、「顧客との自然な会話を聞き取る自由発話音声認識技術「VoiceRex」」ＮＴＴ技術ジャーナル、pp.15-18,2006.11
【発明の概要】
【発明が解決しようとする課題】
【０００８】
従来、様々に変化する音声データの品質に対応する方法としては、上述した音響モデルを適応させる考え方が一般的であった。つまり、音声データの品質の変化に対しては音声認識装置側で対処しようとする考え方である。この結果、過剰に歪んでいる音声データ等に対しては、音響モデルをたとえ適応させたとしてもビーム探索途中の仮説間の尤度に十分な差が付かず、探索効率が悪くなり処理時間が増大する。その結果、時間ばかり掛かって高い精度の認識結果が得られない問題が発生する。
【０００９】
この発明は、このような問題点に鑑みてなされたものであり、音声認識処理の事前処理として音声データの品質を評価し、その評価結果で認識処理の動作を制御するようにした音声認識装置と、その考えに基づいて複数の音声ファイルを効率良く音声認識する音声認識装置と、それらの方法とプログラムと記録媒体を提供することを目的とする。
【課題を解決するための手段】
【００１０】
この発明の音声認識装置は、特徴量分析部と、フレーム音質推定部と、平均音質推定部と、音声認識処理制御部と、音声認識処理部とを具備する。特徴量分析部は、入力される音声ディジタル信号の音声特徴量をフレーム単位で分析する。フレーム音質推定部は、フレーム毎に音声ディジタル信号の音質を評価してフレーム音質を出力する。平均音質推定部は、複数フレームのフレーム音質から音質レベルを推定する。音声認識処理制御部は、音質レベルに基づいて音声認識処理時の動作を制御する制御信号を出力する。音声認識処理部は、特徴量を入力として制御信号に基づいて音声認識処理を行う。
【００１１】
また、複数の音声ファイルを効率良く音声認識する音声認識装置は、上記した機能構成の他に、更に、音声ファイル制御部と、音声ファイル処理部と、音声ファイルメモリとを具備する。音声ファイル制御部は、音声ディジタル信号の音声ファイル情報と制御信号とを入力として音声ファイル情報の処理順を決定する。音声ファイル処理部は、音声ファイルメモリに音声ディジタル信号をその音声ファイル単位で記録すると共に、上記処理順に記録した音声ディジタル信号を音声認識処理部に出力する。
【発明の効果】
【００１２】
この発明の音声認識装置によれば、音声データの品質に対応する制御信号によって音声認識処理部の動作を適応的に変化させるので、音声認識精度を維持したまま処理時間の効率を向上させることが出来る。また、複数の音声ファイルの音声認識を行うこの発明の音声認識装置においては、制御信号に基づいて音声品質の高い順番で音声ファイルの処理を行うことが可能である。また、音声品質が所定の水準に達しないものを認識対象外にすることも可能なので、音声認識処理全体の処理効率を改善する効果を奏する。つまり、品質の悪い音声データがボトルネックになることが無いので音声認識処理の効率が向上する。
【図面の簡単な説明】
【００１３】
【図１】この発明の音声認識装置１００の機能構成例を示す図。
【図２】音声認識装置１００の動作フローを示す図。
【図３】フレーム音質推定部１０の機能構成例を示す図。
【図４】フレーム音質推定部１１の機能構成例を示す図。
【図５】音声認識処理制御部３０の制御信号のビーム探索幅の設定方法を示す図。
【図６】この発明の音声認識装置２００の機能構成例を示す図。
【図７】音声認識装置２００の動作フローを示す図。
【図８】この発明の音声認識装置３００の機能構成例を示す図。
【図９】音声認識装置３００の動作フローを示す図。
【図１０】従来の音声認識装置９００の機能構成を示す図。
【図１１】非特許文献１に開示された音声データの品質の変動に対応する考えを示す図。
【発明を実施するための形態】
【００１４】
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。
【実施例１】
【００１５】
図１にこの発明の音声認識装置１００の機能構成例を示す。その動作フローを図２に示す。音声認識装置１００は、特徴量分析部９１と、フレーム音質推定部１０と、平均音質推定部２０と、音声認識処理制御部３０と、音声認識処理部９２′と、音響モデルパラメータメモリ９３と、言語モデルパラメータメモリ９４と、制御部３５とを具備する。特徴量分析部９１と音響モデルパラメータメモリ９３と言語モデルパラメータメモリ９４は、従来の音声認識装置９００と同じものである。音声認識処理部９２′は、音声認識処理制御部３０が出力する制御信号に基づいて音声認識処理を行う点のみが、音声認識装置９２と異なりその他の動作は同じである。アナログ信号の音声データが入力される場合にＡ/Ｄ変換部９０が設けられる点も、音声認識装置９００と同じである。
【００１６】
音声認識装置１００は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現されるものである。
【００１７】
音声認識装置１００は、従来の音声認識装置９００と比較してフレーム音質推定部１０と、平均音質推定部２０と、音声認識処理制御部３０とを具備する点で新しい。以降の説明では、その異なる部分を中心に説明を行う。
【００１８】
特徴量分析部９１は、離散値化された音声ディジタル信号を入力として、所定の数の音声ディジタル信号を１フレーム（例えば２０ｍｓ）としたフレーム毎に、音声特徴量Ｏ_ｔを算出する（ステップＳ９１）。フレーム音質推定部１０は、フレーム毎（ｔ）に音声ディジタル信号の音質を評価してフレーム音質ｑ（ｔ）を出力する（ステップＳ１０）。
【００１９】
平均音質推定部２０は、複数フレームのフレーム音質ｑ（ｔ）から音質レベルＱ_Ｔを推定する（ステップＳ２０）。添え字のＴは複数フレームの通し番号である。
【００２０】
音声認識処理制御部３０は、音質レベルＱ_Ｔに基づいて音声認識時の制御信号を設定する（ステップＳ３０）。制御信号の具体例については後述する。音声認識処理部９２′は、音声認識処理制御部３０が設定した制御信号に基づいて音声認識処理を行う（ステップＳ９２′）。
【００２１】
以上の動作は、全てのフレームについて終了するまで繰り返される（ステップＳ３５のＮ）。この音声認識装置１００の各部の動作及び繰り返し動作の制御は、制御部３５が行う。なお、制御部３５は、フレーム毎に処理するばかりでなく、音声ファイル単位や、発話単位毎に、上記した動作が実行されるように各部を制御しても良い。
【００２２】
音声認識装置１００によれば、音声認識処理部９２が、音声認識処理制御部３０によって設定された制御信号に応じて適応的に認識処理を行う。つまり、複数フレームの音質レベルＱ_Ｔに応じた制御信号を設定することで、音声認識精度を維持したまま処理時間の効率を向上させることが出来る。次に、各部の具体的な構成例を示して更に詳しく音声認識装置１００の動作を説明する。
【００２３】
〔フレーム音質推定部〕
図３にフレーム音質推定部１０の機能構成例を示す。フレーム音質推定部１０は、例えばＧＭＭ尤度算出手段１０１と、ＧＭＭ（Gaussian Mixture Model：混合正規分布モデル）１０２を備える。ＧＭＭ１０２は、音響モデルパラメータメモリ９３内に格納しても良い。ＧＭＭ尤度算出手段１０１は、音声特徴量Ｏ_ｔを入力として、ＧＭＭ１０２を参照し、フレーム音質ｑ（ｔ）を現す音声特徴量Ｏ_ｔに対応するＧＭＭ尤度を算出する。ＧＭＭ１０２は、例えば音響モデルの学習データの全ての音素から学習されているので、その尤度は音響モデルと音声特徴量Ｏ_ｔの合致度を示し、ＧＭＭ尤度の値ｑ（ｔ）によって各フレームの音質（音響モデルに合致しているか否か）を評価することが可能である。つまり、ＧＭＭ尤度が大きければ音質が良好（音声認識精度が高くなる）、また、その値が小さければ音質が悪い（音声認識精度が低くなる）と評価することが出来る。
【００２４】
なお、ＧＭＭ尤度に代えて、対数値に変換する前の出力確率値を用いても良い。更に、ＧＭＭ１０２の学習データから無音を取り除き、そのＧＭＭ１０２を音声ＧＭＭとしても良い。また、音声ＧＭＭとpause(無音)モデルの両方を照合し、尤度の高い方の尤度値を用いても良い。
【００２５】
図４に他の機能構成例のフレーム音質推定部１１を示す。フレーム音質推定部１１は、パワー算出手段１１１と、音声・非音声区間検出手段１１２と、Ｓ/Ｎ計算手段１１３とを備える。パワー算出手段１１１は、音声特徴量Ｏ_ｔから各フレームのパワーを算出する。音声・非音声区間検出手段１１２は、例えば一定値以上のパワーのフレームを音声区間として検出する。また、前述の音声ＧＭＭとpauseモデルの尤度を比較して、音声ＧＭＭの尤度が高い区間を音声区間としても良い。Ｓ/Ｎ計算手段１１３は、非音声区間に対する音声区間のパワーの比率であるＳ/Ｎ比を計算する。このＳ/Ｎ比がフレーム音質ｑ（ｔ）となる。
【００２６】
〔平均音質推定部〕
平均音質推定部２０は、フレーム音質推定部１０が出力するフレーム音質ｑ（ｔ）である例えばＧＭＭ尤度やＳ/Ｎ比を、複数フレームに渡って平均して音質レベルＱ_Ｔを推定する（式（１））。
【００２７】
【数１】

【００２８】
ここでｔはフレーム番号、Ｔは複数フレームの数である。添え字のＴは、その複数フレームの通し番号である。
【００２９】
〔音声認識処理制御部〕
音声認識処理制御部３０は、音質レベルＱ_Ｔを入力として制御信号を出力する。制御信号の具体例としては、例えばビーム探索幅Ｎ（Ｑ_Ｔ）が考えられる。その一例を式（２）に示す。
【００３０】
【数２】

【００３１】
図５に音質レベルＱ_Ｔとビーム探索幅Ｎ（Ｑ_Ｔ）との関係を例示する。横軸は音質レベルＱ_Ｔであり、縦軸はビーム探索幅Ｎ（Ｑ_Ｔ）である。
【００３２】
図５に示すように式（２）は、所定の範囲の音質レベルＱ_Ｔ（Ｑ_ｍｉｎ〜Ｑ_ｍａｘ）に対応するビーム探索幅Ｎ（Ｑ_Ｔ）（Ｎ_ｍｉｎ〜Ｎ_ｍａｘ）を、音質レベルＱ_Ｔの値で比例配分する考えである。ここでは、比例係数が負の値なので、音質レベルＱ_Ｔが小でビーム探索幅Ｎ（Ｑ_Ｔ）が大であり、Ｑ_Ｔが大でＮ（Ｑ_Ｔ）が小となる関係である。もちろん、音質レベルＱ_Ｔとビーム探索幅Ｎ（Ｑ_Ｔ）との関係は、非線形な関数で表せる関係であっても良い。また、制御信号としてビーム探索幅Ｎ（Ｑ_Ｔ）を用いる場合、ビーム探索幅は、個数ビーム幅に限定したものではなく、例えばスコアビーム幅、単語終端スコアビーム幅や、単語終端個数ビーム幅等であっても良い。
【００３３】
ここで、Ｓ/Ｎ比やＧＭＭ尤度等の音質の範囲に関しては、例えばＱ_ｍａｘやＱ_ｍｉｎをそれぞれ音響モデル学習データに対する音質の分布から最大/最小値として良い。また、音質をＳ/Ｎ比とした場合には、例えばＱ_ｍａｘ＝３０[ｄＢ]、Ｑ_ｍｉｎ＝１０[ｄＢ]のように予め定めた範囲を用いても良い。またビーム探索幅に関しては、例えばＮ_ｍａｘを通常用いるビーム幅の１.５倍、Ｎ_ｍｉｎを通常用いるビーム幅の半分等とすれば良い。
【００３４】
また、音質レベルが極端に悪い場合（例えば、Ｑ_Ｔ＜Ｑ_ｍｉｎ）には、ビーム探索幅を拡大しても精度向上が望めず処理時間ばかり掛かるので、ビーム探索幅を小さく、例えばＮ_ｍｉｎにしても良い。また、制御信号に認識対象外指示信号を含ませて音声認識処理を行わせないようにしても良い。
【００３５】
〔音声認識処理部〕
音声認識処理部９２′は、音声特徴量Ｏ_ｔと制御信号のビーム探索幅Ｎ（Ｑ_Ｔ）を入力として音響モデルパラメータメモリ９３に記録された音響モデルと、言語モデルパラメータメモリ９４に記録された言語モデルとを参照して、ビーム探索アルゴリズムに基づいて音声認識結果を出力する。音声認識処理部９２′は、ビーム探索幅Ｎ（Ｑ_Ｔ）個の音声認識結果候補から正解を探索する点のみが従来の音声認識装置と異なる。つまり、適応的に音声認識処理部の動作が変化する。ビーム探索方法そのものは、従来からの音声認識装置と同じであるので詳細な説明は省略する。
【００３６】
以上述べたように、音声認識装置１００は、音質レベルＱ_Ｔによって適応的に音声認識処理を変化させる。図５に示した例では、音質レベルＱ_Ｔが悪い時にはビーム探索幅Ｎ（Ｑ_Ｔ）を大、音質レベルが良い時にはビーム探索幅Ｎ（Ｑ_Ｔ）を小にする。すなわち、音質が良い場合には音声認識結果候補（仮説）間に尤度差が付くので、ビーム探索幅を狭めても音声認識精度が劣化することが無く、処理速度を向上させることが出来る。一方、音質が悪い場合には音声認識結果候補（仮説）間に尤度差が付き難いので、ビーム幅を広げることで音声認識精度を向上させることが可能である。但し、極端に音質が悪い場合には、ビーム探索幅を広げたとしても音声認識結果候補（仮説）間に尤度差が付かないので、逆にビーム探索幅を狭めるか音声認識対象外にすることで処理速度を向上させることが出来る。したがって、音声認識精度を維持したまま処理時間の効率を向上させることが可能である。
【実施例２】
【００３７】
実施例１で説明した制御信号を音質レベルＱ_Ｔに応じて適応的に変化させる考えを、複数の音声ファイルを音声認識する音声認識装置に適用すると、複数の音声ファイルを効率良く音声認識することが可能である。
【００３８】
図６にその音声認識装置２００の機能構成例を示す。その動作フローを図７に示す。音声認識装置２００は、音声ファイル制御部４０と、音声ファイル処理部５０と、音声ファイルメモリ６０とを更に備える点で音声認識装置１００と異なる。他の機能構成は、音声認識装置１００と同じである。
【００３９】
音声ファイル制御部４０は、外部から入力される音声ディジタル信号の音声ファイル情報（たとえば音声ファイル名）と、その音声ディジタル信号の音質レベルＱ_Ｔと、制御信号Ｎ（Ｑ_Ｔ）を入力として音声ファイルの処理順を決定する（ステップＳ４０、図７）。音声ファイル処理部５０は、音声ファイルメモリ６０に音声ディジタル信号の特徴量をフレーム単位でその音声ファイル毎に記録する（ステップＳ５０１）。また同時に制御信号も記録する。そして、音声ファイル制御部４０が決定した処理順に記録した音声ディジタル信号の特徴量と制御信号とを出力する（ステップＳ５０）。
【００４０】
特徴量を分析するステップＳ９１〜その特徴量と制御信号を音声ファイル単位で音声ファイルメモリ６０に記録するステップＳ５０１の処理は、入力された全ての音声ファイルが終了するまで行われる（ステップＳ５０２のＮ）。そして、特徴量と制御信号は、各ファイルの処理順に従ってフレーム単位で音声認識処理部９２′に出力される（ステップＳ５０３）。
【００４１】
音声認識処理部９２′は、制御信号が音声ファイル処理部５０から与えられる点のみが異なるだけで、その動作は音声認識装置１００のものと同じである。音声認識処理部９２′は、制御信号に基づいて音声認識処理を行う（ステップＳ９２′）。音声認識処理は入力された全てのファイルが終了するまで繰り返される（ステップＳ３６のＮ）動作は、制御部３６が制御する。
【００４２】
音声ファイル制御部４０は、音質レベルＱ_Ｔに基づいて上記処理順を決定する。その処理順を、音質レベルＱ_Ｔの大きい順とすると、音質の良好なファイルから順に音声認識処理部９２′で音声認識処理されることになる。その結果、音質の良い順番で音声ファイルが音声認識処理されるので、複数の音声ファイルを効率良く音声認識することが出来る。
【００４３】
また、音声認識処理を行う計算機の台数や仕様において、全ファイルに対して音声認識処理が行えない場合には、音質レベルＱ_Ｔを参照することで、音質の良好な音声ファイルのみを音声認識対象とすることが出来る。
【００４４】
また、音声ファイル処理部５０が音質範囲判定手段５０１を備え、その音質範囲判定手段５０１で音質レベルＱ_Ｔが所定値Ｑ_ｔｈより大きいか否かを判定し、所定値より小さな場合にその音声ファイルを廃棄するようにしても良い。
【００４５】
なお、音声ファイル処理部５０は、音声ファイルメモリ６０に特徴量を記録する例を説明したが、特徴量を分析する前の音声ディジタル信号を音声ファイルメモリ６０に記録するようにしても良い。また、音質範囲判定手段５０１は、例えば、音響モデル学習データに対する音質レベルの最低値を所定値Ｑ_ｔｈとし、所定値を基準に廃棄ファイルの選別を行うようにしても良い。
【００４６】
また、学習データの音質レベルの最低値に限定せずに、学習データの音質レベルの分布が正規分布に従うとした場合の音質レベルＱ_Ｔの分布の平均μや標準偏差σから所定値をμ−２σと定めても良い。また、音声認識処理部９２′は、一般的な音声認識装置であっても良い。その場合は、制御信号は不要となり、音声認識装置は音質の良い順番で音声認識処理を行う。
【実施例３】
【００４７】
図８にこの発明の音声認識装置３００の機能構成例を示す。その動作フローを図９に示す。音声認識装置３００は、実施例１の音声認識装置１００の機能構成に更に、教師なし適応部８０と、適応後音響モデルパラメータメモリ９５と、第２音声認識処理部９６とを備え、音声認識装置１００で音声認識処理した音声認識結果を適応用ラベルとして学習した音響モデルを用いて音声認識処理を行うものである。
【００４８】
教師なし適応部８０は、音声認識処理部９２′の出力する音声認識結果を適応用ラベルとして音響モデルパラメータメモリ９３に記録された音響モデルを学習し、適応音響モデルを生成する（ステップＳ８０、図９）。適応音響モデルは適応後音響モデルパラメータメモリ９５に記録される。
【００４９】
第２音声認識処理部９６は、適応後音響モデルパラメータメモリ９５と言語モデルパラメータメモリ９４とを参照して、ビーム探索アルゴリズムに基づいて音声認識結果を出力する（ステップＳ９６）。このステップＳ９６の第２音声認識処理過程は、実施例１の音声認識装置１００の処理でも良いし、一般的な音声認識装置による処理でもかまわない。なお、教師なし適応部８０に制御信号を破線で入力しているように、教師なし適応部８０が制御信号の値に応じて、音声認識処理部９２′の出力する音声認識結果を適応ラベルとするか否かを判断するようにしても良い。
【００５０】
以上述べたように、音声認識装置３００によれば、音声データの音質レベルに応じて音声認識した結果を適応用ラベルとして音響モデルを学習するので、音響モデルの精度を高めることが出来る。そして、その精度の高い音響モデルを用いた音声認識処理を行うことが可能である。また、この発明の音声認識装置１００，２００によれば、音声データの品質に応じて音声認識処理部の動作を制御信号によって変化させるので、音声認識処理の効率を向上させることが出来る。
【００５１】
なお、実施例１のフレーム音質推定部１０をＧＭＭで構成する例で説明を行ったが、フレーム毎にモノフォン尤度を計算し、そのモノフォン尤度でフレーム音質を推定するようにしても良い。つまり、入力される特徴量に対して、音響モデルに属するモノフォン全てを照合し、もっとも尤度の高い最尤モノフォンで音質を評価するようにしても良い。
【００５２】
また、上記方法及び装置において説明した処理は、記載の順に従って時系列に実行され
るのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
【００５３】
また、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
【００５４】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）/ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。
【００５５】
また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【００５６】
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

【特許請求の範囲】
【請求項１】
入力される音声ディジタル信号の音声特徴量をフレーム単位で分析する特徴量分析部と、
上記フレーム毎に上記音声ディジタル信号の音質を評価してフレーム音質を出力するフレーム音質推定部と、
複数フレームの上記フレーム音質から音質レベルを推定する平均音質推定部と、
上記音質レベルに基づいて音声認識処理時の動作を制御する制御信号を出力する音声認識処理制御部と、
上記制御信号に基づいて音声認識処理を行う音声認識処理部と、
を具備する音声認識装置。
【請求項２】
請求項１に記載の音声認識装置において、
更に
複数の音声ファイルを記録する音声ファイルメモリと、
上記音声ディジタル信号の音声ファイル情報と上記音質レベルと上記制御信号とを入力として音声ファイルの処理順を決定する音声ファイル制御部と、
上記音声ファイルメモリに上記音声ディジタル信号をその音声ファイル単位で記録すると共に上記処理順に上記記録した音声ディジタル信号を上記音声認識処理部に出力する音声ファイル処理部と、
を具備することを特徴とする音声認識装置。
【請求項３】
入力される音声ディジタル信号の音声特徴量をフレーム単位で分析する特徴量分析部と、
上記フレーム毎に上記音声ディジタル信号の音質を評価してフレーム音質を出力するフレーム音質推定部と、
複数フレームの上記フレーム音質から音質レベルを推定する平均音質推定部と、
上記音質レベルに基づいて音声認識処理時の動作を制御する制御信号を出力する音声認識処理制御部と、
上記音声特徴量と上記制御信号を入力として上記音声特徴量に基づく音声認識処理の結果を適応用ラベルとして出力する音声認識処理部と、
上記適応用ラベルを入力として音響モデルを学習し、適応音響モデルを生成する教師なし適応部と、
上記適応音響モデルを記録する適応後音響モデルパラメータメモリと、
上記音声ディジタル信号を入力とし、上記適応後音響モデルパラメータメモリに記録された適応音響モデルを参照して音声認識処理を行う第２音声認識処理部と、
を具備する音声認識装置。
【請求項４】
請求項１乃至３の何れかに記載した音声認識装置において、
上記制御信号は、
音声認識処理のビーム探索幅を設定するものであることを特徴とする音声認識装置。
【請求項５】
請求項１乃至３の何れかに記載した音声認識装置において、
上記制御信号に、
上記音質レベルの値によって、その値に対応する上記音声ディジタル信号の廃棄を指示する廃棄指示信号が含まれることを特徴とする音声認識装置。
【請求項６】
特徴量分析部が、入力される音声ディジタル信号の音声特徴量をフレーム単位で分析する特徴量分析過程と、
フレーム音質推定部が、上記フレーム毎に上記音声ディジタル信号の音質を評価してフレーム音質を出力するフレーム音質推定過程と、
平均音質推定部が、複数フレームの上記フレーム音質から音質レベルを推定する平均音質推定過程と、
音声認識処理制御部が、上記音質レベルに基づいて音声認識処理時の動作を制御する制御信号を出力する音声認識処理制御過程と、
音声認識処理部が、上記制御信号に基づいて音声認識処理を行う音声認識処理過程と、
を備える音声認識方法。
【請求項７】
請求項６に記載した音声認識方法において、
更に
音声ファイル制御部が、上記音声ディジタル信号の音声ファイル情報と上記音質レベルと上記制御信号とを入力として音声ファイルの処理順を決定する音声ファイル制御過程と、
音声ファイル処理部が、音声ファイルメモリに上記音声ディジタル信号をその音声ファイル単位で記録すると共に上記処理順に上記記録した音声ディジタル信号を上記音声認識処理部に出力する音声ファイル処理過程と、
を備えることを特徴とする音声認識方法。
【請求項８】
特徴量分析部が、入力される音声ディジタル信号の音声特徴量をフレーム単位で分析する特徴量分析過程と、
フレーム音質推定部が、上記フレーム毎に上記音声ディジタル信号の音質を評価してフレーム音質を出力するフレーム音質推定過程と、
平均音質推定部が、複数フレームの上記フレーム音質から音質レベルを推定する平均音質推定過程と、
音声認識処理制御部が、上記音質レベルに基づいて音声認識処理時の動作を制御する制御信号を出力する音声認識処理制御過程と、
音声認識処理部が、上記音声特徴量と上記制御信号を入力として上記音声特徴量に基づく音声認識処理の結果を適応用ラベルとして出力する音声認識処理過程と、
教師なし適応部が、上記適応用ラベルを入力として音響モデルを学習し、適応音響モデルを生成する教師なし適応過程と、
第２音声認識処理部が、上記音声ディジタル信号を入力とし、適応後音響モデルパラメータメモリに記録された適応音響モデルを参照して音声認識処理を行う第２音声認識処理過程と、
を備える音声認識方法。
【請求項９】
請求項１乃至５の何れかに記載した音声認識装置としてコンピュータを機能させるための装置プログラム。
【請求項１０】
請求項９に記載した何れかの装置プログラムを記録したコンピュータで読み取り可能な記録媒体。

【図１】