説明

Fターム[5D015GG05]の内容

音声認識 (5,191) | 標準パターンの学習 (485) | 音声パターンの加算、平均化 (12)

Fターム[5D015GG05]に分類される特許

1 - 12 / 12


【課題】入力音声の性質に合せた適切な認識結果を得ることができる音声認識装置、音声認識方法及び音声認識プログラムを提供する。
【解決手段】言語モデルに基づいて入力音声を認識する音声認識装置1であって、第1DBに基づいて作成された第1言語モデルを保持する第1LM保持部130と、第1DBのデータの長さを保持する第1DB長さ保持部110と、第2DBに基づいて作成された第2言語モデルを保持する第2LM保持部140と、第2DBのデータの長さを保持する第2DB長さ保持部120と、入力音声のデータの長さに関する情報、第1DBのデータの長さ、及び第2DBのデータの長さの関係に基づく重みを計算する重み決定部170と、重みで第1言語モデルと第2言語モデルとを混合するLM混合部180と、混合された言語モデルに基づいて入力音声のデータを文字にする認識処理部190と、を備えて構成する。 (もっと読む)


【課題】音声認識率を向上させることができる音声認識モデルパラメータ作成装置を提供することである。
【解決手段】音声認識モデルパラメータ作成装置は、無雑音音声データの入力を受け付けると(S11)、複数の雑音重畳データを作成し(S12)、作成した雑音重畳データの特徴量を算出する(S13)。特徴量の算出が終了すると、算出した特徴量を正規化し、正規化特徴量を得る。具体的には、まず、バンドパスフィルタを用いて、特徴量をフィルタリングする(S14)。そして、特徴量のフィルタリングが終了すると、フィルタリングされた特徴量をその最大振幅値で除算する(S15)。そして、学習部により、それぞれの正規化特徴量を用いて、音声認識モデルパラメータを作成する(S16)。そして、音声認識モデルパラメータを音声認識装置の記憶部に記憶させる(S17)。 (もっと読む)


【課題】過去に整形済の文書スタイルテキストDBが存在している類の話し言葉の音声認識・書き起こしのための音響モデルを、効果的に作成する音響モデル学習装置を提供する。
【解決手段】音響モデル学習装置78は、音声DB(例えば審議音声コーパス)40を人間が書き起こし、整形して得られた文書スタイルテキスト(例えば会議録)42により学習した言語モデル186から、実際の発言内容に忠実な書き起こしの言語モデル136を推定する言語モデル推定部188と、初期音響モデル130及び言語モデル推定部188により推定された話し言葉スタイル書き起こしの言語モデル136を用いた音声認識により、音声DB40に書き起こしとその音素ラベルを付して音素ラベル付音声DB80を出力する音素ラベリング部144と、音素ラベル付音声DB80を学習データとして、音響モデルの学習を行なう音響モデル学習部とを含む。 (もっと読む)


【課題】音声が経年変化しても利用者の手間をかけることなく登録音声情報を更新し且つセキュリティの向上を図る。
【解決手段】音声情報認証装置10によれば、利用者の日常的な音声情報に基づいて参照用音声情報を収集し、該参照用音声情報に基づいて検出した声質の変化に対応するように登録音声情報を補正し、該補正済登録音声情報と入力された音声情報が一致しているか否かを判定するようにしたことから、利用者は登録音声情報を一度登録するだけで、経年変化に応じた再登録を行う必要がなくなる。また、登録音声情報の更新も自動的に行われることから、利用者に手間をかけることを防止できる。さらに、登録音声情報の再登録を排除することで、パスワード等が他人に知られることを防止することができる。 (もっと読む)


【課題】高い認識性能を実現する高精度な音響モデルを作成すること。
【解決手段】ベース音響モデルおよび、複数の学習データクラスタを用いて、各学習データクラスタに対応した十分統計量(クラスタ十分統計量)を得る。そして、各クラスタ十分統計量のうち1つあるいは複数の組み合わせから音響モデルを合成して、各音響モデルを、評価用データおよび評価用言語モデルを用いて評価する。この各音響モデルの評価結果のうち所定の評価結果を与えた音響モデルを選択する。 (もっと読む)


【課題】パターンモデルの認識確率を低下させる要因となる信号の認識確率を向上する新規のパターンモデルを容易に生成可能なパターンモデル生成装置、パターンモデルの認識確率を低下させる要因となる信号の認識確率を評価するのに好適なパターンモデル評価装置、および前記認識確率を向上するパターンモデルを用いてパターン認識を行うパターン認識装置を提供する。
【解決手段】高次元の要素を含んでなる高次信号パターンモデルおよび高次ノイズパターンモデルから構成されるデータ空間を、それぞれ、各高次パターンモデル相互間の位置関係を近似した状態で、低次信号ベクトルおよび低次ノイズベクトルから構成されるデータ空間へとそれぞれ写像し、この低次ベクトル空間を区分すると共に可視化し、その中心から所定距離以上離れた位置にある低次ベクトルに対応する信号データおよびノイズデータを用いてパターン認識用のパターンデルを生成する。 (もっと読む)


【課題】 登録者の音声の本来の特徴を登録し、認識誤りが発生する虞を低減させる。
【解決手段】 登録者は、登録者の識別子を入力した後、所定の文言を複数回発音する。
登録者の音声は、音声入力部106に入力され音声データに変換される。CPU102は、音声データから音声の特徴量を抽出し記憶部105に記憶させる。記憶部105に記憶された各発音の特徴量のうち、共に記憶された他の特徴量との距離が所定値以上に大きな特徴量は記憶部105から消去される。この後、CPU102は、記憶部105に記憶された特徴量の平均値を求め、求めた平均値を、入力された識別子と対応付けて発音者の音声の特徴量として記憶部105に記憶させる。 (もっと読む)


【課題】大量の学習用音声データに対するCMN処理後の特徴量から学習したCMN音響モデルが必要であり、音響モデルを作成するために多くの時間が必要であった。
【解決手段】CMN処理を行わず作成した音響モデル内のモデルパラメータ、または音響モデル作成時に得られた統計情報を用いて、学習用音声データのケプストラム平均(CM)を近似的に求め、音響モデル中のケプストラムに関する各分布の平均パラメータから得られたCMを減算することで、CMN処理後の音響モデルを合成する。また、このCMN処理後の音響モデルと、認識対象の音声信号にCMN処理を行って抽出した特徴量とを照合して尤度を求めることで、音声認識を行う。 (もっと読む)


【課題】 雑音が発生する環境において、処理量やメモリ量消費を抑えつつ、精度の高い音声認識を行う音声認識装置、音声認識方法、及び、プログラムを提供する。
【解決手段】 音声認識装置10の第1の計算部13は、第1の記憶部11に記憶されている音声のHMM音響モデルの状態毎に、認識対象となる音声の特徴パラメータに対する音声のHMM音響モデルの出力確率を計算する。第2の計算部14は、特徴パラメータに対する、第2の記憶部12に記憶されている雑音のGMM音響モデルの出力確率を計算する。選択部15は、第1の計算部13により計算された出力確率、及び、第2の計算部14により計算された出力確率の中から、最大の出力確率を選択する。照合部16は、選択部15により選択された出力確率を音声のHMM音響モデルの出力確率としてビタビアルゴリズムに用いる。 (もっと読む)


【課題】 音声応答装置の音声認識においてガイダンス音(音声)がエコーとして混入しても高い認識率とする。
【解決手段】 システム音声生成部32からのガイダンス音を用いてスピーカ31からマイクロホン34に回り込むエコー信号を、マイクロホン34よりの入力信号に対し抑圧処理し、更に背景雑音の抑圧処理を行い、その後、残留エコーを抑圧する。エコー及び雑音抑圧された入力信号の特徴ベクトルを抽出し、特徴ベクトルより、入力信号が音声区間か雑音区間かの判定を行い、雑音区間であれば、その特徴ベクトルについて雑音モデルを学習し、雑音モデルとクリーン音声モデルとを合成して雑音重畳音声モデルとする。入力信号が音声区間と判定された特徴ベクトルに対し、雑音重畳音声モデルの尤度を計算し、尤度が最も高いモデルの認識カテゴリを認識結果として出力する。 (もっと読む)


話者や、音声認識装置を搭載した移動体が移動しても高い精度で認識可能な音声認識装置を提供する。複数のマイクMが検出した音響信号から、特定の話者HMjの音声を認識して文字情報に変換する音声認識装置である。複数のマイクMが検出した音響信号に基づき、話者HMjの音源方向θHMjを特定する音源定位部10と、音源方向θHMjに基づき、話者HMjの音声信号を音響信号から分離する音源分離部20と、断続的な複数の方向に対応した方向依存音響モデルH(θ)を記憶した音響モデル記憶部49と、音源方向θHMjの音響モデルを、音響モデル記憶部49の方向依存音響モデルH(θ)に基づいて求め、音響モデル記憶部49へ記憶させる音響モデル合成部40と、音響モデル合成部40が合成した音響モデルを使用して、音源分離部20が分離した音声信号の音声認識を行い、文字情報に変換する音声認識部50とを備える。 (もっと読む)


本発明は、環境適応を伴う音声認識の方法、システム、及びコンピュータプログラム製品に関するものである。入力音声のパワースペクトルを記述する特徴ベクトルを変換して、学習音声の録音条件と音声認識を施す音声の録音条件との不整合を解消する。この方法は、受信した音声期間が発声を表わすか発声の途切れを表わすかの確率に基づく。発声または発声の途切れの音声期間中の平均値を特定し、この値を学習データのそれぞれの値と比較して、生成された特徴ベクトルの変換を実行して、環境的な不整合を低減することができる。
(もっと読む)


1 - 12 / 12