説明

Fターム[5D015EE01]の内容

音声認識 (5,191) | 前処理 (287) | 音声信号の正規化 (33)

Fターム[5D015EE01]の下位に属するFターム

Fターム[5D015EE01]に分類される特許

1 - 13 / 13



【課題】安定した品質の音声認識サービスを提供する。
【解決手段】音声データ中継装置110は、車載端末102と音声認識サーバ104との間を中継するにあたって、音声認識サーバ104の音声認識性能の変化を調べるために、評価用音声データを雑音抑圧モジュール118において雑音抑圧処理した後、音声認識サーバ104に送信し、認識結果を受信する。そして、音声データ中継装置110は、音声認識サーバ104の認識結果に基づいて、雑音抑圧処理に用いる雑音抑圧用パラメータや音声認識サーバ104から得られた複数の認識結果の統合処理に用いる結果統合用パラメータの値を最適な値に設定する。これにより、音声認識サーバ104の音声認識性能が変化する場合においても、適切なパラメータを設定することができる。 (もっと読む)


【課題】歌詞や楽譜の表示と音響信号の再生とを高精度に同期させる。
【解決手段】記憶装置14は、楽曲を構成する楽音の時系列を指定する楽音データDAと楽曲の歌詞の時系列を指定する表示データDBとを記憶する。同期解析部48は、音響信号P1の参照区間σREFのクロマベクトルΨ1と音響信号P2の候補区間σXのクロマベクトルΨ2とを、始点SXの位置が相違する複数の候補区間σXの各々について実行し、複数の候補区間σXのうちクロマベクトルΨ2が参照区間σREFのクロマベクトルΨ1に類似する候補区間σXを、当該参照区間σREFに対応する同期区間σSとして特定する。表示制御部60は、音響信号P1の再生に同期するように、表示データDBが指定する文字を同期解析部48による処理の結果に基づいて表示装置72に表示させる。 (もっと読む)


【課題】音声認識の実施環境にかかわらず、応答遅延を生じること無く、入力音声の音響特徴量と音響モデルとのミスマッチを解消できる正規化用のCM値を算出する。
【解決手段】背景雑音レベル計測部101は背景雑音レベルL0を計測する。蓄積部102には背景雑音レベルL0が蓄積される。比較部103は、今回の背景雑音レベルL0と直近(前回)の音声認識の開始タイミングで計測されて蓄積部102に蓄積されている背景雑音レベルL1とを比較する。補正値算出部100は、背景雑音レベルの差分に基づいて今回の音声認識の実施環境と直近の音声認識の実施環境との違いを定量的に把握し、実施環境の変化が所定の閾値以上であれば、直近の音声認識で算出されたCM値を今回のCM値に反映させない非反映モードによりCM値を算出する。実施環境の変化が所定の閾値未満であれば、直近の音声認識で算出されたCM値を今回のCM値に反映させる反映モードによりCM値を算出する。 (もっと読む)


【課題】音声認識率を向上させることができる音声認識モデルパラメータ作成装置を提供することである。
【解決手段】音声認識モデルパラメータ作成装置は、無雑音音声データの入力を受け付けると(S11)、複数の雑音重畳データを作成し(S12)、作成した雑音重畳データの特徴量を算出する(S13)。特徴量の算出が終了すると、算出した特徴量を正規化し、正規化特徴量を得る。具体的には、まず、バンドパスフィルタを用いて、特徴量をフィルタリングする(S14)。そして、特徴量のフィルタリングが終了すると、フィルタリングされた特徴量をその最大振幅値で除算する(S15)。そして、学習部により、それぞれの正規化特徴量を用いて、音声認識モデルパラメータを作成する(S16)。そして、音声認識モデルパラメータを音声認識装置の記憶部に記憶させる(S17)。 (もっと読む)


【課題】ベクトル量子化およびその復号を経てVQ歪みを含む特徴量を、その確率モデルと照合する際に好適なパターンマッチング方法および装置、ならびに前記特徴量に好適な正規化方法および装置を提供する。
【解決手段】平均値・分散計算部51は、VQ復号部21で復号された音響特徴量(特徴ベクトル)の平均値yおよび分散x1を計算する。平均値yの計算結果は加算部52において音響特徴量から減算される。分散x1は加算部53において、予めVQ歪み分散記憶部27に記憶されているVQ歪みの分散x2と加算され、VQ歪みを考慮した分散xが求められる。正規化部54では、この分散xを用いて音響特徴量が正規化され、MVN後の音響特徴量が算出される。 (もっと読む)


【課題】特徴量の識別能力を低下させること無く特徴量を正規化することが可能なパタンマッチング装置、パタンマッチングプログラム、およびパタンマッチング方法を提供する。
【解決手段】全体平均計算部301は、第1の範囲に含まれる特徴量の平均値である全体平均値を取得する。局所平均計算部302は、第1の範囲よりも小さい第2の範囲に含まれる特徴量の平均値である局所平均値を計算する。局所分散計算部303は、局所平均値に基づいて、第2の範囲に含まれる特徴量の分散値である局所分散値を計算する。正規化処理計算部304は、全体平均値と複数の局所分散値とに基づいて特徴量を正規化する。 (もっと読む)


【課題】宅内の音響機器が音を出力している環境下でも、誤った音声認識による誤制御を防ぐことができる音声コントローラを提供することにある。
【解決手段】音声コントローラ1は、集音部10で集音した音に含まれる宅内の音響機器の3出力音に対してエコーキャンセル処理部11でエコーキャンセル処理を施した上で、更にエコーキャンセル処理部11の出力信号に雑音信号を重畳させて出力信号を平滑化し、この平滑化した信号と、音声認識モデルとを比較して出力信号に含まれる音声を認識するのである。 (もっと読む)


【課題】入力信号の内容や雑音に頑健で特定のカテゴリー以外の入力信号の棄却が可能な信号処理装置等を提供すること
【解決手段】信号処理装置は、特定のカテゴリーに属する信号の特徴的性質を表現し複数の詳細度を持つモデル3から入力信号の特徴的性とモデルが最も近くなる特定詳細度を選択する詳細度判定部5と、特定詳細度が所定のしきい値よりも低いときは入力信号を特定のカテゴリーに類別することが不適切であると、そうでないときは適切であると判定する照合判定部6を備える。 (もっと読む)


【課題】従来の音声処理装置においては、音声の話者である評価対象者の話者特性に応じた音声処理(歌声評定など)が行えず、その結果、精度の高い音声処理ができない、という課題があった。
【解決手段】音声を受け付ける音声受付部と、第一サンプリング周波数を格納している第一サンプリング周波数格納部と、サンプリング周波数の変換率に関する情報である声道長正規化パラメータを格納している声道長正規化パラメータ格納部と、前記声道長正規化パラメータと前記第一サンプリング周波数をパラメータとして算出される第二サンプリング周波数で、前記音声受付部が受け付けた音声に対して、サンプリング処理を行い、第二音声データを得る声道長正規化処理部と、前記第二音声データを処理する音声処理部を具備する音声処理装置により、話者特性に応じた音声処理ができる。 (もっと読む)


【課題】 自動車のような走行中の車輌内において音声認識により車載機器を操作する場合に音声認識にたとえ失敗したとしても次にユーザの発声レベルを変化させること無しに音声認識を成功させることを可能とする。
【解決手段】 車輌が停止している場合に、音声入力装置1から入力された音声信号のレベルが音声認識機能部4による音声認識が可能な入力レベルとなるような増幅率を初期値としてプログラマブルゲインアンプ20に設定する。車輌が走行している場合に、音声入力装置1から入力された音声信号のレベルが過大(又は過小)である場合はプログラマブルゲインアンプ20に設定されている増幅率を入力レベル記憶部53が記憶している音声信号のレベルに基づいてより小(大)なる値に変更する。 (もっと読む)


【課題】雑音などに基づく乗法性歪や加法性歪の影響を補正する。
【解決手段】音声信号をフィルタバンク11により複数の帯域信号に分割し、各帯域信号の非周期成分パワー(13、14、15A)と、周期成分パワー(15F、16)とを求め、周期成分、非周期成分パワーを離散コサイン変換し(17P、17A)、これら離散コサイン係数をベクトル連結する(18)。このようにして得られた特徴パラメータの時間的及び/又はベクトル要素的に少なくとも一部の分散値(又は標準偏差)を求め、この分散値で、連結ベクトルの対応要素を除算(正規化)して(22b)、前記特徴パラメータに対し、乗法性歪や加法性歪の影響を補正する。 (もっと読む)


音声発話の開始部の統計値を取得し、前記統計値に基づいた特性正規化パラメータ、及び前記統計値と該正規化パラメータに関連して統計的に導かれるマッピング情報を推定する。 (もっと読む)


1 - 13 / 13