説明

国際特許分類[G10L15/02]の内容

物理学 (1,541,580) | 楽器;音響 (32,226) | 音声の分析または合成;音声認識;音響分析または処理 (17,022) | 音声認識 (6,879) | 音声認識のための特徴抽出;認識単位の選択 (203)

国際特許分類[G10L15/02]に分類される特許

21 - 30 / 203


【課題】吹きかけられた息を適切に判別することができる息判別プログラムまたは息判別装置を提供する。
【解決手段】音声データ取得手段は、音声入力デバイスから音声信号を示す音声データを取得する。第1評価手段は、音声入力デバイスに入力された音声が息であるか否かを判定する第1の判定条件を用いて、音声データが示す音声信号を評価する。第2評価手段は、第1の判定条件とは異なる第2の判定条件を用いて、音声データが示す音声信号を評価する。息判別手段は、音声入力デバイスに息の吹きかけが開始されたか否かを判定する第1の期間では少なくとも第1評価手段の評価が肯定である場合に音声入力デバイスに息が入力されていると判断し、音声入力デバイスに息の吹きかけが継続しているか否かを判定する第2の期間では第1評価手段および第2評価手段の評価の少なくとも一方が肯定である場合に音声入力デバイスに息が入力されていると判断する。 (もっと読む)


【課題】内部ノイズ源を有する場合でも、計算負荷が少なくかつ正確にユーザー音声を認識できる信号分離システムを提供する。
【解決手段】信号分離システムは、ユーザー音声を集音することを目的とした外部マイクと、システム内部ノイズ源からの内部ノイズだけを検知する内部センサと、を有する。独立成分分析部は、分離フィルタ行列の最適化により、内部ノイズを出力する分離信号とそれを含まない信号群に分離する。パーミュテーション解決部は、内部ノイズを含まない分離信号群に対してパーミュテーション解決を実行する。パーミュテーション解決部では、分離信号をラプラス分布でフィッティングした際のラプラス分布のスケールパラメータの値を求め、そのパラメータの最大値をもつ分離信号をユーザー音声とする。 (もっと読む)


【課題】すべての言語の音声識別及び音声識別を利用した単字入力の方法を提供する。
【解決手段】すべての言語の音声識別及び音声識別を利用した単字入力の方法は、ある単字は、英語、中国語、或いは他の文字で、ある単字の発音を単音と呼び、先ず、一群のm個の未知(既知も可)の異なる単音にm個の異なる類を代表させ、常用単字を一回発音し、各単字の発音を、1個の線形予測ケプストラム係数マトリックスに転換し、次に、ベイズ或いは距離分類法を用いて、常用字を、m類中の一類に分類し、使用者は、単音を発声後、m個の未知の単音において、F個の最も相似した未知の単音を探し出し、続いて、F個の相似する未知の単音が代表するF個類内において、すべての単字を、必要な単字発音との相似度及び文字(或いは画数)に応じて、配列し、使用者の発音後、非常に迅速に必要な字を探し出すことができる。 (もっと読む)


【課題】実際の発声強度に適切な音響モデルを利用して高精度な音声認識を実現する。
【解決手段】強度測定部34は、音声信号Vの観測強度Pを順次に測定する。第1照合部42は、相異なる発声強度Lに対応する複数の音素モデルMPの各々と音声信号Vとを照合する。相関特定部44は、強度測定部34が測定した観測強度Pと複数の音素モデルMPのうち音声信号Vの出現確率λが最大となる音素モデルMPに対応する発声強度Lとに基づいて、観測強度Pと発声強度Lとの関係を規定する強度テーブルTBL1を生成する。記憶装置24は、相異なる発声強度Lに対応する複数の音素モデルMPが音素毎に設定された音響モデルMを記憶する。第2照合部46は、音響モデルMの各音素に設定された複数の音素モデルMPのうち、強度測定部34が測定した観測強度Pに強度テーブルTBL1にて対応する発声強度Lの音素モデルMPを利用して、音声信号Vと音響モデルMとを照合する。 (もっと読む)


【課題】無声化音素の有無を精度高く検出する。
【解決手段】初期セグメンテーションされた音声信号の音素ラベル列からルールに従って無声化判定対象音素を検出し、その無声化判定対象音素を含む無声化判定範囲を決める。入力音声信号の有声性尺度を求め、無声化判定範囲の有声性尺度を閾値と比較して無声化判定対象音素が無声化されているか判定し、無声化されている場合は無声化判定対象音素を削除して、音素境界時刻を修正する。 (もっと読む)


【課題】応答遅延を生じること無く、入力音声の音響特徴量と音響モデルとのミスマッチを解消できるCM値を算出する音声認識装置およびその特徴量正規化方法を提供する。
【解決手段】初期補正値蓄積部101には正規化用CM値の初期値cm_initが蓄積されている。各時刻補正値算出部102は、音声認識ごとに所定の時刻周期で入力される音響特徴量x(t)の、認識開始時刻sから現在時刻cまでの経過期間TcにおけるCM値[cm_current(c)]を算出する。補正値更新部103は、現在の初期CM値cm_initおよび各時刻CM値cm_current(c)に基づいて正規化用CM値cm(c)を算出し、これを特徴量正規化部2で用いるCM値として更新登録する。音響特徴量蓄積部104は、音響特徴量を入力音声全体にわたって蓄積する。初期補正値算出部105は、音響特徴量蓄積部104に蓄積された音響特徴量を用いて、初期補正値蓄積部101に蓄積する初期CM値cm_initを算出する。 (もっと読む)


【課題】ある連続音の特徴を改善し、あらゆる言語文を正しく識別でき、よって、サンプルを用いず、台湾中国語、英語、日本語、ドイツ語、フランス語、韓国語、ロシア語、広東語、台湾語等のすべての言語を識別可能なあらゆる言語を識別可能な識別方法を提供する。
【解決手段】ある連続音(word)が1個以上の単音を含み、あらゆる言語のある連続音の特徴は、あらゆる言語の未知の連続音から抽出し、これら未知の連続音は、マトリックス値を用いて表示し、144次元空間内に散布され、あらゆる言語の既知の連続音の特徴は、144次元空間に散らばり、知の連続音周囲の未知の連続音の特徴によりシミュレート及び計算され、本発明は12個の弾性フレームを含み、長さが等しく、フィルターが無く、オーバーラップせず、ある連続音を、長さがさまざまな音波(さまざまな音節数を持つ)12×12マトリックスに転換し、ベイズ識別法により比較識別する。 (もっと読む)


【課題】実環境下の音声に対する高い認識性能で音声認識を行う。
【解決手段】雑音区間信号のケプストラムから雑音モデルを作成し、音声区間信号のケプストラムから音声ケプストラム平均を求める。次いで、音声ケプストラム平均、クリーン音声モデル(非雑音環境で収音された音声の音声単位毎に構築した音響モデル)のクリーン音声のケプストラムの平均及び雑音モデルの雑音のケプストラムの平均を用いて乗法性雑音特徴量を算出し、乗法性雑音特徴量を用いて雑音モデルを正規化して正規化雑音モデルを生成する。さらに正規化雑音モデルとクリーン音声モデルとを合成して正規化雑音重畳音声モデルを生成し、正規化雑音重畳音声モデルを正規化して正規化済み雑音適応モデルを音響モデルとして構築する。この音響モデルと、音声区間信号の音響特徴量を正規化した正規化音声成分特徴量とを照合して尤度を求め、この照合尤度に基づき音声認識結果を得る。 (もっと読む)


【課題】
決められた語句を用いる話者認識において、ノイズに対して堅牢性のある話者認識装置を提供する。
【解決手段】
生体情報を用いて認証を行う生体情報認証装置において、第1の生体情報を予め記憶した記憶部と、第2の生体情報を入力する入力部と、記憶部に記憶された第1の生体情報の特徴量と入力部により入力された第2の生体情報の特徴量とを比較し、比較結果に応じて認証結果を出力する演算部と、を備える。演算部は、第1の生体情報のフラクタル次元と第2の生体情報のフラクタル次元とを比較し、比較結果に応じて認証結果を出力する。 (もっと読む)


【課題】 音声信号から視聴者が求める盛り上がり部分を自動的に抽出して統合し、又はそのような盛り上がり部分を再生する。
【解決手段】 情報提供装置10において、重要度判断部11は、TV放送を受信すると、所定の時間区間毎に音声信号の周波数強度分布を調べ、その周波数強度分布について、重要パターンとして予め登録してある周波数強度分布とのマッチングを行い、例えば類似度が閾値以上である部分を重要部分と判断する。抽出部12は、重要度判断部11において重要と判断された部分及びその前後の映像/音声を抽出し、その部分をコピーして元の映像/音声信号とは別に記録部13に記録する。統合部14は、記録部13に記録された重要部分を時系列順、或いは任意の順序で統合する。発信部15は、統合部14によって統合された重要部分を視聴者、例えば携帯電話機等のユーザに対して発信する。 (もっと読む)


21 - 30 / 203