説明

Fターム[5D015GG00]の内容

音声認識 (5,191) | 標準パターンの学習 (485)

Fターム[5D015GG00]の下位に属するFターム

Fターム[5D015GG00]に分類される特許

61 - 80 / 166


【課題】特定の音声強調手法によらない音声パラメータ学習装置の提供。
【解決手段】この発明による音声パラメータ学習装置は、適応用音声前処理部と、音響モデル記憶部と、適応パラメータ生成部と、認識用音声前処理部と、分散動的補正部とを具備する。適応パラメータ生成部は、分散補正のためのパラメータとしてフレームに依存する動的分散適応パラメータと、フレームに依存しない静的分散適応パラメータを生成する。認識用音声前処理部は、観測音声信号のフレーム毎の音声特徴量と、音声特徴量のバラツキを表わす不確かさを生成する。分散動的補正部は、上記音声特徴量の不確かさと、上記適応パラメータと、上記音響モデルとを入力としてフレーム毎に適応パラメータで補正された音響モデルのガウス分布の分散を出力する。 (もっと読む)


【課題】追加学習なく音響モデルのサイズを縮小する技術を提供する。
【解決手段】複数の基底正規分布が重み付き加算されることによりそれぞれ構成される複数の混合正規分布から構成される音響モデルが記憶される音響モデル記憶部13を有する。基底正規分布削除部162が、音響モデルを構成する全部又は一部の混合正規分布のそれぞれについて、混合正規分布を構成する複数の基底正規分布から、予め定められた削除重み閾値よりも小さい重みが掛けられた基底正規分布を削除する。正規化部17が、混合正規分布を構成する、削除されずに残った複数の基底正規分布にそれぞれ掛けられる重みの合計が1となるように、音響モデルを構成する混合正規分布のうち基底正規分布が削除された各混合正規分布の重み系列を正規化する。 (もっと読む)


【課題】学習データの中から高い認識性能を実現する高精度な音響モデルの作成に有用な学習データを選択する。
【解決手段】ベース音響モデル141を、タスクに適応する学習データであるタスク適応学習データ120で学習してタスクに適応した適応音響モデル151を作成する。学習データ200の音声データに対して音声認識を行い、学習データ200のラベルから得られた文法161および適応音響モデル151を用いた音声認識の場合の認識スコア(適応認識スコア)と、文法161およびベース音響モデル141を用いた音声認識の場合の認識スコア(ベース認識スコア)とを求める。学習データ200のうち、適応認識スコアとベース認識スコアとの比較判定に合格するものを選択する。 (もっと読む)


【課題】照明機器の制御を音声によって指示できる照明制御装置を提供する。
【解決手段】認識変換部3は、音声入力部1に入力される音声から認識語彙保持部2に登録されている語彙を抽出する。認識変換部3は、認識語彙保持部2から抽出した語彙が制御対象であるときに当該語彙を制御対象記憶部4に格納し、認識語彙保持部2から抽出した語彙が制御対象の操作であるときに当該語彙を動作記憶部5に格納する。制御部6は、制御対象記憶部4と動作記憶部5との一方の内容が更新されたことをトリガとしてそれぞれに格納された語彙で示される制御内容の制御信号を生成して照明機器を制御する。認識変換部3は認識語彙保持部2から第1の制御用語彙を抽出したときに所定時間ごとに登録順で各語彙を抽出して制御対象記憶部4と動作記憶部5とのいずれか一方に格納し、第2の制御用語彙を抽出した時点で認識語彙保持部2からの語彙の抽出を停止する。 (もっと読む)


【課題】認識精度を向上させる標準話者モデルを作成する話者モデル作成装置を提供する。
【解決手段】無雑音環境での音声の特徴量を表すクリーン特徴量を記憶するクリーン学習データ記憶部131と、雑音環境での音声の特徴量を表す雑音特徴量を記憶するノイジー学習データ記憶部132と、クリーン特徴量に対する第1尤度が最大となる話者モデルのパラメータを表す第1モデルパラメータを算出し、話者ごとに、対応するクリーン特徴量の分布を第1モデルパラメータの話者モデルが表す分布に変換するパラメータであって、第1尤度が最大となる変換パラメータを算出する変換パラメータ算出部110と、話者ごとに対応する雑音特徴量を変換パラメータで変換し、変換した雑音特徴量に対する第2尤度が最大となる話者モデルのパラメータを表す第2モデルパラメータを算出するモデルパラメータ算出部120と、を備えた。 (もっと読む)


【課題】混合ガウス分布の分布数が増加した場合でも認識精度を向上させる。
【解決手段】入力音声から静的特徴量と動的特徴量を抽出して(2、S202)、線形動的システムと、辞書データベースに記憶されている辞書データと、を用いて、トラジェクトリxを合成し(104、S204)、最大化関数データベース112に記憶されている最大化関数にトラジェクトリxを代入して、尤度関数P(Y1:T)を生成し(108、S206)、尤度関数P(Y1:T)を近似して近似尤度関数P’(Y1:T)を生成し(1164、S207)、近似尤度関数P’(Y1:T)と尤度関数P(Y1:T)との誤差eを近似することで近似誤差e’を求め、近似尤度関数P’(Y1:T)と近似誤差eとを加算して、補正された尤度関数P’’ (Y1:T)を生成して、補正尤度関数P’’ (Y1:T)から尤度を計算する。 (もっと読む)


【課題】音声学習の効率を向上させること。
【解決手段】本発明の音声認識装置は、入力音声信号を用いて音声認識を行うための音声学習を行う装置である。音声認識装置は、入力音声信号に対して異なる時間から信号分析することにより複数の信号系列を作成し、複数の信号系列ごとに学習を行う。複数の信号系列は、入力音声信号に対し異なる時間から所定のフレーム周期でフレームシフトさせたフレーム毎に特徴量を抽出することにより作成する。上記の異なる時間とは、入力音声信号に対してフレーム周期より短い時間である。 (もっと読む)


【課題】別個の発話環境に対応した複数の音響モデルを簡便に作成する。
【解決手段】記憶装置30は、発話環境に非依存な不特定話者の音響モデルMsidを記憶する。第1適応部21は、発話環境に非依存な特定話者の音声信号SAに基づいて音響モデルMsidを適応化することで、発話環境に非依存な特定話者の音響モデルMA[s1,0]を生成する。第2適応部22は、発話環境が相違する特定話者の複数の音声信号SB1〜SBKの各々に基づいて音響モデルMsidを適応化することで、発話環境が相違する特定話者の複数の音響モデルMB[s1,1]〜MB[s1,K]を生成する。演算部24は、音響モデルMsidと音響モデルMB[s1,0]と音響モデルMB[s1,1]〜MB[s1,K]の各々とに基づいて、発話環境が相違する不特定話者の音響モデルMC[sid,1]〜MC[sid,K]を生成する。 (もっと読む)


【課題】車載装置の発話制御において、重畳された音声に基づく認識結果である複数の制御コマンドを効率的に実行するために、より高い精度で音声認識する。
【解決手段】本発明の音声認識装置10は、音源分離・音源方向推定処理部11aが、重畳されて集音された音声から音源ごとに音声を分離し、各音声の音源方向を推定する。音源方向推定の信頼度が所定閾値以下であった場合に、運転席用音声認識・操作コマンド変換処理部11b、助手席用音声認識・操作コマンド変換処理部11c、後部座席用音声認識・操作コマンド変換処理部11dが、すべての音源方向に対応する音声認識用辞書を使用して音声認識をおこない、音声認識の信頼度をそれぞれ算出する。操作コマンド変換結果補正処理部11eは、音源方向の信頼度および音声認識の信頼度の積に基づいて、推定された音源方向を補正する。 (もっと読む)


【課題】 音声認識率を向上させることができる音声を登録することができる音声登録装置及びその制御方法、コンピュータプログラムを提供する。
【解決手段】 1つの音声登録対象語彙に対し、少なくとも2種類以上の発声様式の音声を登録するために、互いに異なる発声様式による発声を促す提示を行う。提示に従って、入力された複数種類の音声を記憶媒体に保持する。 (もっと読む)


【課題】誤差を適切に考慮した処理を行う。
【解決手段】本体学習モジュール101は、データを学習する。誤差学習モジュール102は、データと、本体学習モジュール101がデータを再構成した再構成データとの誤差を学習する。また、本体学習モジュール101は、データの入力があると、そのデータを再構成して、再構成データを出力し、誤差学習モジュール102は、データと、再構成データとの誤差データを再構成して、再構成誤差データを出力する。そして、学習モジュール100は、再構成データと、再構成誤差データとを加算して出力する。本発明は、例えば、ロボット等に適用できる。 (もっと読む)


【課題】複数の話者毎の発言内容を正確に再現した議事録データを作成できる音声認識装置及び会議システムを提供する。
【解決手段】制御部11は、アレイマイク12を用いて収音方向毎に音声信号を順次収音し、最も音声レベルの大きい音声信号をこれに対応する収音方向ともに記憶部13の収音領域に記憶させる。次に、制御部11は方向・辞書テーブル13cを参照し、記憶部13に記憶させた収音方向に対応する辞書を辞書群13bから選択する。制御部11は、選択した辞書と標準辞書13aを読み出し、音声信号の音声認識処理(音声区間検出、音素認識、単語認識、文章認識)を行う。また、制御部11は選択した辞書に記述されていない要素については標準辞書13aを用いるとともに当該辞書にその要素を追加記録し、さらに音声信号に関して話者に固有な特徴も記録する。 (もっと読む)


【課題】単語が発音された場合に発音される可能性の高い発音記号列を精度よく生成するためのテキスト発音記号変換辞書を作成することができるテキスト発音記号変換辞書作成装置を提供する。
【解決手段】テキスト発音記号変換辞書作成装置において、単語と当該単語をセグメントに分割したセグメント分割情報と当該セグメントごとの発音記号とを学習データから取得し、学習データにおける音韻セグメント対の生起確率と連接音韻セグメント対系列の接続確率とを算出し、算出したこれらの確率を含むテキスト発音記号変換辞書を作成する。 (もっと読む)


【課題】大規模なコーパスから、性能を担保しながら小規模なコーパスを選択する。
【解決手段】情報処理装置1は、コーパスが記憶されるコーパス記憶部11と、サブコーパスが複数記憶される13サブコーパス記憶部と、コーパス記憶部11で記憶されているコーパスを文クラスタリングすることによりサブコーパスに分割し、サブコーパス記憶部13に蓄積するコーパス分割部12と、基準コーパスが記憶される基準コーパス記憶部14と、基準コーパスと、複数のサブコーパスとの類似性に関する情報である類似情報をそれぞれ算出する類似情報算出部15と、類似情報算出部15が算出した類似情報を用いて、基準コーパスと類似性の高い1または2以上のサブコーパスを選択する選択部16と、を備える。 (もっと読む)


【課題】語句として認識するべき文字列とその発音を、これまでより精度良く取得する。
【解決手段】本発明のシステムは、語句として認識する候補となる候補文字列を入力テキストから複数選択し、選択したそれぞれの候補文字列について、当該候補文字列に含まれる各文字に対して予め定められた発音を組み合わせることで、当該候補文字列の発音の候補を複数生成し、生成した発音の各候補をそれぞれ各候補文字列に対応付けたデータを、各語句がテキスト中に出現する頻度を示す数値を記録した言語モデルデータと組み合わせて、語句を示す文字列と発音の組ごとにその出現頻度を示す頻度データを生成し、生成した頻度データに基づいて入力音声を音声認識して、入力音声に含まれる複数の語句のそれぞれについて当該語句を示す文字列を発音に対応付けた認識データを生成し、候補文字列および発音の候補の組合せのうち認識データに含まれる組合せを選択して出力する。 (もっと読む)


【課題】制御環境に応じて照合状態を可変して誤認識のリスクを軽減しつつ、かつ音声操作の操作性を向上させる。
【解決手段】音声情報処理部22は、音声出力I/F部14に対して出力する音声データを生成する音声合成エンジン部31と、音声入力I/F部13からの音声入力情報を認識する音声認識エンジン部32とを備えて構成される。音声認識エンジン部32は、可変フィルタ部41、照合部42、コマンド変換部43、フィルタ係数格納部44、照合パターンテーブル格納部45、パターン切替部46、の各部を有している。 (もっと読む)


【課題】高精度な音声認識を実現する。
【解決手段】学習用の音声信号及び該音声信号に対応して書き起こされたテキストから学習した確率モデルを用いて、入力される認識対象の音声信号に対する音声認識を行う音声認識装置において、前記学習用の音声信号に対して音響特徴量の分析を行う音響分析手段と、前記テキストに対して形態素解析を行う形態素解析手段と、前記音響分析手段及び前記形態素解析手段の結果から所定処理時間毎における音声と文字の対応関係を生成するアライメント生成手段と、前記アライメント生成手段により得られる前記対応関係に基づいて、音声と言語の相関関係確率モデルを学習する相関関係確率学習手段と、前記相関関係確率学習手段により得られる相関関係確率モデルに基づいて、前記認識対象の音声信号に対する音声認識を行う音声認識手段とを有することにより、上記課題を解決する。 (もっと読む)


【課題】発声者に固有の特徴を登録情報に有効に反映させる。
【解決手段】記憶装置50は、音声の特徴量CAを含む登録情報Rを記憶する。指標算定部122は、入力音声VINに含まれる音素の個数を反映した音素数指標値Nを算定する。判定部124は、入力音声VINが登録情報Rの作成または更新のための音声として適切か否かを音素数指標値Nに基づいて判定する。管理部14は、判定部124が入力音声VINを適切と判定した場合に限り、入力音声VINの特徴量CAに基づいて登録情報Rを作成または更新する。報知部15は、判定部124が入力音声VINを不適切と判定した場合にその旨を発声者に報知する。 (もっと読む)


【課題】使用者の発話内容を音声認識すること。
【解決手段】前段認識部102は、複数の認識対象語彙に共通して含まれるキーワードの集合を待ち受け単語として、音声入力部101を介して入力された発話音声に含まれるキーワードを認識する。前段認識結果提示部105は、キーワードの認識結果を使用者に提示し、訂正受理部106は、提示した認識結果の訂正を受け付けて、キーワードの認識結果を訂正する。辞書切替部104は、訂正結果を加味して、発話音声を認識するための待ち受け単語辞書を構築し、後段認識部108は、待ち受け単語辞書を用いて発話音声を認識する。 (もっと読む)


【課題】
雑音信号区間の判別精度の向上を図ることを可能とする端末装置及び判別方法を提供する。
【解決手段】
ネットワークを介して音声認識サーバ200に接続された端末装置100が、音声信号区間と雑音信号区間とを判別する音声/雑音判別部130と、音声信号区間に対応する音声信号に基づいて音声信号情報を抽出する音声特徴量抽出部140と、雑音信号区間に対応する雑音信号に基づいて雑音信号情報を抽出する雑音特徴量抽出部150と、音声信号情報及び雑音信号情報を音声認識サーバ200に送信する送信部160とを備え、音声/雑音判別部130が、音声認識を開始する条件である開始条件が満たされるまでの所定区間を雑音信号区間として判別する。 (もっと読む)


61 - 80 / 166