説明

Fターム[5D015GG00]の内容

音声認識 (5,191) | 標準パターンの学習 (485)

Fターム[5D015GG00]の下位に属するFターム

Fターム[5D015GG00]に分類される特許

21 - 40 / 166


【課題】音声認識システムに使用する、文法の適合度を評価する技術を提供する。
【解決手段】文法構造内から複数のステートメントを受け取る(701)。前記ステートメントを単語セット単位で整合させることによって、前記ステートメントにわたって幾つかのアライメント領域が特定される(703)。前記ステートメントにわたって、幾つかの混同可能性ゾーンが特定される(705)。前記特定された混同可能性ゾーンのそれぞれについて、当該混同可能性ゾーン内の単語の音声的発音が解析され、前記演算イベント中に音声認識システムによって聴取できる状態で処理される際の、前記単語間の混同確率の尺度が決定される(707)。文法構造の改善を容易にするために、前記ステートメントにわたる前記混同可能性ゾーンの識別子と、その対応する混同確率の尺度とが報告される(709)。 (もっと読む)


【課題】モデル化対象を適切に表現するHMMを得る。
【解決手段】構造調整部16は、HMMの状態の中から、分割を行う分割対象と、併合を行う併合対象とを選択し、分割対象の分割と、併合対象の併合とを行う。構造調整部16は、HMMの各状態から各状態への遷移確率をコンポーネントとする状態遷移行列から、注目状態からの遷移確率、及び、注目状態への遷移確率を除いた部分状態遷移行列の固有値の和と、状態遷移行列の固有値の和との差である固有値差値を、注目状態を分割対象等に選択すべき度合いを表す対象度合い値として求め、対象度合い値が分割閾値より大の状態を、分割対象に選択するとともに、対象度合い値が併合閾値より小の状態を、併合対象に選択する。本発明は、例えば、HMMの学習に適用できる。 (もっと読む)


【課題】音声認識用の文法知識を備えていない場合でも、一般のユーザーが音声認識処理可能な構文の文法を簡単に構築できるようにする。
【解決手段】文法生成手順は、入力記憶領域に記憶した開始語、中間語及び終了語に基づき、開始語、中間語及び終了語からなる一連の文の音声入力を音声認識するための文法を構築する。更に、文法生成手順は、少なくとも、ルート規則生成手順と、中間語規則生成手順とを含む。ルート規則生成手順は、左辺に開始記号を配置すると共に、右辺に、開始語用非終端記号または開始語用終端記号、第1の中間語用非終端記号、及び、終了語用非終端記号または終了語用終端記号をこの順に配置したルート規則を生成する。中間語規則生成手順は、左辺に第1の中間語用非終端記号を配置すると共に、右辺に第1の中間語用非終端記号よりも下位の階層となる第2の中間語用非終端記号を配置した中間語規則を生成する。 (もっと読む)


【課題】3以上のクラスからなる時系列信号を効率的に精度よく識別することができる、時系列信号識別装置、時系列信号識別方法、およびプログラムを提供する。
【解決手段】識別器生成装置1は、時系列信号に正しいクラスが対応付けられた学習データAを取り込む。そして、弱識別器ht,kによる学習データAの識別結果と、その学習データAの正しいクラスとの一致度を示す識別スコアrt,kを計算し、識別能力が最大となるように弱識別器ht,kを設定して識別器100を生成する。時系列信号識別装置2は、識別器100を取得し、クラス毎に強識別器Hkを生成して、識別対象データ(時系列信号)のクラスを識別する。 (もっと読む)


【課題】音響モデルと言語モデルを同一のモデルで表現する。
【解決手段】この発明の音響モデルパラメータ学習方法は、モデルパラメータ初期化過程とモデルパラメータ更新過程を含む。モデルパラメータ初期化過程は、認識スコアを求めるモデルパラメータを初期化する。モデルパラメータ更新過程は、特徴量ベクトルを入力としてその特徴量ベクトルとモデルパラメータの内積値の累積に基づく目的関数が外部から与えられ、その目的関数を最大化するモデルパラメータを、上記初期化されたモデルパラメータを更新して求め、各音素に対応する所定フレーム数から成る部分モデルパラメータを出力する。 (もっと読む)


【課題】音声認識システムを持つ各種情報装置において,装置が想定しない発話が装置利用者から発せられたときに,その発話を棄却することで,誤動作する割合を大幅に減らす。
【解決手段】音声認識システムを持つ各種情報処理装置1において,言語モデル学習手段10が情報処理装置1の想定しない文章をモデル化することで言語モデル7を作製し,音声認識辞書作製装置11が想定しない単語を登録した音声認識辞書8を作製する。音声認識手段3がこれらの言語モデル7と音声認識辞書8,音響モデル9を用いて音声入力手段2より入力された人間の発話を音声認識すると,音声認識結果6には各種情報処理装置1が想定しない単語であるというタグ(ラベル)が付いているため,処理手段4において自動的に情報処理装置1が想定しない発話を棄却することで,出力手段5において誤動作することを防ぐ。 (もっと読む)


【課題】明確に単語・音素誤り数との強い関係を持った識別学習用の目的関数を用いる。
【解決手段】本発明の音響モデルパラメータ学習装置は、エラー値カウント部、微分値算出部、音響モデルパラメータ更新部、収束判定部を備える。記録部は、危険度重み付きの目的関数を記録している。エラー値カウント部は、あらかじめ定めた粒度で、シンボル系列ごとに教師ラベルとの相違度を、危険度として求める。微分値算出部は、危険度の重みが0のときの微分値または差分を求める。音響モデルパラメータ更新部は、微分値もしくは差分に応じた更新量だけ音響モデルパラメータを更新する。収束判定部は、音響モデルパラメータの更新があらかじめ定めた条件を満たす場合には、更新後の音響モデルパラメータを求める音響モデルパラメータとし、当該条件を満たさない場合には、微分値算出部と音響モデルパラメータ更新部の処理を繰り返す。 (もっと読む)


【課題】従来と同等な推定精度を確保しつつ汎用の計算機でモデルパラメータの推定処理を可能とする。
【解決手段】それぞれ重要度ei,jが割り当てられ素性ベクトルで表現された複数のシンボル系列fi,jからなる1以上のリストiと各リストiの正解シンボル系列fi,0とが入力され、モデルパラメータを推定する装置であり、グルーピング部とマージング部とモデルパラメータ推定部とを備える。グルーピング部はリストに属する複数のシンボル系列fi,jを複数のグループに分ける。マージング部はグループ内の複数のシンボル系列fi,jから代表シンボル系列fi,xを、グループ内の複数のシンボル系列fi,jに対応する複数の重要度ei,jから代表重要度ei,xをそれぞれ求める。モデルパラメータ推定部は代表シンボル系列fi,xと正解シンボル系列fi,0と代表重要度ei,xとからモデルパラメータを推定する。 (もっと読む)


【課題】Conditional Random FieldsもしくはGlobal Conditional Log-linear Modelsを用いる学習装置において、学習精度を向上させ、モデル性能の向上を図る。
【解決手段】複数のシンボル系列の素性ベクトルと、対応する正解シンボル系列の素性ベクトルと、各シンボル系列のシンボル系列重みとからなるリストの集合を学習データとして取り込むリスト入力部11と、目的関数のパラメータ初期化部21と、パラメータと素性ベクトルの内積により線形スコアを算出し、その線形スコアとシンボル系列重みから指数スコアを算出するリスト内処理部22と、リスト内処理部22で算出された全ての指数スコア及び素性ベクトルを用いて目的関数及びその傾きを算出する目的関数算出部23と、前記傾きから目的関数の収束を判定する収束判定部24と、パラメータを更新するパラメータ更新部25とを備える。 (もっと読む)


【課題】従来、音声翻訳において使用する音声認識辞書、翻訳辞書、および音声合成辞書において不整合があった。
【解決手段】2以上の言語について、音声認識、翻訳、音声合成に利用する全言語用語情報を2以上格納し得る全言語対辞書格納部と、全言語について、用語の音声認識情報を含む音声認識用情報を取得し、1以上の音声認識サーバ装置に送信する音声認識用情報送信部と、全言語について、用語の表記を含む翻訳用情報を取得し、1以上の翻訳サーバ装置に送信する翻訳用情報送信部と、全言語について、用語の音声合成情報を含む音声合成用情報を取得し、1以上の音声合成サーバ装置に送信する音声合成用情報送信部とを具備する辞書サーバ装置により、辞書間の不整合を解消できる。 (もっと読む)


【課題】ユーザーによって日ごろ慣れ親しんだ言い回しで発声された場合でも、音声認識を可能とするための発音情報を生成することができる発音情報生成装置を提供すること。
【解決手段】本発明の発音情報生成装置は、表記情報と属性情報とが関連付けられて保持されるテキストデータベース2から、表記情報を抽出する表記情報抽出部4と、表記情報抽出部に抽出された抽出表記情報と関連付けられた属性情報をテキストデータベースから抽出する属性情報抽出部6と、表記情報に付加するための付加語情報を保持する付加語情報保持部から、属性情報抽出部に抽出された抽出属性情報に基づいて付加語情報を抽出する付加語情報抽出部と、付加語情報抽出部に抽出された抽出付加語情報を用いて抽出表記情報の発音情報を生成する表記発音情報生成部と、を有する。 (もっと読む)


【課題】識別的学習法の計算量を削減する。
【解決手段】この発明の相違度利用型識別的学習装置は、モデルパラメータ記録部と、パターン認識部と、識別関数値生成部と、相違度算出部と、正例認識比較部と、モデルパラメータ最適化部とを具備する。相違度算出部が認識シンボル系列と正例との相違度を算出し、正例認識比較部がN個(N≧2)の減衰係数と識別関数値と相違度を入力としてそのN個の減衰係数を用いて正例側統合値及びその正例側統合値を補正するための統合値を求め、上記正例側統合値を補正した目的関数を出力する。 (もっと読む)


【課題】逐次変化するバイアスに対して,モデル分布のばらつきに対応して性能の良いバイアス補正を行うこと。
【解決手段】パターン認識装置は、入力データから特徴ベクトルを計算する特徴ベクトル計算部と、1以上の平均ベクトル及び1以上のパターンの分散を表す分散ベクトルで表されるモデルと特徴ベクトルとの距離が所定の範囲内である選択モデルを選択するモデル選択部と、選択モデル毎の平均ベクトルと特徴ベクトルとの差ベクトルの成分毎の距離から所定の係数を乗じた分散ベクトルの成分の値を減じた値に差ベクトルの成分と同一の正負の符号を乗じた値が成分である修正方向ベクトルを、選択モデル毎に計算し、さらに修正方向ベクトルを重ね合わせたベクトルに係る補正ベクトルを計算する補正ベクトル計算部と、補正ベクトルにより特徴ベクトルを補正する特徴ベクトル補正部と、補正された特徴ベクトルによりパターン認識を行うパターン認識部とを有する。 (もっと読む)


【課題】音声の動的信号そのものを高精度にモデル化することを可能にし、これにより、高精度の音声認識や特徴量生成を可能にするに音声信号モデルを用いた音声信号モデル化方法を提供する。
【解決手段】状態方程式(a)及び観測方程式(b)による複数の異なる線形動的システム
xt=Fxt−1+Gwt+ut …(a)
zt=Cxt+vt …(b)
但し、F、C、G:変換行列、xt、zt、wt、vt:確率変数、ut:固定値
を時間毎に切り替えることによって観測信号をモデル化する音声信号モデルであって、状態方程式(a)のシステム入力utを観測値ytとし、観測方程式(b)の変換行列Cに非因果的フィルタを用い、前記観測方程式(b)の観測値ztを非因果的フィルタの動きを規定する目標値mqtとする音声信号モデルを用いた音声信号モデル化方法である。 (もっと読む)


【解決手段】コンピュータ実装された音声処理は、第2言語のネイティブであるが第1言語の非ネイティブである話者による第1言語における入力単語の1以上の発音を生成する。入力単語を1以上の発音に変換する。各発音は前記第2言語に関連づけられた音素セットから選択された1以上の音素を含む。コンピュータデータベースのエントリにおいて入力単語に各発音を関連づける。データベースの各発音に発音言語および/または音素言語を特定する情報を関連づける。 (もっと読む)


【課題】本発明は、様々な正則化基準に適応でき、少ないトレーニングデータからでも頑健な音響モデルを作成することを目的とする。
【解決手段】本発明の音響モデル作成装置は、正解統計量算出部、事前分布算出部、デコーダー、エラー統計量算出部、重み付き差分統計量算出部、音響モデル更新処理部を備える。正解統計量算出部は、正解統計量を正則化基準ごとに求める。事前分布算出部は、正規化基準に従って事前分布を算出または設定する。デコーダーは、混同しやすい学習用データをエラー候補として生成する。エラー統計量算出部は、エラー統計量を正則化基準ごとに求める。重み付き差分統計量算出部は、正解統計量とエラー統計量との重み付き差分統計量を求める。音響モデル更新処理部は、事前分布と重み付き差分統計量から音響モデルまたは事後分布を求め、求めた音響モデルに更新、または求めた事後分布を記録する。 (もっと読む)


【課題】発音変動を考慮することにより認識性能を向上させ、かつ実用的な音声認識のためのシステム等を提供する。
【解決手段】音声認識装置200と、音声認識装置200による音声認識処理に用いられる認識グラフを作成する前処理装置100とを備える。前処理装置100は、言語モデルを推定する言語モデル推定部110と、単語とその表記通りの音素列および発音変動を表現した音素列の情報との対応情報を保持する認識単語辞書部130と、言語モデル推定部110により推定された言語モデルおよびこの言語モデルに含まれる単語に関する認識単語辞書部130に保持された対応情報とに基づいて、認識グラフを作成する認識グラフ作成部140とを備える。そして、認識グラフ作成部140は、一定以上の単語数から構成される単語列に含まれる単語に対して当該単語に関する発音変動を考慮した音素列を適用して、認識グラフを作成する。 (もっと読む)


【課題】信頼性のある音素変異の認識を可能にする統計的発音変異モデルを記憶する記録媒体を提供する。
【解決手段】統計的発音変異モデル(BNレキシコンモデル)を記憶する記憶媒体であって、モデル100は複数の音素発音変異項目を含む。発音変異項目の各々は、音素の基本形102と、音素の基本形102の表面形104と、基本形の文脈による知識源の組108、110、112及び114と、文脈による知識源の組108、110、112及び114によって決定される文脈において表面形104が基本形102から生じる確率とを含む。 (もっと読む)


【課題】音声データを効率よく収集することのできる情報収集装置、その方法およびそのプログラムを提供すること。
【解決手段】サービス提供サーバ100は、認証を行うとともに、画像表示されたテキストに対する音声データを収集する機能を有する。記憶手段として、音声情報データベース101と、音声候補データベース102と、検索履歴データベース103と、を備えている。また、演算処理手段として、音声入力要求手段110と、画像変換手段120と、音声情報取得手段130と、音声認識手段140と、登録判定手段150と、音声登録手段160と、サービス提供判断手段170と、サービス提供手段180と、テキスト抽出手段190と、を備えている。 (もっと読む)


音響モデルの適合のための方法およびシステムについて開示する。ユーザ端末は、テキストコーパスの音素分布を決定し、音響モデルの適合前後における、その音響モデルの音素の音響モデル利得分布を決定し、前記音素分布および前記音響モデル利得分布に基づいて、望ましい音素分布を決定し、望ましい音素分布に基づいて適合用の文章を生成し、適合用文章を話すことをユーザに要求するプロンプトを生成してもよい。 (もっと読む)


21 - 40 / 166