説明

Fターム[5D015GG04]の内容

音声認識 (5,191) | 標準パターンの学習 (485) | 学習処理時にパターン照合を行うもの (17)

Fターム[5D015GG04]に分類される特許

1 - 17 / 17


【課題】高精度の音響モデルを構築すること。
【解決手段】音響モデル適応装置は、複数の音声認識データの中から、音声認識用のテストデータと音響モデルの学習用の学習データとを選択する選択手段と、学習データを用いて音響モデルの予備的な適応処理を行う第1適応手段と、テストデータを用いて適応処理された音響モデルに基づいて音声認識処理を行う音声認識手段と、その音声認識結果と複数の音声認識データとを比較して認識結果の精度が向上しているか否かを判定する第1判定手段と、その判定結果に基づいて音声認識データの信頼度を変更する信頼度変更手段と、変更された信頼度に基づいて音声認識データを判別するデータ判別手段と、判別された音声認識データを用いて音響モデルの最終的な適応処理を行う第2適応手段と、を備えている。 (もっと読む)


【課題】従来、音響モデルの構築のために、多数の話者が、予め決められた文章を読み上げるなどの作業を行っていた。
【解決手段】音声ファイルを含む1以上のファイルを格納している1以上のサーバ装置から1以上の音声ファイルを取得する音声ファイル取得部と、1以上の音声ファイルから、予め決められた条件を満たすデータであり、音響モデルの構築のために使用しないデータを除いた1以上の音声データを取得する音声データ取得部と、取得された1以上の各音声データを音声認識し、1以上の文字列を有する1以上の文字列情報を取得する音声認識部と、1以上の各音声データと各音声データに対応する1以上の各文字列情報とを有する1以上の音声情報から音響モデルを生成する音響モデル生成部と、音響モデルを蓄積する音響モデル蓄積部とを具備する音響モデル生成装置により、自動的に音響モデルが構築できる。 (もっと読む)


【課題】話者に過度な労力を課すことなく、音響モデルを話者に十分に適合させ、正確な音声認識を可能にする話者適応化装置を提供する。
【解決手段】音声と音響モデルとの近さに基づいて話者適応化の効果を推定する更新効果推定手段107と、文例を提示する文例提示手段101と、文例に基づいて発声された音声を入力する音声入力手段102と、文例および音声入力手段102が入力した音声を用いて音響モデルの話者適応化処理を行う音響モデル更新手段104とを備え、文例提示手段101は、更新効果推定手段107が推定した話者適応化の効果に基づいて文例を提示することを特徴とする。 (もっと読む)


【課題】ラベルあり学習データとラベルなし学習データとを用いた識別モデルおよび生成モデルの統合学習において、識別モデルの性能を高める。
【解決手段】ラベルあり学習データと、ラベルなし学習データとを用いて、識別モデルと生成モデルとを当該2つのモデルのパラメタ間の乖離に対する罰則項を含んだ制約のもと統合的に学習する識別生成モデル統合学習手段500と、識別生成モデル統合学習手段500に与えられる各ラベルなし学習データに対して、識別生成モデル統合学習手段500により学習された識別モデルと生成モデルのそれぞれによりクラスの識別処理を行い、識別モデルと生成モデルの識別結果の差異に基づいて、追加ラベルの付与の必要度を示すラベル付与基準を算出するラベル付与基準算出手段501とを備える。 (もっと読む)


【課題】Viterbiアルゴリズムによる高速性を担保しつつ、学習精度が向上された音響モデル作成装置を実現する。
【解決手段】音声信号から音声特徴量系列oを抽出する特徴量分析部と音声信号に対応する学習ラベルを音素系列に分解し更に状態系列に変換する状態系列変換部と音響モデルを記憶する音響モデル記憶部と音声特徴量系列oと状態系列とから状態系列に対応する音響モデルを用いて前向き計算を行い前向き計算履歴を出力する前向き計算部と前向き計算履歴から最尤パスを求めこれを辿りながら十分統計量を蓄積する十分統計量蓄積部と十分統計量から学習後音響モデルを構築しこれにより音響モデルを更新するモデル更新部とを備え、十分統計量蓄積部での十分統計量の蓄積に際して用いる事後確率変数の値は最尤パスが時刻tに状態iを通る場合には状態出現確率fi(ot)(0≦fi(ot)≦1)でありそれ以外の場所では0である。 (もっと読む)


【課題】音声認識装置の処理効率を向上させる。
【解決手段】この発明の音声認識装置のフレーム音質推定部は、フレーム毎に音声ディジタル信号の音質を評価してフレーム音質を出力し、平均音質推定部は、複数フレームのフレーム音質から音質レベルを推定する。そして、音声認識処理制御部が、音質レベルに基づいて音声認識処理時の動作を制御する制御信号を音声認識処理部出力にする。音声認識処理部はその制御信号に基づいて音声認識処理を行う。 (もっと読む)


【課題】音声認識に用いる音響モデルを学習する音声学習装置を提供する。
【解決手段】本発明の音声学習装置は、複数の発話環境毎の環境依存音響モデルの各々に対して各環境依存音響モデルの各音素ラベルに各発話環境を識別するための発話環境識別子を付した状態でマージし、一連の識別子付き音響モデルを生成する識別子付き音響モデル生成部24と、当該発話環境識別子を付した複数の発話環境毎の環境依存音響モデルの各々を用いて当該学習音声について並列に音声認識を実行し、認識結果を生成する発話環境並列音声認識部26と、生成した認識結果に発話環境識別子を付した状態で書き起こしを作成する識別子付き書き起こし部28と、当該学習音声と前記識別子付き書き起こしを用いて識別子付き音響モデルを識別学習する音響モデル識別学習部29とを備える。 (もっと読む)


【課題】音声データ中から低い認識率の音声データに類似する音声データを選択する。
【解決手段】情報処理装置30は、不特定多数話者の音声データセット242内の各音声データについて、低認識率話者の音声データセット222における平均的な声に対する類似度S0を求める類似度算出部110と、類似度が選択範囲内となる音声データを選択音声データセット232に保存する音声データ選択部112と、音声データセットと選択音声データセットに保存されている音声データとを用いて、音響モデル330を生成する音響モデル生成部と、を具えている。 (もっと読む)


【課題】誤り数別に識別スコアと事後確率を計算する。
【解決手段】この発明の誤り数別識別スコア・事後確率計算方法は、局所スコア・局所誤り計算過程と、誤り数別識別スコア計算過程と、誤り数別事後確率計算過程とを含む。誤り数別識別スコア計算過程は、上記局所スコアと、上記局所誤り数と、上記ラティスとを入力として上記ラティスの誤り数別の識別スコアと、誤り数別前向き累積スコアと、誤り数別後ろ向き累積スコアとを計算する。誤り数別事後確率計算過程は、上記ラティスの誤り数別の識別スコアと、上記誤り数別前向き累積スコアと、上記誤り数別後ろ向き累積スコアと、上記局所スコアとを入力として上記正解シンボル系列が上記ラティスに含まれる各々の有向弧を含むことの事後確率を誤り数別に計算する。 (もっと読む)


【課題】音響モデルの教師なし取得のための改良型の自動化方法およびシステムを提供すること。
【解決手段】教師なし音声の区分化またはSUスポッティングを使用してトレーニングセグメント(X)を見つけ、モデル・プール(P)が空である場合、第1スピーチ・シラブル・モデルをトレーニングし、それをプールに追加する。上記以外の場合は、与えられたセグメント(X)に最良に合致するモデル・プール(P)内の既存のモデル(F)を求め、モデル(F)を使用して新しいトレーニングセグメント(X)をスコアリングし、スコアが事前定義されたしきい値未満である場合は、トレーニングセグメント(X)に対する新しいモデルを作成し、それをプールに追加し、上記以外の場合は、新しいトレーニングセグメント(X)を使用してモデル(F)を改良または再推定する。 (もっと読む)


【課題】 登録者の音声の本来の特徴を登録し、認識誤りが発生する虞を低減させる。
【解決手段】 登録者は、登録者の識別子を入力した後、所定の文言を複数回発音する。
登録者の音声は、音声入力部106に入力され音声データに変換される。CPU102は、音声データから音声の特徴量を抽出し記憶部105に記憶させる。記憶部105に記憶された各発音の特徴量のうち、共に記憶された他の特徴量との距離が所定値以上に大きな特徴量は記憶部105から消去される。この後、CPU102は、記憶部105に記憶された特徴量の平均値を求め、求めた平均値を、入力された識別子と対応付けて発音者の音声の特徴量として記憶部105に記憶させる。 (もっと読む)


【課題】 認識精度を向上させる。
【解決手段】 音声変化度計算手段111は登録音声11を入力して音声変化度を計算し、音声登録判定手段112は、計算された音声変化度に基づき、入力した登録音声11を登録するか否かを判定する。登録音声変更要求手段113は判定結果が登録不可の場合に登録音声変更要求12を出力し、音声標準パタン生成手段115は、判定結果が登録可能の場合に、入力した登録音声11により音声標準パタンを生成する。 (もっと読む)


【課題】所望のサイズの音響モデルを、自動的に得ることができる音響モデル自動調整装置を提供する。
【解決手段】構造変更前の音響モデルと閾値とが入力され、入力された構造変更前の音響モデルの構造を変更する音響モデル構造変更部と、音響モデル構造変更部で変更した音響モデルのサイズと所望の音響モデルサイズとを比較し、変更した音響モデルのサイズと所望の音響モデルサイズに等しいか、近い値である場合、終了と判定する終了判定部と、音響モデル構造変更部に入力される閾値と、結果として得られる構造変更後の音響モデルサイズと、閾値の下限及び上限の関係から閾値を更新し、閾値の更新により音響モデル構造変更部で音響モデルサイズを変更させ音響モデルサイズを所望の値か又はそれに近い値に自動的に調整する閾値更新部を備える。 (もっと読む)


【課題】音声認識に用いる単語リストの性能を評価することができる認識性能推定装置及び単語リストに含まれる単語の中から認識障害となる単語を抽出することができる認識障害単語抽出装置を提案する。
【解決手段】対象単語と対立単語の二単語を入力とし、単語類似度を算出する単語類似度算出手段と、対象単語と単語リストを入力とし、単語誤認識スコアを算出する単語誤認識スコア算出手段と、単語リストを入力とし単語リストに含まれる全ての単語の平均的な単語誤認識スコアを算出する平均単語誤認識スコア算出手段と、単語リストに含まれる単語数と平均単語誤認識スコアと、音声認識処理において解候補を探索する際に設定される候補数絞込み基準値の三要素を入力として、音声認識率の推定値を算出する音声認識率推定手段とを備える音声認識性能推定装置および単語リストの中から認識障害となる単語を抽出する認識障害抽出装置。 (もっと読む)


【課題】 発話者の発話の仕方に左右されずに発話内容の識別誤り率を低減できる発話識別方法及び発話入力されたパスワードの識別誤りを低減するパスワード照合装置を提供する。
【解決手段】 発話内容に対する唇の縦幅と横幅の変化パターンから異なる発話内容で変化パターンの類似性が高いものは同一グループ、異なる発話内容で変化パターンの類似性が低いものは別グループとし、発話内容をグループ分類に基づいて識別する。また、パスワード登録者の発話状態を撮像するカメラ2と、撮像画像から唇の縦幅と横幅の変化パターンを測定する画像処理部3と、画像処理部3の測定データとデータベース5の登録グループ分類データからパスワード登録者の発話したパスワードを認識する発話識別部4と、発話識別部4の認識結果と登録パスワードを照合する照合部7とを備える。 (もっと読む)


【課題】 学習データ量に係わらず認識率の高い音響モデルを作成する。
【解決手段】 初期音響モデルを記憶した初期音響モデル記憶部と、学習データを記憶した学習データ記憶部とを備え、初期音響モデルと学習データ記憶部から取得した学習データから音響モデルのガウス分布平均ベクトルの移動ベクトルを求め、この移動ベクトルを用いて初期音響モデルを上記学習データに適応した適応音響モデルに変換する音声認識用音響モデル作成方法であって、移動ベクトルを方向ベクトルとスケーリングファクタに分解し、方向ベクトルをコースクラスのパラメータ推定における学習により求め、上記スケーリングファクタをファインクラスのパラメータ推定における学習により求める。 (もっと読む)


【課題】 認証対象者が意識することなく生態情報を利用して本人確認が実行され、かつ低コストで認証対象者、管理者、運営者に優しい、容易に実行できるシステムを提供する。
【解決手段】 認証対象者が正当な者であるか否かを生態情報を利用して判定する本人認証システムが、予め顔紋情報等の登録対象者に関する情報をデータベースに登録し、認証を実行する際にICカードを有する認証対象者の顔画像を収録し顔紋情報を抽出してICカード内の識別標識に該当する登録対象者の顔紋情報との適合率を、さらに音声から声紋を抽出して声紋情報との適合率を評価し個人特定する。加えて、これらの適合率を掛け合わせて評価し、さらに個人ID情報、ICカード内容との一致を併せて評価することにより個人特定する。途中で特定された場合は、以降のステップを省略する。 (もっと読む)


1 - 17 / 17