説明

Fターム[5D015JJ07]の内容

音声認識 (5,191) | パターン照合によらない認識 (78) | 音声パターンの出現確率を利用するもの (39)

Fターム[5D015JJ07]に分類される特許

21 - 39 / 39


【課題】混合モデルの生成に必要な記憶容量を削減する。
【解決手段】特徴抽出部42は、登録区間TRにわたって連続する音信号Sを区分した複数の単位区間Tの各々について複数の特徴量xを順次に抽出する。記憶回路30は、ひとつの単位区間Tの複数の特徴量xを記憶する領域A1と、複数の確率分布の加重和である更新混合モデルλBを記憶する領域A2とを含む。モデル生成部52は、領域A1の複数の特徴量xの単位区間モデルλAを単位区間Tごとに生成する。モデル合成部54は、単位区間モデルλAと領域A2の更新混合モデルλBとを合成する。更新部56は、領域A2の更新混合モデルλBを、モデル合成部54が生成した新規な更新混合モデルλBに更新する。更新部56による複数回にわたる更新後の更新混合モデルλBが混合モデルλとして話者認証や話者識別に使用される。 (もっと読む)


機械翻訳のためのシステム、方法、およびコンピュータプログラム製品が提供される。いくつかの実施形態では、あるシステムが提供される。このシステムは、コーパスからのnグラムの集合体であって、各nグラムが、コーパスにおける対応する相対頻度、およびnグラムのトークン数に対応する次数nを有し、各nグラムが、次数n-1を有するバックオフnグラムに対応しているnグラムの集合体と、バックオフスコアの集合体であって、各バックオフスコアがnグラムと関連しており、バックオフスコアが、バックオフ係数、およびコーパスにおける対応するバックオフnグラムの相対頻度の関数として決定されるバックオフスコアの集合体とを含む言語モデルを含む。
(もっと読む)


【課題】発声者が周囲の状況に影響されて通常とは違う発声を行った場合でも精度よく音声認識できる音声認識装置および音声認識方法,音声認識用プログラムを提供する。
【解決手段】人密度推定手段1が、発話者の周囲の人密度を推定し、音声認識手段2が、人密度に基づいて入力音声を音声認識する。例えば、発話者の周囲の電波密度,足音等から人密度を算出し、人密度が高い場合に、早口の音声に対応した音響モデル、または、聞かれてもよい単語を用いた発話に対応する辞書を用いて音声認識処理を実行する。 (もっと読む)


【課題】従来のアフィン変換パラメータの推定方法に、コース/ファイン学習の概念を導入した新しい適応モデル学習方法とその装置、その他の提供。
【解決手段】初期モデル記憶部と特徴量ベクトル変換部と、コース/ファインクラス設定部と、アフィン変換パラメータ学習部と、モデルパラメータ変換部とを具備する。コース/ファインクラス設定部は、混合ガウス分布の各ガウス分布を平均ベクトルと線形変換行列とに分解し、コース/ファイン表現したアフィン変換パラメータと、部分ベクトルと平均ベクトルパラメータとから成る一般化された同次ベクトルとを生成する。アフィン変換パラメータ学習部は、初期モデルと、特徴量ベクトルと、アフィン変換パラメータと、一般化された同次ベクトルとから、アフィン変換パラメータの推定値を潜在モデルに対する統計的学習法によって推定する。 (もっと読む)


【課題】測定値又は観測値の所与の空間的−時間的パターンを実時間で、かつ教師無しで適応学習及し認識する能力を有するシステムを提供する。
【解決手段】システムは、ダイナミック隠れマルコフモデルネットワーク(DHMネット)モデルを表すデータの集合を記憶するモデル記憶部と、現在の状態の変数sCURRと、入力特徴ベクトルXに最も良く整合し、特徴量空間において新たな特徴ベクトルからの距離がしきい値より小さい状態が存在すればこれを次の状態と判断し(378−386)、存在しない場合はネットワークに新たな状態を付加する(388−390)ユニットとを含む。新たな状態は新たな特徴ベクトルXと、現在の状態sCURRとによって定義され、状態sCURRとsNEXTとの間で次の遷移が定義される(392)。 (もっと読む)


【課題】滑らかで自然なアニメーションが得られるようキーフレームとブレンド率を自動的に設定するアニメーション作成装置を提供する。
【解決手段】装置200は、音響モデル170、マッピング定義176、トランスクリプション154を使用し、発話データ152から視覚素を求め、デフォルトのブレンド率を付与して視覚素シーケンス180を作成する視覚素シーケンス作成部230と、視覚素シーケンス180内に定義されるキーフレームからなるキーフレームシーケンス内で、隣接するキーフレームとの間で、顔モデルの変化が最も速いものから順番に、キーフレームを削除するキーフレーム削除部236と、キーフレーム内の発話パワーが小さいときにブレンド率を小さくする調整部244と、画像の変化が速いときにブレンド率を小さくする調整部250と、キーフレーム間のブレンドにより顔画像のアニメーションを作成するブレンド処理部256とを含む。 (もっと読む)


【課題】メモリ容量が小さい小型端末機器でも比較的長い入力音声を音声認識することができる連続音声認識方法、装置を提案する。
【解決手段】探索処理で使用可能なメモリ制限量をあらかじめ設定し、探索処理中の処理繰返回数が所定値に達するごとにメモリの使用量を計測し、計測したメモリ使用量がメモリ制限量を超えた場合に、一旦探索処理を中断し、中断前までに展開した単語列の仮説を基に中断前までの認識結果を部分認識結果として出力し、中断前までに使用したメモリ領域を開放し、メモリ領域解放後に探索処理を再開する。 (もっと読む)


【課題】離散型HMMの探索コストを低減する。
【解決手段】本発明は、入力されたオリジナルのHMMの状態を初期状態確率、状態遷移確率、または、シンボル出力確率を用いて該HMMをクラスタリングすることにより状態数を削減し、クラスタリングされたHMMと該オリジナルのHMMをデータ格納手段に格納し、近似尤度による探索結果から閾値の初期値を計算し、閾値を用いて近似尤度または正確な尤度を計算し、正確な尤度を用いて閾値を更新する。正確な尤度を計算する際には閾値を用いて計算するかしないかを判断することにより枝刈りを行う。 (もっと読む)


【課題】音声認識結果の揺らぎによる誤認識を軽減し、認識率を向上することのできる音声認識装置を提供すること。
【解決手段】音響特徴生成部102は、入力信号に対し音響分析を行って、フレーム毎に、入力信号の音声パワーと特徴ベクトルを生成する。音声検出部103は、音声パワーをもとに、少なくとも音声の終端フレームを検出し、計算区間決定部107は、検出された終端フレームをもとに、該終端フレームを包含する複数フレームからなる処理対象範囲を決定する。照合部105は、モデル格納部104に格納された音響モデル及び言語モデルを利用して、特徴ベクトルの時系列に対するマッチングを行って、各フレームを終端としたときの認識結果候補をそれぞれ求める。認識結果計算部108は、処理対象範囲に含まれる各フレームを終端としたときの認識結果候補をもとにして、最終的な認識結果を求める。 (もっと読む)


【課題】背景雑音以外の要因による信頼度の低下に対応することができ、探索仮説間の尤度分布を考慮し、音声認識する際の認識精度を維持することができる音声認識装置及び音声認識プログラムを提供する。
【解決手段】音声認識装置1は、特徴ベクトル算出手段3によって、入力音声の音響特徴量を算出し、エントロピー算出手段11によって、音響特徴量の出力確率である音響スコアから、探索仮説の各ノードにおける各時刻のエントロピーを算出する。そして、音声認識装置1は、信頼度算出手段13によって、エントロピーから、各時刻における音響スコアの重み付けを変更する基準となる信頼度を算出し、音響スコア重み付け変更手段15によって、信頼度に基づいて、音響スコアの重み付けを変更する。 (もっと読む)


【課題】統計的スムージングを使用した統計的言語モデリングの方法を提供すること。
【解決手段】統計的言語モデリングのための方法であって、所定の順序で所定の数のワードを提供するステップと、所定の数の一連のワードを含むトレーニングコーパスを提供するステップであって、該一連のワードの各々は、少なくとも1つの追加ワードが後に続く該所定の順序で提供された所定の数のワードからなる、ステップと、ワード候補を提供し、各ワード候補について、該トレーニングコーパスに基づいて、該ワード候補が該提供された所定の数のワードの後に続く確率を計算するステップと、該計算された確率が所定の閾値を超える少なくとも1つのワード候補を決定するステップとを包含する。 (もっと読む)


テストパターンを既定の部類セットからの部類に割当てるため、テストパターンの部類帰属確率と、特徴空間におけるテストパターンの近傍のトレーニングパターン数に基づいて部類帰属確率の信頼区間を計算する。テストパターンの近傍におけるトレーニングパターンの数は、トレーニングパターンの確率密度関数のたたみ込みを、テストパターンを中心とするガウス平滑関数を用いて、計算して得られる。この計算では、トレーニングパターンの確率密度関数がガウス関数の混合として表される。円滑関数とガウス関数の混合とのたたみ込みは分析的に表すことができる。
(もっと読む)


【課題】ビームサーチに基づく方法と基準フレームに基づく方法とを組み合わせて、音声認識性能に悪影響を与えず、効率的に出力確率計算の回数を削減する音声認識装置を提供する。
【解決手段】音響処理部101、音声区間検出部102、辞書部103、照合部104、探索対象選択部105、記憶部106、判定部107を備え、ビームサーチに基づき探索範囲を選択する処理と、基準フレームを設定し記憶する処理と、ある遷移パスにおける出力確率を記憶する処理と、ある遷移パスにおける出力確率が記憶されているか否かを判定する処理とを備え、ビームサーチに基づき探索範囲を選択するとともに、ある遷移パスの出力確率を基準フレームを設定してから更新するまでの区間において1回だけ計算し、その値を記憶し、それ以降のフレームにおいて遷移パスの出力確率が記憶されている場合は記憶値を出力確率の近似値とすることで、出力確率計算の回数を削減する。 (もっと読む)


【課題】 高速音声検索の方法および装置を提供する。
【解決手段】 本願で開示されている主題の実施形態によると、ロバスト且つ並列な検索方法に基づいて、マルチプロセッサシステム内の大きい音声データベースを検索してターゲット音声クリップを特定し得る。大きい音声データベースは複数のより小さいグループに分割されて、これら複数の小グループがシステム内の複数の利用可能なプロセッサに対して動的にスケジューリングされ得る。プロセッサは、各グループを複数のより小さいセグメントに分割して、セグメントから音声特徴を抽出して、共通成分ガウス混合モデル(CCGMM)を用いてセグメントをモデル化することによって、スケジューリングされた複数のグループを並列に処理し得る。1つのプロセッサはさらに、ターゲット音声クリップから音声特徴を抽出してCCGMMを用いて抽出した音声特徴をモデル化し得る。ターゲット音声クリップと各セグメントとの間のカルバック・ライブラー(KL)距離をさらに算出し得る。KL距離に基づいて、セグメントがターゲット音声クリップに一致するか否か判断するとしてもよく、および/または、複数の後続のセグメントの処理を省略するとしてもよい。 (もっと読む)


本発明は、多種類言語に適用可能なコンピュータ使用による聾唖者発音学習支援方法に関する。その解決せんとする技術的課題は、いかにして聾唖児童の両親と教師補助して反複を要し骨の折れる言語指導の活動より解放することである。
本発明は、以下の工程、すなわち、(1)ユーザーに需要に応じて学習の必要がある言語の種類を選択させ、(2)ユーザーに学習の必要がある発音の単位を選択且つ確定させ、(3)コンピュータのディスプレイに学習の必要がある発音と注意すべき要点を表示させ、(4)前記コンピュータの発音受信装置を始動してユーザーによる発音信号の入力を可能にし、(5)前記発音受信装置を操作してユーザーからの発音信号を受信してアナログ/ディジタルの転換を行わせ、(6)前記コンピュータの中央プロセッサーを操作してアナログ/ディジタル転換装置から必要な発音の特徴を抽出し、(7)前記中央プロセッサーによりユーザーの発音の正確度を判別し、(8)前記ディスプレイにユーザーの発音の正確度を表示させる各工程を含む。
従来の技術と比べて、本発明はマルチメディア・コンピュータのハードウェアを用い、コンピュータのグラフィック技術とマルチメディア・コンピュータの発音技術を結合して、ユーザーがそれぞれ異なる母国語を有することに注目し、指導の過程において異なる指導言語を用いることにより、異なる国の聾唖者をその母国語の発音習得について効果的に支援し、それらの発音習得の需要を満足させる。
(もっと読む)


【課題】雑音重畳音声を用いて直接学習された整合モデルを使用する場合と同程度の高い認識精度を得ることができるようにする。
【解決手段】状態jにおける特徴ベクトルxtに対するN個の整合モデルの尤度p(xt|j,n)を算出して、N個の整合モデの中から尤度が最大の整合モデルを探索するモデル探索部11と、モデル探索部11により探索された整合モデルを用いて、状態jにおける特徴ベクトルxtの尤度p(xt|j)を算出する尤度算出部12とを設け、その特徴ベクトルxtの尤度p(xt|j)からマルコフ過程における最適な状態の系列を特定し、最適な状態の系列に対応する語彙を認識する。 (もっと読む)


【課題】方法は、データサンプルを2つのクラスのうちの1つに分類する。
【解決手段】各クラスに関連する混合モデルが存在する。各混合モデルは混合成分を含み、各混合成分は、データサンプルが関連するクラスにあるという関連する尤度を有する。第1の混合モデルが有する混合成分は、第2の混合モデルが有する混合成分よりも少ない。データサンプルが最初のクラスにあるという最大尤度が求められる。第2の混合モデルについて、降順で各混合成分の現在の尤度が求められ、現在の尤度が最大尤度より大きい場合、データサンプルは第2のクラスにあるものとして分類される。そうではない場合、最大尤度が現在の尤度に置き換えられ、上限が求められる。上限が最大尤度より小さい場合、最後の混合モデルに達するまで次の混合モデルについて現在の尤度が求められ、データサンプルは、最大尤度に関連するクラスにあるものとして分類される。 (もっと読む)


【課題】 精度の高い音声理解装置を提供する。
【解決手段】 音声理解装置100において、音声理解結果探索部61が、単語・意味表現組N−グラムモデルDB20を用いて音声理解を行う構成とした。また、音声理解装置100は、単語と意味表現との明確な対応付けがされていない言語コーパス10から、単語・意味表現組のN−グラムモデルである単語・意味表現組N−グラムモデルDB20を作成する単語・意味組N−グラムモデル作成部30を備える構成とした。 (もっと読む)


【課題】 音声情報の特徴を用いて、音声認識結果の要約を適確かつ容易に行うことである。
【解決手段】 音声情報要約装置1は、特徴抽出部4により、音声情報のうち、特徴パターン保持部3内の特徴パターンに合致する音声部分の経過時間帯を特定する。一方で、音声情報要約装置1は、音声認識部5により、上記音声情報から語句を認識し、認識された語句とその語句の存在する経過時間帯とを記憶する。要約作成部6は、双方の経過時間帯を基に、特徴パターンに合致する音声部分と上記語句との対応付けを行い、当該語句を使用して上記音声情報を要約する。 (もっと読む)


21 - 39 / 39