説明

Fターム[5D015HH05]の内容

音声認識 (5,191) | パターン照合による認識 (426) | パターン間の類似尺度の計算 (85) | 重み付けをするもの (47)

Fターム[5D015HH05]に分類される特許

1 - 20 / 47


【課題】音声認識結果の認識信頼度の精度を向上させる。
【解決手段】この発明の音声認識方法は、音声認識過程と、音声文書認識信頼度計算過程と、を含む。音声認識過程は、入力される音声文書を音声認識処理した単語毎に単語認識信頼度を付与した音声認識結果を出力する。音声文書認識信頼度計算過程は、単語認識信頼度から求めた音響信頼度と、音声認識結果を構成する単語間の関連度を示す関連度テーブルを参照して単語毎に当該単語とその他の単語との関連性を表す関連度から求めた文脈信頼度を求め、音響信頼度と文脈信頼度を統合した音声文書認識信頼度を音声文書毎に求める。 (もっと読む)


【課題】音声認識に伴う適応データの文脈依存性のモデリング。
【解決手段】一連の観測値を含む既知の話者から音声入力を受け取り、該一連の観測値から生じる一連の語の尤度を音響モデルを使用して判断し、該音響モデルは、1つの語またはその一部を1つの観測値に関連付ける確率分布を記述する複数のモデルパラメータを有しており、該音響モデルは、第1の学習データを使用して学習され、かつ第2の学習データを使用して前記話者に適応されており、所与の言語に生じる一連の観測値の尤度を言語モデルを使用して判断し、前記音響モデルおよび前記言語モデルによって判断された尤度を組み合わせて前記音声入力信号から識別された一連の語を出力し、該音響モデルは前記話者に対して文脈ベースであり、該文脈ベース情報は、複数の決定木を使用して前記音響モデルに含まれており、該決定木の構造は第2の学習データに基づいている。 (もっと読む)


【課題】音声認識処理を利用するユーザに、自然なかたちで広告単語を提示して広告効果を高める。
【解決手段】広告表示システム100は、入力された音声データに対する音声認識結果の候補となる単語の音響スコア、言語スコア、および総スコアを算出して、総スコアが高い単語を音声認識結果として選出する音声認識部102と、音声認識結果として選出されやすくするための対価として広告料金が支払われる広告単語を記憶する広告単語記憶部120を含み、広告単語と音声データとの類似度が所定の類似許容範囲内の場合に、当該広告単語が当該音声データの音声認識結果として選出されるように調整して、調整した結果を音声データの音声認識結果として表示出力する出力調整部104とを含む。また、広告単語の広告料金のランクが高いほど類似許容範囲が広くなるように設定されている。 (もっと読む)


【課題】電子機器に対するコマンド入力を目的として発せられたものではない音声がコマンド入力を意図したものであると誤認識されることを回避しつつ、連続音声から認識対象音声を切り出してコマンド制御を行うことを可能にする。
【解決手段】マイクロホンにより収音される連続音声にて無音区間で区切られる有音区間の音声を認識対象音声とし、その認識対象音声に音声認識を施して得られる各コマンド候補の尤度を示すスコア値を、その音声の発話速度に応じた第1の重みと当該音声の発話度とコマンド候補の発話速度との比に応じた第2の重みを乗算して補正し、その補正後のスコア値に応じてコマンド候補を絞り込む。 (もっと読む)


【課題】音声認識結果の信頼度計算の処理時間を削減する。
【解決手段】この発明の音声認識装置の音素認識部が、音響モデルからモノフォン音響モデルを抽出し、そのモノフォン音響モデルを用いた認識文法で、音声特徴量系列の音素認識を行い音声ファイル単位で音素認識結果を出力する。そして、事前信頼度計算部は、フレーム毎の音素認識結果の音響スコアから当該フレームに信頼度を付与し、その信頼度を音声ファイル単位で平均した事前信頼度を計算する。音声認識処理部は、音声特徴量系列と事前信頼度を入力として、音声認識処理を行い音声認識結果と事前信頼度を出力する。 (もっと読む)


【課題】予め定めたキーワードについての認識精度を高めた音声認識装置を提供する。
【解決手段】音声認識装置1Bは、特定のキーワードとその品詞を記憶する記憶手段22Bと、前記キーワードに対応する単語を品詞に置き換えて学習した言語モデルを記憶する記憶手段11Bと、言語モデルにおいて、入力音声の単語列に対する確率値が最大となる経路を探索することで、認識結果である単語列を出力する単語列生成手段13Bと、を備え、単語列生成手段13Bが、言語モデルにおいて、キーワードの接続確率値を記憶手段22Bに記憶されている当該キーワードに対応する品詞の接続確率値に基づいて演算することで、キーワードの接続確率値を増加させることを特徴とする。 (もっと読む)


【課題】入力音声からより確実に正しい意図を推定できるようにする。
【解決手段】 マルチマッチング部64は、複数の意図のそれぞれを示す複数の意図情報毎に、ユーザの発話に基づいて入力された音声信号の意図情報に対する適合度を示すスコアを算出する。意図判定部67は、マルチマッチング部64により算出されたスコアに基づいて、複数の意図情報の中から、ユーザの発話の意図を示す意図情報を選択する。意図信頼度算出部68は、意図判定部67により選択された意図情報に対して、マルチマッチング部64により算出されたスコアに基づいて信頼度を算出する。本発明は、産業用ロボットに適用できる。 (もっと読む)


【課題】高速で音声認識を行うことができる音声認識装置を提供する。
【解決手段】音声波形信号をフレーム単位で解析して音声の特徴量を表す特徴ベクトルを抽出する特徴ベクトル抽出部231と、特徴ベクトルを時系列的に複数フレーム分記憶する特徴ベクトル記憶部232と、音声認識候補となる複数の音声を記憶する認識候補音声記憶部233と、特徴ベクトル記憶部に記憶された複数フレーム分における特徴ベクトルに基づき音声認識候補となる各音声の尤度を算出する第1解析部234と、複数フレーム分における特徴ベクトルからフレーム単位あたりの平均特徴ベクトルを算出し当該平均特徴ベクトルから音声認識候補となる音声の尤度を算出する第2解析部235と、第1解析部において算出した音声認識候補となる各音声の尤度及び第2解析部において算出した音声認識候補となる各音声の尤度に基づき一つの音声を決定する音声決定部236とを備える音声認識装置。 (もっと読む)


【課題】 携帯情報端末の機能を最大限に活用し、ユーザの利便性をより高めるとともに、ユーザ独特の入力音声に対しても認識率を高めることを可能とする。
【解決手段】
制御部10は、文字入力予測候補データベース50mを参照した文字入力予測変換処理、及び、その文字入力予測変換処理に応じて文字入力予測候補データベース50mの更新処理を行う。また、制御部10は、音声認識データベース40mを参照した音声認識処理、及び、その音声認識処理に応じて音声認識データベース40mの更新処理を行う。さらに、制御部10は、文字入力予測候補データベース50mの登録情報を音声認識データベース40mへ反映させることで、音声認識処理の際に、音声認識データベース40mのみならず、文字入力予測候補データベース50mをも参照する。 (もっと読む)


【課題】演算量の増大を抑えつつ、スピーカ以外の放音位置を精度良く検出して、当該放音位置に撮像装置の画角を向けることが可能な音声処理装置を提供する。
【解決手段】スピーカ11により放音されてエコー信号b(t)として音声信号m(t)に重畳されてマイクロフォン12a、12bにより検出される伝搬経路の伝達関数h(t)の振幅周波数関数を用いて、音声信号m(t)に対するエコー信号b(t)を除いた音声信号s(t)の割合を示す振幅周波数関数G(ω)を算出し、算出された振幅周波数関数G(ω)を用いて重み付けした方向スペクトルに基づいて音声信号s(t)の放音位置を検出して、検出した音声信号s(t)の放音位置にカメラ13の画角を向けるように制御する。 (もっと読む)


【課題】利用者の嗜好を考慮して、利用者毎に認識精度が高いと感じさせるコンテンツを検索することができるコンテンツ検索装置等を提供する。
【解決手段】コンテンツ検索装置は、音声波形を入力する音響特徴量抽出手段と、認識結果候補の単語列ωに対してその音響特徴量xが観測される音響確率P(x|ω)を出力する音響モデル蓄積手段と、統計的/文法的言語確率Pn-gram(ω)/Pcfg(ω)を出力する言語モデル蓄積手段と、x、P(x|ω)及びPn-gram(ω)/Pcfg(ω)に基づいて、認識結果単語列ω^を出力する音声認識デコーダと、ωを検索キーとして、コンテンツデータベースからコンテンツを検索するコンテンツ検索手段とを有する。更に、利用者の嗜好の度合いを表す嗜好度確率P*(ω)を計算する嗜好度確率計算手段と、Pn-gram(ω)/Pcfg(ω)に、P*(ω)を重み付けた言語確率P(ω)を出力する言語確率算出手段とを有する。 (もっと読む)


【課題】予め決められたキーワードを含む発話を認識し、正確にキーワードを抽出することが可能な音声認識手法を提供する。
【解決手段】音声認識装置は、音響モデルと、言語モデルと、辞書とを使用して音声認識を行う。発話がなされると、発話内容から複数の単語の組合せにより構成される候補パターンが複数作成される。最大のトータルスコアを有する候補パターンが認識結果とされ、辞書を参照してその候補パターンに含まれるキーワードが抽出される。言語モデルにおいては、キーワード類似単語に対する単語列の出現確率及び係数は、当該キーワード類似単語を含む候補パターンの言語スコアが最小値となる値に設定されている。よって、キーワード類似単語を含む候補パターンの言語スコアは最小値となり、認識結果とはならなくなる。その結果、キーワードを含む候補パターンが認識結果となり、そこからキーワードが正しく抽出される。 (もっと読む)


【課題】複数音源の音声を同時認識する音声認識に適したソフトマスクを備え、音声認識率の向上を図る。
【解決手段】音声認識装置は、複数音源からの混合音を分離する音源分離部101と、前記音源分離部が分離を行った際の分離信頼度に対応して、分離された音声ごとに、0から1の間の連続的な値をとりうるソフトマスクを生成するマスク生成部103と、前記音源分離部によって分離された音声を、前記マスク生成部で生成されたソフトマスクを使用して認識する音声認識部105と、を備えている。 (もっと読む)


【課題】オペレータによる処理負担を軽減する。
【解決手段】音声データからのテキスト作成を支援する支援装置であって、音声データ中における既にテキストが確定された確定済部分の発話速度である確定発話速度を算出する確定速度算出部と、音声データ中におけるテキストが未確定である未確定部分の音声認識結果である複数の候補文字列を取得する候補取得部と、複数の候補文字列のうち、確定発話速度で発話した場合の発話時間が、音声データ中における未確定部分の発話時間により近い候補文字列を優先して選択する選択部と、を備える支援装置を提供する。 (もっと読む)


【課題】適切な重み付けでユーザの不快感を軽減できる音声認識装置を提供する。
【解決手段】音声認識装置10は、ユーザからの発話音声を入力する音声入力部11aと、登録語彙を複数記憶した登録語彙記憶部12と、音声入力部11aにより入力された発話音声と、登録語彙記憶部12により記憶された複数の登録語彙との認識照合処理を行う認識照合処理部13と、認識照合処理部13による認識照合結果に基づいて制御機器20を制御する制御信号を出力する制御部14と、ユーザの制御機器20の操作指示に伴って変化する制御機器20の動作状態に対応して、複数の登録語彙のうち、当該制御機器20を制御するための登録語彙について、ユーザによって発話される可能性を推定し、推定結果に応じた重み付けを行う重み設定部16と、を備えている。また、認識照合処理部13は、重み設定部16により設定された重み付けを加味して認識照合処理を行う。 (もっと読む)


【課題】車両のメンテナンスが必要な場面で、車両のメンテナンス時に使用される単語の認識率を向上させることができる車載装置10を提供する。
【解決手段】本発明の車載装置10は、車両のメンテナンスが必要なときに音声認識を行う場合には、車両のメンテナンス時に使用される単語の尤度を上げるか、あるいは、車両のメンテナンス時に使用される単語を格納する第二の辞書データ格納部18を参照することにより、車両のメンテナンス時に使用される単語が認識されやすくなるようにする。 (もっと読む)


【課題】携帯電話22の着信時に、着信応答時に使用される単語の認識率を向上させることができる車載装置10を提供する。
【解決手段】本発明の車載装置10は、携帯電話22の着信時に音声認識を行う場合には、着信応答時に使用される単語のみを用いるか、あるいは、着信応答時に使用される単語の尤度を上げることにより、着信応答時に使用される単語が認識されやすくなるようにする。 (もっと読む)


【課題】特定の場面における音声認識の認識率を向上させることができる車載装置10を提供する。
【解決手段】本発明の車載装置10は、予め登録されたスケジュールに対応する時間帯に音声認識を行う場合には、当該スケジュールのジャンルに対応する辞書を用いて音声認識を行うか、あるいは、当該スケジュールのジャンルに対応する単語の尤度を上げることにより、当該スケジュールのジャンルに対応する単語が認識されやすいようにする。 (もっと読む)


【課題】発話音声を音声認識すること。
【解決手段】CPU1034aは、使用者の発話内容を拘束する拘束性のレベルが異なる複数の言語モデルで表される語彙を、音声認識実行時の認識対象語彙として記憶し、使用者による発話音声を入力し、記憶した認識対象語彙と、入力した発話音声との一致度を演算し、一致度の演算結果に基づいて、認識対象語彙から認識結果候補を抽出し、抽出したそれぞれの認識結果候補の一致度、およびその認識結果候補を含む言語モデルの拘束性のレベルの少なくともいずれか一方に基づいて、認識結果候補の中から認識結果を特定する。 (もっと読む)


【課題】音韻単位という短い時間単位で感情を検出可能で、かつ個人差、言語差、地方差の影響を受けずに発話者の怒りや苛立ちを検出することのできる力み音声検出装置を提供する。
【解決手段】入力音声信号が話者が力んだ状態で発声した音声の信号であるか否かを判断する力み音声検出装置であって、入力音声信号の振幅包絡を抽出する振幅包絡分析部103と、前記振幅包絡分析部103によって抽出された振幅包絡の周期的変動を検出し、検出された周期的変動の周波数を求める変調周波数分析部105と、前記変調周波数分析部105によって求められた前記周期的変動の周波数があらかじめ定められた範囲内にある場合に、前記入力音声信号は話者が力んだ状態で発声した音声の信号であると判定する力み判定部106とを備える。 (もっと読む)


1 - 20 / 47