説明

Fターム[5D015GG01]の内容

音声認識 (5,191) | 標準パターンの学習 (485) | 標準パターンの置換、更新 (134)

Fターム[5D015GG01]に分類される特許

81 - 100 / 134


【解決課題】不要な単語が辞書にエントリされることがないようにする。
【解決手段】単語区切り付き処理対象データが示す施設名称の基本単語に基づいて、単語の展開を実施し(102)、生成された展開単語の1つを取り出し、取り出された展開単語が最も高い重要度である重要度1の基本単語を含むか否かを判定し(104)、展開単語内の全ての基本単語の重要度が0である場合、辞書にエントリせず、一方、展開単語内の少なくとも1つの基本単語の重要度が1である場合には、単語区切り付き処理対象データが示す施設名称の展開単語として、対象となる展開単語を辞書にエントリする(108)。 (もっと読む)


【課題】容易に音響モデルの教師なし適応に適した精度の高い音声認識結果を選択し、選択した音声認識結果を用い、精度の高い音響モデルを構築する。
【解決手段】信頼度付与部150が、音声認識結果を用い、当該音声認識結果の単語系列を分割した発話系列毎に、認識率の推定値である信頼度を算出し、発話選択部160が、音響モデルの認識率と発話系列毎の信頼度とを用い、音響モデルの適応に用いる発話系列を選択し、音響モデル適応部170が、発話選択部160が選択した発話系列及び当該発話系列に対応する特徴量を用い、音響モデルの適応を行う。 (もっと読む)


【課題】 入力される音声情報を極めて高い音声認識率で認識して、使用者の操作を必要とすることなく自動的に文字情報に変換する。
【解決手段】 制御部1は、webページ取得部10によって、ネットワークから得られるwebページに含まれている画像情報をHTML解析部11および画像データ解析部12によって解析し、画像情報から抽出した文字列をキーワードリスト保存部13に登録する。そして、音声入力部5から入力された音声がキーワードリスト保存部13に登録されているいずれかの文字列と一致するか否かを音声認識部6によって判断して、一致すると判断した場合には、文字描画部7によって文字列をビットマップの文字画像に変換し、認識された音声に対応する映像と文字画像とを文字合成部8によって合成して新たな画像情報を生成する。 (もっと読む)


【課題】人間の発話音声に含まれる発話様式や感情表現などの複数のスタイルの表出度合いを同時に検出することを目的とする。
【解決手段】音声のスタイル検出装置10は、発話音声から音響特徴パラメータを抽出する音響分析手段11と、音響特徴パラメータに「丁寧」「ぞんざい」「楽しげ」「悲嘆」といった発話様式・感情表現を表わす多次元のスタイルベクトルを付与して学習データを生成するスタイルベクトル付与手段12と、スタイルベクトルを付与した学習データを用いて音声単位HMM(隠れマルコフモデル)15を学習する音声単位HMM学習手段14と、学習した音声単位HMM15と発話音声から抽出した音響特徴パラメータとを用いてスタイルベクトルを推定するスタイルベクトル推定手段16とから構成される。 (もっと読む)


【解決手段】音声認識方法およびシステムが開示される。話者の発話の音声信号が取得される。発話の音声信号から実行時ピッチが決定される。実行時ピッチに基づき話者が分類され、話者分類に基づき一つ以上の音響モデルパラメータが調節される。パラメータ調整は、認識中のいかなる瞬間にも実行することができる。続いて、音響モデルに基づき発話の音声認識分析が実行される。 (もっと読む)


【課題】ユーザの声紋パターンを登録しておくことで、暗証番号を入力せずに認証を行うことができ、且つ画面を確認しながら音声応答できることで操作の利便性を向上させる画像形成装置を提供する。
【解決手段】この画像形成装置100は、図示しない利用者の音声を電気信号に変換するマイク8と、合成音を発音するスピーカ9と、キーや液晶表示パネルから構成される操作表示部10と、マイク8、スピーカ9及び操作表示部10の信号をインターフェースするユーザインターフェース7と、利用者の音声を認識し、認識した音声からキーワードを抽出する音声認識部4と、指定した音声を合成して出力する音声合成部5と、声紋の特徴を抽出し登録されている声紋パターンと照合する声紋認証部6と、対話を記述した文書を解釈する対話インタプリタ3と、ファイル情報を記憶するハードディスク2と、を備えて構成される。 (もっと読む)


【課題】 アクセント型に関する詳しい知識を持たないユーザが、単語に対して所望するアクセントを登録することは困難であった。
【解決手段】 単語の読みとアクセント型を単語辞書に登録する際に、前記単語辞書に登録された単語について、その読みに基づき音声認識文法を生成し(S104)、前記音声認識文法に従った発声をユーザに促し(S105)、ユーザの発声を音声認識して単語のアクセント型を決定し(S106,S107)、当該アクセントによる音声合成結果をユーザが確認した後(S108,S109)、当該アクセント型を単語辞書に登録する(S110)。 (もっと読む)


【課題】音声は経年変化により変動することを考慮して、登録話者の識別器を低いコストで更新できる話者照合装置等を提供すること
【解決手段】登録話者音声特徴量データを登録話者の話者識別器に入力して仮説スコアを取得しこの仮説スコアを要素とする複数のベクトルからなる登録話者スコアベクトル列を生成する機能と、背景話者音声特徴量データを登録話者の話者識別器に入力して仮説スコアを取得しこの仮説スコアを要素とする複数のベクトルからなる背景話者スコアベクトル列を生成する機能と、登録話者スコアベクトル列と背景話者スコアベクトル列とを記憶装置18に格納する機能とを備えた更新用データ生成手段17を備えた更新用データ生成装置10。 (もっと読む)


【課題】ICレコーダーなどの音声信号記録装置で一旦コーデック変換した音声信号を精度良く音声認識し、リアルタイム処理及びバッチ処理のいずれの処理も可能な音声通訳システムを提供する。
【解決手段】音声認識装置220は、音声認識に先立ち、音声信号記録装置210のモニター機能を利用し、コーデック変換部212で圧縮及び伸張された音声信号を用いて、音声認識させたい人の声の特徴データを抽出するトレーニング作業をリアルタイムで行い、抽出された特徴データをトレーニングデータとして記録する。次に音声認識装置220は、前記トレーニングデータに基づき、コーデック変換部212からの音声信号をテキストデータに変換する。その後、翻訳装置230で音声認識によって得られたテキストデータを翻訳し、音声合成装置240で、翻訳によって得られたテキストデータを音声合成し、得られた音声信号を音声として再生する。 (もっと読む)


【課題】 クライアント端末装置の処理能力が小さくてもユーザの要求を満たす語彙を供給するようにする。
【解決手段】 第1音声認識部112Bは音声前処理部112Aより出力された音声特徴量に基づき、入力された音声を第1認識辞書113を用いて音声認識する。結果判定部115は第1音声認識部112Bにより音声認識された認識結果の信頼性を判定し、該認証結果を受理するか棄却するかを判定し、その結果、認証結果を棄却するものとした判定された場合には、通信部116は、他の音声認識手段としてのサーバ装置120からの認識結果を受信する。結果出力部11は受理された認証結果,又は通信手段116により受信したサーバ装置120からの認識結果を出力し、辞書更新制御部119は確定結果入力部118により入力された確定結果に基づき、第1認識辞書113を更新する。 (もっと読む)


【課題】ユーザーが使用したい音声認識システムが複数存在する場合においても、ユーザーが音響モデルを何度も作成する必要がなく、かつ、各システムにて高精度の音声認識が可能となる音声認識システムを提供する。
【解決手段】音声認識システム1は、以下のような構成要素からなる。音響モデル作成装置50はユーザーを特定話者とした音声認識用の音響モデル51を作成する。携帯端末装置2は音響モデル作成装置50から取得した該音響モデル51を記憶し、該音響モデル51を、特定話者の音声認識を行なう音声認識装置100に向け出力する。音声認識装置100は携帯端末装置2から音響モデル51を取得する認識装置側音響モデル取得手段6と、取得した該音響モデル51を登録する音響モデル登録手段5Fと、入力された音声波に含まれる認識対象情報を、該音声波と音響モデル51との情報比較に基づいて認識・特定する音声認識手段とを備える。 (もっと読む)


【課題】 周囲の環境が時々刻々と変化する環境において、より確実に音声認識を行う。
【解決手段】 車載用音声認識装置は、取得した音声の中の発話部分でない音声を抽出し背景音声として優先度とともに記憶する。優先度の高い順に抽出された複数の背景音声と音声モデルとを用いて、発話部分の音声を認識する。最も信頼性の高い語句の候補を最終的な音声認識結果として出力する。ユーザから認識結果の訂正要求を受け付けた場合、その語句を高スコアで認識するのに用いられた背景音声の優先度を下げる。 (もっと読む)


【課題】受信可能な放送局が頻繁に変化した際においても、辞書更新頻度を少なくしてマイクロコンピュータに対する負荷を少なくし、安定に動作させる。
【解決手段】移動体用情報装置は、移動体に搭載され、少なくとも放送局名を含む放送信号を受信する放送受信機11,13と、放送局名が登録された認識辞書30と、放送局名を示す音声入力を音声認識する音声認識手段27とを有し、認識辞書を参照して音声認識結果に応じた放送局名に係る放送局を選局する。さらに、移動体用情報装置は、放送信号の受信に応じて辞書を更新する認識辞書更新手段26と、放送信号を受信した際辞書を更新した更新内容を参照して当該放送信号を送信する放送局と更新内容との間に変化があるか否かを判定して変化があった際移動体の移動状況又は放送信号の受信状況に応じて辞書更新手段による辞書の更新頻度を変更する辞書更新判定手段25とを有している。 (もっと読む)


【課題】 音声認識を用いた対話処理で、認識対象語彙を削減する。
【解決手段】 表示画面に表示されていない項目を検知し、検知した項目に対応した音声認識文法を用いて、受信した音声情報を認識し、認識した結果を用いて、前記項目にデータを設定する。 (もっと読む)


【課題】 販売員の説明内容が商品の特徴等を過不足なく含んでいるか否かをチェックすることが出来る、商品の販売支援装置を得る。
【解決手段】 音声認識部3は、音声言語による商品説明を受入れて、文字言語による商品説明に変換し、キーワード格納部5は、上記商品説明に含ませるべきキーワードを予め格納し、キーワード抽出部6は、文字言語による商品説明と、上記キーワード格納部5が格納するキーワードとを照合し、一致するキーワードを抽出し、発言内容確認部8は、キーワード抽出部6が、上記商品説明に含ませるべきキーワードを抽出できないと、欠落しているキーワードを含めることを販売員に要求する。 (もっと読む)


【課題】 本発明は、音声認識辞書を各ドライバに適合するように構成することが可能な車載音声認識装置の提供を目的とする。
【解決手段】 本発明は、各認識対象語に対して少なくともその地理的情報が付与された音声認識用のデータを保有するデータベースを備え、該データベースの中からドライバに応じたデータを読み出して該ドライバ用の音声認識辞書を構成し、該音声認識辞書を用いてドライバの発する音声に対する音声認識処理を行う車載音声認識装置において、車両の走行履歴をドライバ毎に記憶し、該記憶した走行履歴に基づいて、各ドライバに応じた前記音声認識辞書を構成することを特徴とする。 (もっと読む)


【課題】 精度の高い音声理解装置を提供する。
【解決手段】 音声理解装置100において、音声理解結果探索部61が、単語・意味表現組N−グラムモデルDB20を用いて音声理解を行う構成とした。また、音声理解装置100は、単語と意味表現との明確な対応付けがされていない言語コーパス10から、単語・意味表現組のN−グラムモデルである単語・意味表現組N−グラムモデルDB20を作成する単語・意味組N−グラムモデル作成部30を備える構成とした。 (もっと読む)


【課題】 この発明は、音声認識候補が複数存在する場合に、ユーザが画面をあまり注視しなくても目的の語句を容易に選択できるようになる音声認識装置を提供することを目的する。
【解決手段】 第1の音声認識手段によって抽出された認識語句が複数存在する場合には、それらの認識語句を音声認識候補として、各音声認識候補に対応する関連語句を、関連語データベースを参照して抽出する関連語句抽出手段、関連語句抽出手段によって抽出された各関連語に対応する音声データ毎に、その関連語句に対応する認識語句を記憶した第2の音声辞書を作成する辞書作成手段、各音声認識候補とそれに対応する関連語句とを示す音声認識候補選択画面を表示させる表示手段、ならびに関連語句が音声入力された場合に、入力された音声データに対応する認識語句を、第2の音声辞書を参照して抽出する第2の音声認識手段を備えている。 (もっと読む)


【課題】 ユーザが施設名を省略して発音した場合でも、所望の施設を抽出することができる可能性を高めるようにすると共に、音声認識の処理の時間を短くできるようにした「音声認識装置及び音声認識方法」を提供する。
【解決手段】 施設名の主要な部分を音声認識の対象として音声認識辞書に登録することにより、所望の施設が抽出される可能性が高くなると共に、誤って発音されたり省略されて発音されたりする読み方の候補を音声認識辞書に全て登録する場合に比べて、音声認識辞書に登録される読み方の候補の数を減らすことができ、音声認識辞書のデータ量を減らすことができる。また、現在位置により特定される辞書IDの辞書のみを対象として認識処理することにより、検索対象となる候補の数が絞られるので、音声認識辞書の全てを検索する場合に比べて、音声認識の処理の時間を短くすることができる。 (もっと読む)


【課題】相手が子供や幼児であっても、適切な対話を行うことができるようにする。
【解決手段】音声により単語又は語句が入力されたことに応答して、所定の単語又は語句を音声により出力して対話を行うに際し、多数の単語又は語句を所定の各語彙レベル又は語彙ジャンルに対応付けた語句データを記憶し、入力される単語又は語句の語彙レベル又は語彙ジャンルとして、前記語句データ中の対応する単語又は語句の語彙レベル又は語彙ジャンルを取得し(ステップS37)、出力する単語又は語句の語彙レベル又は語彙ジャンルを、前記取得される語彙レベル又は語彙ジャンルに基づいて決定し(ステップS39〜S41)、出力する単語又は語句を、前記決定される語彙レベル又は語彙ジャンルのものであることを条件として前記語句データ中の単語又は語句のうちから選択する(ステップS42)ようにする。 (もっと読む)


81 - 100 / 134