説明

Fターム[5D015GG01]の内容

音声認識 (5,191) | 標準パターンの学習 (485) | 標準パターンの置換、更新 (134)

Fターム[5D015GG01]に分類される特許

121 - 134 / 134


【課題】音声認識による認識誤りを、ユーザがより効率的に且つ容易に訂正できる音声認識装置を提供する。
【解決手段】
音声認識手段5は、音声入力手段から入力された音声に含まれる複数の単語を予め辞書手段に記憶されている複数の単語とそれぞれ比較し、競合候補の中から一番競合確率の高い単語を認識結果とする。単語訂正手段9は、画面に表示された単語列を構成する複数の単語を訂正する単語訂正機能を有している。競合単語表示指令手段15は、競合候補の中から単語列の単語の競合確率に近い競合確率を持つ競合単語を選び、それを対応する単語に隣接して画面上に表示させる。競合単語選択手段17は、画面上に表示された1以上の競合単語から適切な訂正単語を選択する。単語置き換え指令手段19は、競合単語選択手段17により選択された訂正単語を、音声認識手段5により認識された単語と置き換える。 (もっと読む)


【課題】従来、雑音抑圧処理を用いたとしても完全な雑音除去ができないため、乗法性歪みに加え加法性雑音が重畳した音声の認識精度向上は困難であった。また、クリーン音声モデルと雑音モデルとの合成を音声信号の入力後に行っていたため、遅延が生じていた。
【解決手段】音声信号が入力される前に、少なくとも観測した雑音から雑音モデルを学習し、クリーン音声モデルと雑音モデルとの合成、観測した雑音を重畳した基準信号の特徴パラメータの長時間平均の計算を行っておく。音声信号が入力されると、雑音が重畳された音声信号の特徴パラメータを抽出し、特徴パラメータの長時間平均を計算し、モデル照合尤度計算を行う。 (もっと読む)


【課題】
簡単な手法でありながら、ロバストかつ正確な音声認識を可能とする雑音下音声認識のためのモデル適応手法を提供する。
【解決手段】
各周波数における音声のスペクトル密度値の対数値xの分布パラメータと、加法性雑音のスペクトル密度値の対数値nの分布パラメータ及び/或いは乗法性雑音のスペクトル密度値の対数値hの分布パラメータから、これらの雑音が重畳した音声のスペクトル密度値の対数値yの分布パラメータを推定することによるモデル適応法において、x, n, h, y の間の非線形の関係を多項式で近似することで、y の分布パラメータを推定する。 (もっと読む)


着信による通話開始時に、発信者の個人情報の表示を行う通信端末において、登録された個人の個人情報と個人の声紋情報とを対応づけて記憶するデータベースとしてのFLASH−ROM10と、着信による通話開始時に発信者の音声から発信者の声紋情報を抽出する声紋分析部6と、発信者の声紋情報とデータベース内の声紋情報とを比較することによりデータベース内の個人の中から発信者を特定するMPU7と、特定された発信者の個人情報を表示する表示部としてのLCD17とを備えた。
(もっと読む)


【課題】 簡易な操作によって確実に、目的とする操作指令を入力でき、これによりユーザの利便性を飛躍的に向上させ得るリモートコントロールシステムを提供する。
【解決手段】 リモコン端末200から音声入力があると、音声認識部107にて音声認識され、キーワードが抽出される。かかるキーワードをもとに、検索式生成部110にて検索式が生成され、検索部111にて選択候補となり得る制御項目が検索される。かかる制御項目は、出力情報生成部113にて、テレビ画面上に表示される。ユーザは、リモコン端末200をポインティングデバイスとして用いて、表示された制御項目のうち、所望の制御項目を選択指示できる。しかる後、操作キーの“選択”キーを操作すると、当該制御項目の制御コードが取得され、テレビ300に送信される。 (もっと読む)


【課題】 多言語対応の音声認識機能を搭載した場合の操作性の悪化を防止する。
【解決手段】 静止画像及び動画像の撮影記録が可能とされ、メニュー画面や各種の設定画面を複数種の言語のうち予め選択されたUI用言語で表示すると共に、撮影時に録音された音声に対し、複数種の言語のうち設定された言語で音声認識を行って字幕データを生成する機能を備えた撮影記録装置において、音声認識の実行にあたり、認識対象音声の設定が"AUTO"か否か判定し(120)、判定が肯定された場合はUI用言語として設定されている言語を、音声認識における認識対象言語として自動的に設定し(122)た後に、音声認識を行う。音声認識によって得られた字幕データは、動画像の再生時に字幕として表示される。 (もっと読む)


【課題】 特定個人の音声を認識するために、該特定個人に、音声の登録を要求するなどの煩雑な処理を必要とすることなく、特定個人の音声の認証を高精度に行える安価な通話装置を提供する。
【解決手段】 本発明の携帯電話2は、音素辞書33に基づき、入力された音声がユーザの音声であるか否かの認証を行う適合率計測確認部45と、特定個人の通話中の音声を取得する音声入力部25と、取得された音声に基づき、特定話者サンプル情報36を作成し音素辞書33を更新するサンプル作成部44とを備えている。 (もっと読む)


【課題】 音響モデルを用いた尤度計算を行う際に、精度を落とさずに計算量を削減する。
【解決手段】 音声認識装置は基本的に、1または2以上の状態で所定の音声単位の標準パターンを表す音響モデルと、前記音響モデル(103,104)を用いて、入力音声の特徴量に対して各々の認識対象単語の尤度を計算する尤度計算手段(105)と備えている。ここで、前記音響モデルは、第1の音響モデル(103)および、この第1の音響モデル(103)よりも精密度の低い第2の音響モデル(104)を含み、前記尤度計算手段(105)は、着目する状態について、その状態が前記認識対象単語の単語先頭から何番目の状態であるかに応じて前記第1および第2の音響モデル(103,104)を切り換え使用して尤度を計算する。 (もっと読む)


【課題】ライブ・スピーチの聞き手が、スピーチの間に発音された語句に関連する補足情報に、スピーチの直後に、またはその後でアクセスできるようにするためのシステム、方法、およびコンピュータ・プログラムを提供すること。
【解決手段】システムは、ハイパーリンク(すなわち、URL)と、スピーチの途中で話し手側によって発音される可能性が高い、選択された語句または単語とを結びつける。話し手側装置(すなわち、マイクロホンが接続されたコンピュータ・システム)で動作する音声認識システムは、スピーチの間に、そのハイパーリンクされた語句のいずれかが話し手側によって発音されたことを認識し(ワード・スポッティングし)、認識されたハイパーリンクされた語句が発音された時刻を記録する。また、システムは、同一のユニバーサル・タイムによる話し手側装置と何台かの聞き手側装置(例えば、ワークステーション、ポータブル・コンピュータ、PDA−パーソナル・デジタル・アシスタント、スマート・フォン、または他の任意の種類のハンドヘルド・コンピュータ装置など)との同期に基づくシステムであり、したがって、話し手によって送信され、聞き手によって受信される情報の流れは、話し手側と聞き手の相対的な位置関係とは無関係に常に同期している。聞き手は、スピーチの間に興味のあるトピックに気づくたびに、単に聞き手側装置の予約キーを押すことによって即時にトピックを選択する。聞き手がトピックを選択したときのユニバーサル・タイムは、聞き手側装置に格納される。
(もっと読む)


ボイスタグエディタは、ボイスタグ“読み”対をボイスタグ辞書のために生成する。ボイスタグエディタは、ユーザによって入力された英数字を受け取る。英数字は、ボイスタグ及び/又は“読み”テキストを示している。ボイスタグエディタは、ユーザにこれらの英数字を閲覧させ、編集させるように構成されている。テキストパーサは、ボイスタグエディタに接続され、“読み”テキストに対応する正規化テキストを生成する。正規化テキストは、ボイスタグの認識テキストを意味し、ボイスタグエディタによって表示される。記憶装置は、このエディタに接続されている。記憶装置は、ボイスタグ“読み”対を表す英数字を用いて辞書を更新する。 (もっと読む)


【課題】取込メディアの検索および再生を容易にする。
【解決手段】メディア取込装置は、メディア取込アクティビティとの密接な時間的関係においてメディア取込アクティビティに関係する音声入力を有する。各々がメディア取込アクティビティに関連する複数の集中的音声認識辞書は装置に格納され、音声認識部は集中的音声認識辞書のうち選択されたものに基づいてユーザ音声を認識する。メディアタグ付加部は生成された認識テキストを用いて取込メディアにタグ付加し、メディア注釈付加部は音声認識部への入力に適しているユーザ音声のサンプルを用いて取込メディアに注釈付加する。タグ付加および注釈付加は、ユーザ音声の受け取りと取込メディアの取込との密接な時間的関係に基づく。注釈は、取込メディアを検索するために文字から音声への変換規則,スペル単語入力,または音声への直接一致を使用して辞書の編集に適用される後処理中にタグに変換されても良い。 (もっと読む)


【課題】ユーザの発声に整合するように発音データを蓄積した音声認識辞書を生成する。
【解決手段】辞書生成制御部5は、地名データベース1に蓄積された地名を表すテキストをスペル変換部3に供給する。スペル変換部3は、供給されたテキストのスペルを変換ルールテーブル2に記述されたルールに従って、”−”、”?”、”+”、”;”、”/”、”(”、”)”などの記号文字を” ”(スペース)に置き換えることにより変換し、TTSエンジン4に供給する。TTSエンジン4のテキスト解析部7は、テキストを解析しテキストを読み上げた音声を特定するための発音データ8を作成する。辞書生成制御部5は、TTSエンジン4で生成された発音データ8を読み込み、先に地名データベース1より読み込んだテキストと対応づけて音声認識辞書6に格納する。 (もっと読む)


【課題】 音声認識のための演算の負荷を軽減して高速な認識を行う。
【解決手段】 認識ステップを所定回数実行した後、現音響モデルに基づき、既に得られている少なくとも所定数の認識結果に関して貢献の度合いを無視できるモデル関数の組合せの要素を除外することにより、修正音響モデルを生成し、各処理において、この修正音響モデル(MAM)を現音響モデル(CAM)として継続して使用する。 (もっと読む)


【課題】 本発明は音声認識技術に関するものであり、非定常騒音環境下であっても正しく音声区間検出を行うことを目的とする。
【解決手段】 音声認識装置において、音声パワーとノイズパワーの比であるSN比が一定の閾値を超えるか否かで音声スイッチのON/OFFを切り替え、音声スイッチが最後にONになってからT1秒以上経過し、かつ最後にOFFになってからT2秒以上経過し、かつ認識開始後T6秒以内であって、かつ最大SN比がαdB以上であり、かつ認識対象語彙に対する最大尤度がβ以上であるときに、終了検出する手段をもつ音声認識装置。 (もっと読む)


121 - 134 / 134