説明

Fターム[5D015GG06]の内容

音声認識 (5,191) | 標準パターンの学習 (485) | 標準パターン学習モードの設定、切換 (19)

Fターム[5D015GG06]に分類される特許

1 - 19 / 19


【課題】対象となる分野またはアプリケーションで発せられる可能性のある自然言語文を効率よく生成できる自然言語文生成装置を提供する。
【解決手段】自然言語文生成装置30は、単語列テンプレートを記憶する拡張テンプレート集合記憶部56と、拡張テンプレート集合記憶部56に記憶された単語列テンプレートに合致する単語列パターンをWebコーパス32から抽出するフィルタ60と、予め選択された目的に沿った形式の自然言語の単語列が生成されるように準備された変形規則を記憶する変形規則記憶部64と、変形規則記憶部64に記憶された変形規則に基づいて、フィルタ60により抽出された単語列を変形する変形モジュール66とを含む。 (もっと読む)


【課題】適応に利用できるデータ量や音素環境のバリエーションを十分に確保して適応効果を享受しつつ、コストの増加を抑えることが可能な音響モデル適応装置を実現する。
【解決手段】相対的に信頼尺度が高い適応用データについてはそのまま用いて教師なし適応を行い、相対的に信頼尺度が低い適応用データのうち信頼尺度が高い適応用データに含まれない音素環境を持つデータについては優先的に人手による音声認識テキストの修正を施して教師あり適応を行い、相対的に信頼尺度が低くかつテキストの修正を施さないデータについては他のデータより低い重みをかけて教師なし適応を行う。 (もっと読む)


【課題】使用者にとって音声認識の精度が十分に高く、かつ音声認識を行なうサーバ側のリソースの肥大化を防止できる情報処理端末を提供する。
【解決手段】情報処理端末20は、音声信号から音響特徴量を抽出する音響信号処理部54及び符号記憶部60と、音響特徴量を音声認識サーバに送信する送信処理部58と、サーバから音声認識の結果のテキストを受信する受信処理部62と、音響モデル68及びカテゴリ別言語モデル66と、受信したテキスト中の、未知語のタグ付けがされた音節列に対応する音響特徴量を符号記憶部60から読出し、音響モデル66と、カテゴリ別言語モデル66の内で未知語のカテゴリに対応する言語モデルとを使用して音声認識を行なう未知語認識処理部92と、受信したテキスト中の未知語を、未知語認識処理部92の出力で置換する未知語入替処理部94とを含む。 (もっと読む)


【課題】音声の認識率を向上することができる処理装置、音声認識装置、音声認識システム、音声認識方法、及び音声認識プログラムを提供する。
【解決手段】本発明にかかる音声認識装置は、環境中に設けられたマイクロフォンで検出した音声信号に対して音声認識を行うための処理を行う処理装置であって、環境中で発生したインパルス応答の残響パターンから拡散残響成分を取り除いた初期反射成分を抽出する初期反射成分抽出処理部11と、初期反射成分を学習用の音声データに反映させて、前記音声認識に用いられる音響モデルを学習する音響モデル学習処理部14と、を備えるものである。 (もっと読む)


【課題】話者に依存する音声認識方法ならびに該方法のための音声認識システムにおいて、新しい命令のトレーニングを、時間を節約し実施できるようにする。
【解決手段】音声認識システムは音声認識モードにあり、ユーザの発話を記録し、この発話から第1の音声パターンを生成する。音声認識システム内で、第1の音声パターンに対応する命令が見つけ出されると、その命令が実行される。音声認識システム内で類似した音声パターンを見つけ出せず、または十分な類似度をもつ音声パターンを見つけ出せず、音声認識システムによっても発話が認識されないとき、音声認識システムは、その発話を新しい命令に即座に割り当てるためのトレーニングモードへの切り替えをユーザに提示する。 (もっと読む)


【課題】管理されていない学習を適用した話し手に依存する(SD)音響モデルの生成前および生成中においても、良好に機能する音声認識方法を実現する。
【解決手段】純粋な話し手に依存しない(SI)音響モデル230,232と少なくとも等しい音声認識レベルを与えるために、少なくとも1つのSI音響モデル230,232と、少なくとも1つの話し手に依存する(SD)音響モデル234とが組み合わされ使用されている。そして、管理されていない学習を連続的に行うことによって、1つ以上の音響モデルにおける音響テンプレートを更新する。その後、更新したSD音響モデル234を、少なくとも1つのSI音響モデル230,232と組み合わせる。これによって、音声認識テストを行っている間であっても高い音声認識性能を得る。 (もっと読む)


【課題】患者の前で使用した言葉を、音声認識によるテキスト変換時にその診察や検査などが行われた場面や状況に応じて適切な言葉に変換し、電子カルテやレポーティング装置などに表示させる医療支援装置を提供する。
【解決手段】患者の医療情報を表示手段013に表示する医用支援装置であって、あらかじめ音声を文字に変換する言語モデル及び音響モデルを含む複数の辞書、及び事前に登録された単語と辞書との対応を記憶しておく記憶手段004と、音声が入力される音声入力手段011と、操作者により入力された音声を文字に変えるための変換条件を基に辞書を複数選択する変換制御手段002と、変換条件に応じて選択された辞書及び登録された単語と辞書との対応を参照して、入力された音声を認識し文字に変換する認識変換手段001と、変換された文字を表示手段013に表示する表示制御手段005とを備える。 (もっと読む)


【課題】 電話等から取得される音声を認識する際に、処理速度を低下させることなく、音声認識精度を向上させる。
【解決手段】 予め、顧客情報データベース71に、氏名等と、個人等の住所等とを関連づけて蓄積しておき、住所等の音声データ、及び氏名等の音声データを取得し、この取得した音声データから文字列を認識し、住所等に基づいて絞り込まれた検索結果から、氏名等の音声データに基づいて氏名等を認識する。 (もっと読む)


【課題】音声認識手段としては、幾つかの認識手段が提案されているが、これら何れにおいてもユーザの要求を満たす認識語彙を備え、且つ効率よく目的とする語彙を検索することが出来る認識辞書の実現に難点があった。本発明においては、少ない発話回数でユーザの必要とするタスクを実行出来る音声認識装置およびその方法の提供を目的とした。
【解決手段】本発明においては、認識辞書に年間行事を含むカレンダーデータベースを記録しておき、このデータベースに記憶された行事に関連する語彙を優先語彙と決定し、この語彙を優先的に認識処理を行うように、例えば階層構造に割り当てる語彙の順序を変える等、認識辞書での語彙配列の内容を更新する構成としている。 (もっと読む)


【課題】 ユーザに関する情報を予め保持しておくことなく、音響モデルなど様々なシステムに関する適応を可能にする音声認識装置を得る。
【解決手段】 画面制御用記述言語解析部3で、画面制御用記述言語に含まれる特定の情報を解析する。適応化情報決定部9は、特定の情報に対応した適応化情報のデータを保持しており、画面制御用記述言語解析部3の解析結果に基づいて、特定の情報に対応した適応化情報を決定する。音声認識部8は、適応化情報決定部9で決定した適応化情報に基づいて、画面制御用記述言語に基づいて表示された画面に対して入力された音声の音声認識を行う。 (もっと読む)


【課題】 複数のマイクで集音して音声認識を行う場合に音声認識性能を向上させる。
【解決手段】 人体から離して用いられ、人の発話音声の空気伝導音を集音する非接触型マイクと、人体に接触させて用いられ、人の発話音声の体内伝導音を集音する接触型マイクとで集音した音声を音声認識用の言語辞書を用いて認識する場合に、接触型マイクへの人体の接触を検知し、接触型マイクへの人体の接触が検知されると、言語辞書の中の接触型マイク用として予め設定した言葉のみを用いて接触型マイクにより集音した音声の認識処理を行う。 (もっと読む)


【課題】 認識対象となる連続入力音声に対して音声入力段階における音声セグメンテーションを要することがないとともに、認識率を高める。
【解決手段】 音素の特徴を保持した音響モデルと、発話内容を保持した言語モデルと、音素と形態素の対応を保持した辞書とを用いて入力音声の認識を行う装置であって、複数の文をポーズ記号で連結した上記言語モデルと、上記ポーズ記号に対応する音素の特徴を含めた上記音響モデルと、上記ポーズ記号に対応する要素を含めた上記辞書と、上記入力音声中の上記ポーズ記号の位置を検出する第1の認識手段と、検出された上記ポーズ記号以前であって上記入力音声の先頭もしくは前回のポーズ記号以降の上記入力音声を1文として発話区間の判定を行う判定手段と、判定された発話区間に対し音声認識を行う第2の認識手段とを備える。 (もっと読む)


【課題】 ユーザの属する地域が変わったことを通知すると共に、ユーザに音声認識辞書を切り替える意思があるかどうかを確認し、ユーザからの指示を受けてから辞書を切り替えることによって、使用する音声認識辞書に関してユーザの意思を正確に反映させる。
【解決手段】 スイッチ−表示装置5は表示パネルを有しており、スイッチの表示によって車両の走行地域が変化したことを通知し、辞書切り替えを行うかどうかを確認する。また、スイッチ操作によってユーザからの辞書指示を受け付け、対話形式制御部9を介して辞書切り替え指示部4に対し切り替え指示を与える。音声出力装置8は走行地域が変化した旨の通知や辞書切り替えの確認を音声にて行う。対話形式制御部9には地域解析部7が接続されており、ここから解析結果を定期的に取得してその走行地域が現在使用中の音声認識辞書に対応する地域と一致しているかどうかを監視する。 (もっと読む)


隠れマルコフモデル、ベイズ理論、線形判別分析などの確率モデルによる音声認識、文字認識、画像認識などのパターン認識、ベイジアンネットなどの確率モデルによる意図理解、確率モデルによるデータマイニングなどに用いる高精度な標準モデルを提供する標準モデル作成装置であって、1以上の参照モデルを準備する参照モデル準備部(102)と、参照モデル準備部(102)が準備した参照モデル(121)を記憶する参照モデル記憶部(103)と、参照モデル記憶部(103)が記憶している1以上の参照モデルに対する確率又は尤度を最大化又は極大化するように標準モデルの統計量を計算して標準モデル(122)を作成する標準モデル作成部(104)とを備える。
(もっと読む)


【課題】車両を降車することなく、煩わしいスイッチ操作も必要とすることなく、精度の良い認識率と素早い処理の音声認識により容易に店舗に対するオーダを可能とする。
【解決手段】車両側情報通信システム1と店舗側の情報通信システム2とは、携帯電話網3を介して、それぞれに設けられている通信部4,5により情報を送受信可能に構成される。音声認識部6は、マイク7により入力されたドライバの音声を、音声認識し、ドライバのオーダを決定して店舗側情報通信システム2に送信する。ここで、音声認識は、音声認識部6に予め設定されている単語辞書と店舗側情報通信システム2から送信されてくる単語辞書を切替えながら行われ、また、ドライバの音声入力は、スピーカ8による音声出力と液晶ディスプレイ9によるガイド表示を基に対話型の方式で実行される。 (もっと読む)


【課題】 電話番号入力時の音声認識率を向上させること。
【解決手段】 使用者によってマイク101を介して入力された発話内容の音声信号とメモリ1034bに読み込んだ言語モデルに含まれている各待受け単語との一致度演算を行って音声認識を行い、音声認識結果をスピーカー102を介して出力する。音声認識結果に誤認識が発生しており、使用者によって訂正スイッチ104bが押下された場合には、メモリ1034bに読み込まれている言語モデルの種類に基づいた訂正時用のガイダンス音声をスピーカー102を介して出力する。 (もっと読む)


【課題】実使用時に入力される音声や雑音などの音に合わせて音響モデルを適応化させることで認識精度を向上させた音声認識機能付制御装置を提供する。
【解決手段】音声認識機能付制御装置Aは、特徴量抽出部2によって抽出された音声信号の特徴量と音響モデル保存部3に保存された音響モデルとを比較することで入力音を認識する認識部4と、認識結果に応じた制御信号を照明装置Bに出力する制御部6と、入力音声保存制御部7に保存された音声信号と対応する認識結果とを用いて音響モデルを再学習し、音響モデル保存部3の音響モデルを更新する音響モデル学習部8とを備え、認識結果の出力時より所定の限時時間が経過するまでの間に認識結果とは制御内容の異なる制御信号がスイッチ5から出力されると、入力音声保存制御部7は認識結果を修正し、修正した認識結果と対応する音声信号を用いて音響モデル学習部8に音響モデルを再学習させる。 (もっと読む)


【課題】撮影した画像に対して音声でコメントを入力した際の雑音環境や、発声した人の性別、年齢といった、音声付与条件を考慮した音声認識結果に基づく検索方法を用いることにより、より精度の高い検索を可能にする。
【解決手段】画像データとこれに対応する音声データがアップロードされると、音声データに対して、複数種類の音響モデルによる音声認識処理を施して複数種類の音声認識結果を取得する。そして、アップロードされた画像データと、複数種類の音声認識結果とを対応付けて、各音声認識結果と音声認識処理(音響モデル)との対応を識別可能にメモリに格納する。 (もっと読む)


話者に依存する音声認識のための方法であって、以下のステップを有しており、すなわち:音声コマンドを含む音声信号(SS)を検出し;当該音声信号(SS)を複数の時間フレームに分解し(F);相応する特徴ベクトル(F_IS)を形成することによって、検出された各時間フレーム内の前記音声信号を特徴付けし;1つまたは複数の特徴ベクトル(F_IS)から、特徴ベクトルシーケンスを形成し;当該特徴ベクトルシーケンスを格納し;前記特徴ベクトルシーケンスを音声リソース(HMM−L1)内のモデルベクトルのシーケンスに割り当て、ここで当該音声リソースは多数のモデルベクトルを有しており;割り当て情報を格納し、ここで当該割り当て情報は、前記モデルベクトルのシーケンスへの前記特徴ベクトルシーケンスの割り当てを示しており;前記モデルベクトルシーケンスに割り当てられた音声コマンドを認識する、ステップを有している、話者に依存する音声認識のための方法。
(もっと読む)


1 - 19 / 19