説明

Fターム[5D015GG00]の内容

音声認識 (5,191) | 標準パターンの学習 (485)

Fターム[5D015GG00]の下位に属するFターム

Fターム[5D015GG00]に分類される特許

141 - 160 / 166


【課題】危険が検知されたときには必ず動作し、効果的かつ効率的に使用される音声認識装置を提供すること。
【解決手段】音声を入力する音声入力手段10と、音声入力手段10によって入力された音声を情報信号に変換する音声認識手段20と、危険を検知する検知手段30と、検知手段30によって危険が検知されたときに音声認識手段20の動作を開始させるスイッチ手段40とを有し、音声入力手段10によって入力された音声を操作信号R100として操作対象機器に送り出すことを特徴とする音声認識装置を構成する。 (もっと読む)


【課題】信頼度の算出に用いられるHMMを用いた音響尤度を計算する際に、入力音声の音素と音響モデルとの適合性の確率を計算して音響尤度を算出している。しかし、発話単位で考えると、入力音声と整合性のある音響モデルで必ず音声認識を行っているとは限らない。したがって、全体的には高い認識精度を得ることができる入力音声と音響モデルの組み合わせでも、発話単位ではモデルと適合することができず、認識精度が低くなってしまうことがある。
【解決手段】発話単位に複数の音響モデルを用いて認識した結果に音響尤度を示す情報を付し、入力音声と各音響モデルとの整合性を、事前に学習・記録した結果と比較して判別し、整合性の高い音響モデルを用いた認識結果を出力する。 (もっと読む)


【課題】手動のスイッチ操作を何ら必要とせず、術者が意図した期間においてのみ、音声認識を有効にすることができる内視鏡装置を、提供する。
【解決手段】音声認識回路40は、マイク30からの音声信号が入力されると、その音声信号を文字コードに変換する。音声認識回路40は、文字コードが示す文字列が所定のキーワードに一致すると、それ以後に変換される文字列がコマンド表中に定義されている何れかのコマンドに対応した文字列に一致するか否かをチェックし、前者が後者に一致した場合には、後者に対応付けられているコマンドをシステムコントロール回路42に入力する。 (もっと読む)


【課題】特定のASRタスクのための音素基本単位セットを最適化可能にする。
【解決手段】特定のASRタスク用に音素基本単位セットを最適化するための方法は、コンピュータ読出可能なフォーマットで音素の基本単位セットを準備するステップ(100)と、基本単位セットにリーブ・ワン・アウト法を適用することによって複数個の基本単位サブセットを生成するステップ(102)と、基本単位サブセットの各々について言語的識別力の所定の尺度を計算するステップ(104)と、基本単位セットを、基本単位サブセットのうち最も高い言語的識別力を備えたもので置換えるステップ(106、108及び112)と、生成するステップ、計算するステップ、及び置換えるステップを、所定の基準が満たされるまで繰返すステップ(110)とを含む。 (もっと読む)


【課題】雑音環境下で頑健で、より正確な音声認識を可能とし、且つ音声認識処理中の省電力化を図る音声認識システムを提供する。
【解決手段】マイク20とCCDカメラ22から入力される音声と画像の各信頼度を車両の状態(エンジンコントローラ30からの車速V、エアコンコントローラ24からのエアコン風量T等)に基づき算出し、算出した各信頼度に基づき入力音声及び入力画像をディジタル信号に変換する音声符号化部46と画像符号化部49の各サンプリングレートを算出する。変換されたディジタル信号と、このサンプリングレートに対応して参照される音声辞書56a〜56c、画像辞書62a〜62cを比較する。このため、車両の状態に応じた正確な音声認識ができる。また、サンプリングレートを過度に高くすることが回避されることから、省電力化が図れる。 (もっと読む)


【課題】性能を維持しつつ、確率モデルを効果的に圧縮可能にする。
【解決手段】HMMモデルを圧縮する方法は、HMMモデルの確率密度関数(pdf)カーネル20、22、24、26、28及び30の平均を第1のセントロイドカーネル40及び42にクラスタリングするステップと、pdfカーネル20、22、24、26、28及び30の分散を第2のセントロイドカーネル50及び52にクラスタリングするステップと、pdfカーネル20、22、24、26、28及び30の各々を、第1のセントロイドカーネル40及び42のうちpdfカーネルの元の平均に最も近いものの平均と、第2のセントロイドカーネル50及び52のうち元のpdfカーネルに最も近いものの分散とによって再定義するステップとを含む。 (もっと読む)


【課題】 連続する有音声区間の途中で背景騒音の種類が変動した場合であっても、それぞれの背景騒音の種類に対応する音響モデルを用いて高精度に音声認識処理を行う。
【解決手段】 入力音声から音響特徴量を抽出しこの音響特徴量と音響モデルとを照合して上記入力音声を認識する音声認識装置2において、
音声認識装置2が使用される使用状況を取得するセンサである使用状況検知部104と、
上記センサが取得した使用状況の変化に応じて異なる音響モデルと上記音響特徴量とを照合する照合部108とを備えた。 (もっと読む)


【課題】言語Aを母国語とする話者の非母国語音声を高精度に音声認識可能な音響モデルを生成する多言語話者適応方法、装置を提案する。
【解決手段】音声分析部701と、言語判定部711と、言語判定部711による判定結果言語の発音辞書702と、発音付与部708と、n個の言語の音響モデル703−1〜703−nと、話者適応部709を備え、この多言語話者適応装置における話者適応部709から出力されるn個の言語の特定話者音響モデルを多言語音声認識装置におけるn個の言語の音響モデルとして用いる。 (もっと読む)


【課題】発話をその構成要素である単語に効率的かつ正確にセグメント化する方法を提供する。
【解決手段】 インドネシア語の音響モデルのためのトレーニングデータセットを準備するのに用いられる辞書32を準備する方法は、インドネシア語の音韻と英語の音韻とのマッピングデータ54を準備するステップと、インドネシア語の単語とその単語に関連するインドネシア語の音韻とを各々が含む複数のエントリを含む辞書56を準備するステップと、辞書の各エントリについてインドネシア語の音韻をそれぞれの音韻がマッピングされている英語の音韻と置きかえるステップ58とを含む。 (もっと読む)


【課題】 外部記憶装置に書き出した地点情報をナビゲーション装置本体の内部の地点情報として取り込まなくても、音声認識の対象語句とする。
【解決手段】 地点情報として音声認識対象語句を外部記憶装置15に記憶させる地点情報記憶部161と、外部記憶装置に記憶された地点情報に音声認識対象語句が含まれるか否かを判定する音声認識対象語句判定部171と、音声認識対象語句と判定された語句をナビゲーション装置本体内部に設けられた音声認識辞書18に登録する音声認識辞書登録部172を有する。ユーザの発話データと対応する音声認識対象語句が登録されているか否かを音声認識処理部173によって検出し、検出された音声認識対象語句に基づいて外部記憶装置15内部から地点情報を読み出す地点情報読出部162と、読み出された地点情報を当該地点情報に対応する地図データと共に表示手段10に表示する地図表示部43とを有する。 (もっと読む)


【課題】反響を含む音声の音声認識精度を向上させる。
【解決手段】音声認識対象とは異なる環境において、観測された音声信号に対し、残響除去を施し、残響除去が施された音声信号の音響モデルパラメータを推定し、音響モデルパラメータの推定結果に従って音響モデルを構築すると共に、音声認識時は認識対象とする音声から残響を除去し、残響が除去された音声で音響モデルを適応化し、残響除去時に受けた歪みを除去して音声認識を実行し得るようにし、この結果として認識精度を高めた。 (もっと読む)


本発明は、複数の環境条件及び複数の話者に対するトレーニングデータを提供する話者非依存の音声認識システムに話者依存表現を組み込む方法を提供する。話者依存表現は、特徴ベクトルのシーケンスに変換され、生成された特徴ベクトルのシーケンスに対する最小距離を持つ話者非依存のトレーニングデータのセットの混合確率密度が決定される。そして決定された混合確率密度が、話者依存表現の隠れマルコフモデル(HMM)の状態に割り当てられる。従って、もはや話者依存のトレーニングデータ及び基準が、音声認識システムに明示的に格納されることはない。更に、話者依存表現を話者非依存のトレーニングデータで表すことにより、本質的に環境適合が提供される。更に、本発明は、話者依存表現に基づき、変化する環境条件に対する音声認識システムの堅牢性を実質的に改善する人工的な特徴ベクトルの生成を提供する。
(もっと読む)


【課題】 仮に大きなKを用いたとしても重み付有限状態トランスデユーサを作成することができるようにする。
【解決手段】 音声認識装置に内蔵される認識部に入力される音声認識に必要な情報を生成する重み付有限状態トランスデユーサWFSTの変換情報Nは、
N=opt(optHC*opt(L*G))
によって実現されること。状態番号系列から状態遷移過程を記述するに際し番号上記状態番号系列が同じ場合は一つの状態遷移過程を記述し、二つの状態遷移過程にて受理するカテゴリの一部に重複する音素列が存在する時はこの二つの状態遷移過程を接続して音素環境を除いた音素系列を得る工程を有すること。 (もっと読む)


【課題】 話者の環境において動的に変化する雑音、および資源が限られていることから使用可能な計算能力が限られたシステム(組込み型)で動作する特定の要件に適合した、音声認識の方法およびシステムを提供すること。
【解決手段】 本発明は、音声認識システムを動作させるための方法およびそれぞれのシステムに関し、複数の認識装置プログラムは、音声認識用に活動化させるためにアクセス可能であり、単一の認識装置によって実行される音声認識の結果を効率よく向上させるために必要に応じて組み合される。様々な動作環境の動的に変化する音響条件、および使用可能な計算能力が限られた組込み型システムに適合するために、
a)センサ手段を使用して、たとえば話者および環境雑音などの音声認識境界条件を特徴付ける選択基準データを収集すること(210、220、230、240)、
b)最適な認識装置またはその組合せを複数の使用可能な認識装置から選択する(290)ために、収集されたデータを評価するためのプログラム制御されたアービタ手段、たとえばソフトウェア機構を含む意思決定エンジンおよび物理センサを使用すること(260)、
が提案される。
(もっと読む)


【課題】 特徴抽出部での処理及びパターン認識部での処理を統括的に制御してシステム構成を自己進化的に発展させることにより、パターン認識の処理を高い認識率でかつ効率的に行うことができる自己進化型パターン認識システムを提供する。
【解決手段】 自己進化型パターン認識システム1は、センサから入力された生データである入力データの特徴を抽出して特徴データを出力する特徴抽出部10と、特徴抽出部10から出力された特徴データに基づいてパターン認識の処理を行うパターン認識部20と、パターン認識部20により得られたパターン認識結果に基づいて特徴抽出部10及びパターン認識部20を再構成する強化学習部30と備えている。 (もっと読む)


【課題】音声により所定の情報を入力する際に精度良くかつ短い処理時間で音声認識することができる音声認識装置および音声認識方法を提供する。
【解決手段】辞書切替部13は、制御部11からの制御信号に基づいて、辞書格納部14に格納されている住所辞書41の複数のカテゴリのうちの県名カテゴリを選択する。音声認識処理部12は、音声信号が示す特定の住所を表す音声を、この県名カテゴリに登録されている都道府県名データと照合して、音声認識を行い、たとえば音声認識結果データ「東京都」を辞書切替部13に出力する。辞書切替部13は、この音声認識結果データに基づいて、住所辞書41の県名カテゴリよりも下の階のカテゴリである東京都内の市名カテゴリを選択する。音声認識処理部12は、音声信号が示す音声を、この東京都内の市名カテゴリに登録されている東京都内の市名データと照合して、音声認識を行う。 (もっと読む)


【課題】 音声認識環境によるチャネル変化に強い認識システムの構成と、音声データ区間と音声データ区間内の休止区間の有無に基づく無制限単語認識及び自然語音声認識を行うことができる分散音声認識システム及びその方法を提供する。
【解決手段】 本発明による分散音声認識システム及びその方法は、入力される入力信号から音声区間内の休止区間を検出することによって、単語認識及び自然言語認識を可能にし、且つ、多様な端末が要求する音声認識対象が多様なので、端末の識別子を用いて該当端末が要求する認識語彙群を選別して同じ音声認識システムで多様な認識語彙群(例えば、家庭用音声認識語彙群、車両用テレマティックス語彙群、コールセンター用語彙群など)を処理できるようにした。 (もっと読む)


【課題】ユーザが、音声認識に利用する音声認識辞書がいずれかのものであるかを把握することができること。
【解決手段】音声認識に利用する音声認識辞書と一義的に対応するものであって、当該音声認識に利用する音声認識辞書を特定するためのキャラクターを表示部60に表示する。また、音声認識に利用する音声認識辞書が選択された場合であっても、選択された音声認識に利用する音声認識辞書を特定するためのキャラクターが表示部60に表示される。このようにすることにより、ユーザは、キャラクターから音声認識に利用する音声認識辞書を常に特定することができる。これにより、ユーザが、音声認識に利用する音声認識辞書がいずれかのものであるかを把握することができる。 (もっと読む)


【課題】ハードウェア資源の大幅な増加を伴わず、また実環境での不安定性の少ない特徴をもった、様々な環境で高い認識性能が得られる音声認識装置及び音声認識方法を提供することにある。
【解決手段】減算処理部は、過去Lフレーム分の観測信号Y(f,m−1)〜Y(f,m−L)を記憶する信号記憶部8と、現在の時間フレームの観測信号Y(f,m)から、信号記憶部8に記憶した過去の時間フレームの各観測信号Y(f,m−1)〜Y(f,m−L)に対応する減算係数記憶部9の減算係数α〜αを夫々乗じた信号をパワースペクトル減算してその結果を推定信号Sest(f,m)として出力する減算部10とで構成され、音声特徴量抽出部4は推定信号Sest(f,m)から音声特徴量を抽出する。 (もっと読む)


【課題】 連続した単語の入力を待ち受けて音声認識すること。
【解決手段】 現在ディスプレイ105に表示されているメニューに対応した階層の待ち受け単語を外部記憶装置1035からメモリ1034bに読み込み、現在の階層とそれより下位の階層の待ち受け単語とを組み合わせた連続単語の待ち受け単語をメモリ1034bに格納する。使用者によってマイク101を介して入力された音声コマンドを、信号処理ユニット103aで音声認識する。 (もっと読む)


141 - 160 / 166