説明

Fターム[5D015JJ00]の内容

音声認識 (5,191) | パターン照合によらない認識 (78)

Fターム[5D015JJ00]の下位に属するFターム

Fターム[5D015JJ00]に分類される特許

1 - 13 / 13


【課題】複数の音が混在した音声信号から、特定音源のコマンドを高精度に分離する装置、方法を提供する。
【解決手段】複数音源からの音を含む学習用音声信号に基づいて各音源対応の基底周波数Bからなる学習データを生成し、この各音源対応の基底周波数Bを結合した全基底周波数Ballを生成する。さらに、入力音声信号に対して、時間周波数分析を実行して時間周波数分析結果を生成する。この入力音声信号に対する時間周波数分析結果に対して、全基底周波数Ballを適用した基底分解を行い、入力音声信号に対する基底アクティビティHを生成する。最後に生成した基底アクティビティHの識別処理を実行してコマンド識別を行う。これらの学習データに基づく音源分離処理により、高精度なコマンド識別が実現される。 (もっと読む)


【課題】音声により入力された語の種別の判定を簡易に行う安価な音声判定装置を提供する。
【解決手段】音声判定装置は、マイクロホン11が音声入力された語に応じた音声信号を出力すると、この音声信号を正電圧に振れる波形のみを含む信号となるように整流手段13が整流して、この整流された音声信号を、音声入力された語に含まれる文字毎に1つの山形波形となるように平滑手段14が平滑する。そして、信号比較判定手段17によって所定の基準信号より平滑された音声信号が大きいと判定された回数を、入力された語に含まれる文字数として計数手段21aが計数して、この計数された文字数に基づいて、種別判定手段21bが、語の種別を判定する。 (もっと読む)


【課題】状況に応じてエコー抑圧ゲインの大きさを変更し、十分にエコー抑圧をしながら、音声歪を同時に少なくする反響消去技術を提供する。
【解決手段】本発明に係る反響消去技術は、収音信号に基づいて得られる信号D(f,k)及び受話信号X(f,k)を用いて、エコー抑圧ゲインGb^(f,k)を求め、信号D(f,k)からエコー成分を取り除いた信号D’(f,k)を用いて、抑圧対象の信号が母音であるか子音であるかを判定し、抑圧対象の信号が母音であると判定された場合にはγを緩和係数β(k)とし、それ以外の場合にはγ(<γ)を緩和係数β(k)とし、信号D(f,k)とエコー抑圧ゲインGb^(f,k)と緩和係数β(k)との積から信号D(f,k)と緩和係数β(k)との積を減算しD(f,k)に加算した結果が得られるような処理を行う。 (もっと読む)


【課題】ネットワークの状態のシーケンスに対応するネットワークのアークの入力ラベルを文法要素のシーケンスに対応するアークの出力文法要素のリストに変換する方法及びシステムを提供する。
【解決手段】ネットワークは、重み付き有限状態変換器(WFST)と組み合わされた複数の音声認識モデルを含む。トラバーサルは、アクティブアーク横断を含むことができ、また、アクティブアーク伝播を含むことができる。アークは、複数のソース状態を起源とし且つ共通の目的状態に向けられるアークを含め、並列に処理され得る。状態に関連するセルフループは状態の退出アーク内でモデル化されてもよく、それにより同期化処理が削減され得る。タスクを、対応するデータオブジェクトに関する別のタスクが以前にスレッドに割り当てられていたかに少なくとも部分的に基づいて、処理スレッドに関連付けるように、タスクはキャッシュデータ位置との関係で順序付けられ得る。 (もっと読む)


【課題】 従来の音声認識の手法では音声の統計的データを大量に必要とし、又、発話者の変化に柔軟に対応できない。音声合成にあたっても実際の音声のデータを利用するため合成する音の自由度が少ない。
【解決手段】 日本語の五十音図の各音等(濁音、半濁音、拗音、撥音を含む102個の音)の空気振動の性質を調べ、音の調子の高低或は音色に拘らず各音を規定する特性を抽出して各音ごとの規則とし、この規則に従って音声の識別及び合成をする。
識別するときは入力音声を一音ずつ分析しその結果をこの規則と照合し、五十音図の各音等のどの音に相当するかを判断する。合成のときはこの規則に従って、周波数特性、過渡特性等を設定し、別に発生させた基本波、高調波等に、これらの特性による振幅制限、過渡的変化等を与えて加算する。 (もっと読む)


【課題】認識精度が高いパラメータを得ることができるパーセプトロン学習装置を提供する。
【解決手段】正解系列から得られる素性と、仮説から得られる素性との相互において単語の不一致の発生率に対応した値を持つ評価関数Sを求め、この評価関数により正解系列から得られた素性の値と、仮説から得られた素性の値に重み付けを施し、重み付けされた素性の値によってパラメータα(j)の値を更新し、重み付けされたパラメータα(j)の値を用いてパーセプトロンアルゴリズム解析を行い、最も大きいスコア値を示す仮説を検出し、最も大きいスコア値を示す仮説から最適なパラメータα(j)の値を学習する。 (もっと読む)


【課題】競合学習型ニューラルネットの学習に用いる学習データを適正化することにより、信号識別装置のカテゴリの分類精度を高める。
【解決手段】ニューラルネット1を複数個のデータからなるデータセットにより学習させたときに、複数種類のカテゴリに属するデータで1つのニューロンが発火する場合に、学習データ選択部7では、当該ニューロンと入力されたデータとの乖離度を求める。学習データ選択部7は、データに対応付けたカテゴリごとに乖離度の平均値を求め、乖離度が小さいほうのカテゴリを持つデータを学習データ記憶部6に残し、乖離度が大きいほうのカテゴリを持つデータを学習データ記憶部6から削除する。ニューラルネット1における出力層のすべてのニューロンが単一のカテゴリに分類されるまで学習データ記憶部6からのデータの削除を繰り返す。 (もっと読む)


【課題】多次元の時系列データを効率的に扱う。
【解決手段】入力重み調整部612は、力学系近似モデルの入力層のユニットに入力される、観測される複数の次元の時系列データである入力データに対する次元ごとの重み係数である入力重み係数を、次元ごとに調整する。出力重み調整部613は、力学系近似モデルの出力層のユニットから出力される、複数の次元の出力データに対する次元ごとの重み係数である出力重み係数を、次元ごとに調整する。決定部711は、ノードごとの出力誤差に基づいて、入力データに適合するダイナミクスを保持するノードである勝者ノードを決定する。本発明は、例えば、ロボットに適用することができる。 (もっと読む)


【課題】再生音声の単位時間当たりの単語数を基準とした話速の指定に応じて音声を再生出力させることを可能にする。
【解決手段】記憶装置20には、音声の再生出力の対象となる例文データ20aや会話集データ20bが記憶される。制御部10は、再生出力の対象として選択されたデータについて、再生出力する際の単位時間当たりに含まれる単語数を検出する。制御部10は、再生音声の単位時間当たりの単語数を基準とした指定(例えばWPM)に応じて再生出力する音声の発話速度を設定する。制御部10は、設定した発話速度と再生出力の対象とするデータから検出された単語数をもとに発話速度に対する再生倍率を決定し、この再生倍率に応じて再生速度を調整して音声を出力させる。 (もっと読む)


【課題】時系列データの推移をデータ認識に反映させて、認識精度を向上させることができる時系列データ認識方法、時系列データ認識装置及びプログラムを提供すること。
【解決手段】時系列データを構成する各入力ベクトルx(t)と結合重みベクトルWjとの類似度、及び勝者余韻ベクトルY(t)と経験重みベクトルUjとの類似度、に基づいて勝者ユニットを選出する。そして、選出された勝者ユニットに従って勝者余韻ベクトルY(t)を更新する。また、選出された勝者ユニットのうち一部又は全部により、認識用の時系列データを認識する。 (もっと読む)


【課題】音声言語データに対するパターン認識の処理を高い認識率でかつ効率的に行うとともに、そのシステム構成を自己適応的に発展させることができる自己発展型音声言語パターン認識システムを提供する。
【解決手段】パターン認識部12内に構築される自己組織化ニューラルネットワーク構造に含まれる各ニューロンのうち互いに関係のあるニューロン同士は、音声言語データの階層的な認識レベルに対応して段階的に関係付けられるよう、ウェイト係数を介して相互に結合されている。具体的には、各ニューロンは、音声言語データの階層的な認識レベル(音素レベル、単語レベル、文節レベル及び文レベル)のそれぞれに対応する複数のネットワーク階層のいずれかに含まれ、各ネットワーク階層に含まれる各ニューロンは、当該各ネットワーク階層に隣接するネットワーク階層に含まれるニューロンとの間でのみ相互に結合されている。 (もっと読む)


【課題】音声信号処理装置において、高精度な音声−非音声識別手段を実現する。
【解決手段】入力信号と音声モデルとの照合により音声性スコアを算出する手段を設け、さらに入力信号のSNRを推定する手段を設け、推定SNRを用いて前記音声性スコアを補正する。 (もっと読む)


本発明は、例えば音楽や言語などの音響信号を処理するための方法及び装置に関する。該方法は、受信する入力信号の非線形周波数解析を必要とする。一側面においては、識別可能な周波数をそれぞれ伴う非線形オシレータのネットワークは、信号の処理に適用される。各信号成分の周波数,振幅及び位相は、識別される。さらに、ネットワークにおける非線形性は、入力信号において十分分解できない又は存在しない成分を補う。別の側面においては、非線形オシレータネットワークの変更は、入力信号の周波数成分の変動をトラッキングするために利用される。 (もっと読む)


1 - 13 / 13