説明

国際特許分類[G10L15/02]の内容

物理学 (1,541,580) | 楽器;音響 (32,226) | 音声の分析または合成;音声認識;音響分析または処理 (17,022) | 音声認識 (6,879) | 音声認識のための特徴抽出;認識単位の選択 (203)

国際特許分類[G10L15/02]に分類される特許

1 - 10 / 203


【課題】利用者が正しい発音を素早く習得するため音声を視覚的に捉えるフィードバック資料を提示する。
【解決手段】音声の音量基準値とフォルマント周波数基準値と予め格納しておき、利用者が発声した音声を採取した音声データの音量を特定し、該当する音声の音量基準値と比較し、音量基準値との誤差を導出するとともに、音声データの周波数スペクトルを解析してフォルマント周波数を特定し、該当する音声のフォルマント周波数基準値と比較し、フォルマント周波数基準値との誤差を導出し、音量基準値との誤差及びフォルマント周波数基準値との誤差を図形として表示するとともに、正しい発音に近づけるためのアドバイス資料を表示する発音トレーニング装置である。 (もっと読む)


【課題】話者の異常状態の検出を高い検出精度で行えるようにする。
【解決手段】第一算出部12は、話者の発話を表している発話データ2から、発話の特徴を表している特徴パラメータの統計量を算出する。擬似発話データ作成部13は、このうちの少なくとも1つの統計量が基準発話データ3のものと一致する擬似発話データ4を、発話データ2と基準発話データ3との特徴パラメータの統計量に基づき作成する。基準発話データ3は平常状態下の発話を表している。第二算出部14は、擬似発話データ4と発話データ2の特徴パラメータの統計量とに基づき、擬似発話データ4を発話データ2が入力された分だけ置き換えて得られる合成発話データ5の特徴パラメータの統計量を算出する。検出部15は、合成発話データ5と基準発話データ3とでの特徴パラメータの統計量の違いに基づいて、発話データ2が表している発話の話者の異常状態を検出する。 (もっと読む)


【課題】雑音環境下における対象音の音区間を検出可能とする音認識方法及び装置の提供。
【解決手段】雑音環境下における周期定常性を持つ対象音の音区間を検出可能とする音認識方法であって、音入力手段によりアナログ音響信号を採取し、フレームによって構成されるデジタル波形信号に変換する第1ステップと、デジタル波形信号をフレーム単位で解析して自己相関関数及び2次自己相関関数を算出する第2ステップと、各フレームについて算出した2次自己相関関数の差分絶対値の和が予め設定した閾値を超える範囲を音区間と判定する第3ステップと、を有することを特徴とする音認識方法およびその装置。 (もっと読む)


【課題】従来装置は、人の発声ピッチパターンが、同じアクセント型でも発声速度や音韻継続時間の抑揚変化で異なるため、アクセント型を誤判別したり、発声する音韻環境、話者性、話者の調子、それら組合わせでの抑揚変化で、アクセント型判別精度が低下する。
【解決手段】ピッチパターン抽出手段で音声入力手段の音声データから入力ピッチパターンを抽出し、基準ピッチパターン選択手段で、言語情報入力手段での入力音声データの言語情報を基に、基準ピッチパターンコーパスからアクセント型推定用の基準ピッチパターンをアクセント型ごとに複数選択し、ピッチパターン照合手段で入力ピッチパターンと複数の基準ピッチパターンの類似度を算出、この類似度を基に最も類似する基準ピッチパターンのアクセント型を、入力ピッチパターンのアクセント型としてアクセント型決定部で出力する。 (もっと読む)


【課題】誤りのない確実なオーディオデータの照合を実現することのできるオーディオデータ照合システムを提供する。
【解決手段】本発明のオーディオデータ照合システム1は、既知のオーディオデータから特徴データを抽出するオーディオデータ特徴抽出装置2と、既知のオーディオデータから生成された特徴データに識別情報を登録してデータベース31に格納する特徴データ格納サーバ3と、未知のオーディオデータから特徴データを生成し、データベース31に格納されている特徴データと比較して照合するオーディオデータ照合装置4とを備えていることを特徴とする。 (もっと読む)


【課題】比較的高いノイズレベルの環境下においても精度よく子音区間を検出する。
【解決手段】子音区間検出装置110は、入力信号を予め定められたフレーム単位で切り出し、フレーム化入力信号を生成するフレーム化部120と、フレーム化入力信号を、時間領域から周波数領域に変換して、スペクトルパターンを生成するスペクトル生成部122と、スペクトルパターンにおける、連接する予め定められた帯域幅毎の平均エネルギーである帯域別平均エネルギーを導出する平均導出部126と、導出された帯域別平均エネルギー同士を比較し、第1の周波数帯域の帯域別平均エネルギーが、第1の周波数帯域より低い周波数帯域である第2の周波数帯域の帯域別エネルギーより高いことを検出することによりフレーム化入力信号に子音が含まれるかどうかを判定する子音判定部128とを備える。 (もっと読む)


【課題】複数の音が混在した音声信号から、特定音源のコマンドを高精度に分離する装置、方法を提供する。
【解決手段】複数音源からの音を含む学習用音声信号に基づいて各音源対応の基底周波数Bからなる学習データを生成し、この各音源対応の基底周波数Bを結合した全基底周波数Ballを生成する。さらに、入力音声信号に対して、時間周波数分析を実行して時間周波数分析結果を生成する。この入力音声信号に対する時間周波数分析結果に対して、全基底周波数Ballを適用した基底分解を行い、入力音声信号に対する基底アクティビティHを生成する。最後に生成した基底アクティビティHの識別処理を実行してコマンド識別を行う。これらの学習データに基づく音源分離処理により、高精度なコマンド識別が実現される。 (もっと読む)


【課題】 識別に有効な特徴成分を残しつつ識別に不要な成分を削除して特徴選択を行い、認識を高速化、高精度化する。
【解決手段】 学習用パターンから選定されるパターン対の各々についてn次元特徴を抽出し、その差分特徴の各々に対して重要度を設定する。差分特徴の射影長を保存するような特徴成分を重要度の順に導出し、導出された特徴成分が生成する差分主空間へn次元特徴を射影する射影行列を生成して差分主空間辞書に記録する。射影行列を用いて学習用パターンのn次元特徴をm次元特徴に変換し、学習用パターンを識別するための識別関数を生成して差分空間内識別辞書に記録する。与えられたパターンの認識時には、識対象となるパターンからn次元特徴を抽出し、差分主空間辞書に記録された射影行列を用いてm次元特徴を取得し、差分主空間内識別辞書の識別関数を用いて各カテゴリに対するパターンの類似度を算出する。 (もっと読む)


【課題】情報の欠落を抑えてパターン認識の判別能力を向上でき、多値離散量や連続量のデータに対して適応可能なRT法によるパターン認識方法を提供する。
【解決手段】複数のサンプルデータから構成される単位空間内に、判別対象のデータが属するか否かを判別するパターン認識方法であって、サンプルデータ及び判別対象のデータを定義する複数の項目を、係数及び切片を有する一次式によって平均値m、感度β及び、標準SN比ηに圧縮し、これらの値を用いて判別対象のデータが単位空間内に属するか否かを判別する。 (もっと読む)


【課題】特に声調言語の音声認識について、処理量が少なく、かつ認識性能の高い音声認識装置を提供する。
【解決手段】入力音声から基本周波数を抽出する一方、この入力音声についての音響解析を行う。そして、音声認識によって得られた複数の音声認識結果からいずれか一つを選択し、選択した音声認識結果を示すラベル列を出力する。また、この出力されたラベル列から、予め保持しているパターンリストに基づいて、少なくとも一つのラベルを選択する。そして、入力音声から抽出された基本周波数に基づいて選択されたラベルについての声調を示す声調情報を抽出し、抽出した声調情報とパターンリストの内容とに基づいて、選択されたラベルを修正する。 (もっと読む)


1 - 10 / 203