説明

国際特許分類[G10L15/04]の内容

物理学 (1,541,580) | 楽器;音響 (32,226) | 音声の分析または合成;音声認識;音響分析または処理 (17,022) | 音声認識 (6,879) | セグメンテーション,または語区切れ検出 (272)

国際特許分類[G10L15/04]に分類される特許

71 - 80 / 272


【課題】本発明は、マイクロホンや増幅器の品質依存性および設置場所の騒音環境に対する依存性を少なくしつつ、設置場所でのキャリブレーション作業を不要とした発声検出装置の実現を目的とする。
【解決手段】
2つの集音器にて取得した音響信号から所定方向の発声を検出する発声検出装置であって、音響信号の低周波数域成分をカットし、そのカットされた低周波数域成分に人工信号を付加した上で、両集音器からの音響信号について相互相関を計算し、所定方向での発声を検出する発声検出装置を提供する。 (もっと読む)


【課題】話者や発声場面に依存する特徴のばらつきを考慮して入力音声を所定の意味単位で区切る境界を推定する境界推定装置を提供する。
【解決手段】第1の音声と相関のある第2の音声を第1の意味単位と相関のある第2の意味単位で区切る第2の境界を推定する第1の推定部102と;第2の音声における第2の境界の直前及び直後の少なくとも一方の分析区間の音響的特徴及び言語的特徴の少なくとも一方を分析して分析区間の代表的な特徴を示す代表パターンを生成する生成部110と;代表パターンと第1の音声の複数の算出区間の特徴を示す特徴パターンとの類似度を算出する算出部130と;類似度が閾値より高い算出区間あるいは類似度が相対的に高い算出区間の直前、直後または当該算出区間内のいずれかの位置を第1の境界として推定する第2の推定部141と;を具備する。 (もっと読む)


【課題】認識性を向上させつつ使い勝手の低下を抑制することが可能な音声認識装置及び方法を提供する。
【解決手段】音声認識装置1は、ユーザにより連続的に発話された数字の音声を入力するマイクロフォン10と、マイクロフォン10により入力された連続的な数字の音声を認識する音声認識部20とを備えている。音声認識部20は、マイクロフォン10により入力された連続的な数字の音声を、メタ発話情報に基づいて分割するチャンク判別部24と、発話対象の種別に応じた分割音声毎の桁数を記憶する桁数パターン記憶部25と、チャンク判別部24により分割された音声を、桁数パターン記憶部25に記憶される分割音声毎の桁数とを比較して、音声を認識する認識部27とを備えている。 (もっと読む)


【課題】
SNR閾値を用いた発話区間検出に関し、話者とマイクロホンの距離が一定ではない環境では、認識性能と誤認識のトレードオフが存在するため、前記SNR閾値の設定が一般に容易ではない。
【解決手段】
音源から発せられる音響信号を電気信号に変換する変換手段と、前記音源からの音響信号が発せられたことを前記電気信号に基づいて検出する音響信号検出手段とを有する音響信号変換装置であって、音響信号を発する音源と当該音響信号を電気信号に変換する変換手段との距離を検出する距離検出手段を有し、前記音源からの音響信号が発せられたことを前記電気信号に基づいて検出する音響信号検出手段の音響信号検出の閾値を前記距離検出手段により検出した距離に応じて変化させる。 (もっと読む)


【課題】操作に対する負荷を軽減し、さらに、音声認識処理の精度を向上させることができる音声認識装置を提供する。
【解決手段】音声認識装置は、語句を発声することによって生じる音声を入力して音声情報を出力する音声入力部と、前記音声情報に基づいて音声認識処理を行い、音声認識情報を出力する音声認識部と、前記語句の音節に基づいて行われた操作を入力して操作情報を出力する操作入力部と、複数の語句が格納された辞書を記憶する記憶部と、前記操作情報に基づいて前記辞書から候補語句を取得し、前記音声認識情報に基づいて前記候補語句から発声された前記語句を選択する選択部と、を備える。 (もっと読む)


【課題】 音声対話装置において音声認識率の低下を抑える。
【解決手段】 音声対話装置100に、外部に音を出力音として出力する音出力部3と外部からの音を入力音として入力するための音入力部4とを設け、音入力部3に入力された入力音に対して話者認識を行うことで、音入力部4に入力された入力音が音出力部3から出力された出力音であるか否かを判別し、入力音が出力音でないと判別した場合だけ、その入力音に対して音声認識を行うようにした。これにより、音出力部3から出力音として出力されて音入力部4に入力された入力音に対して音声認識は実行されず、誤認識の発生が防止されるため、音声認識率の低下を抑えることができる。さらに、適応フィルタを使用しないことで、適応フィルタによる推定誤差も生じないため、音声認識率の低下を抑えることができる。 (もっと読む)


【課題】 話者の1つ又は複数の口語言語技能を評価するための技術を提供すること。
【解決手段】 本技術は、話者により発声された音声パッセージにおいて、1つ又は複数の対象となる時間的位置を識別するステップと、1つ又は複数の音響パラメータを計算するステップであって、1つ又は複数の音響パラメータが、1つ又は複数の対象となる位置の1つ又は複数の音響音声学的特徴の1つ又は複数の特性を捉えるステップと、口語言語技能評価の出力を修正するために1つ又は複数の音響パラメータを自動音声認識装置の出力と組み合わせるステップとを含む。 (もっと読む)


【課題】
画像には顔が現れずに声だけが聞こえる人物を視覚的に確認できるようにする。
【解決手段】
データベース(16)には、複数人について、顔画像データとその特徴量、声データとその特徴量が登録されている。人声認識部(32)及び人声照合部(34)により、再生音声信号に含まれる人声の特徴量をデータベースに照合して、発声者を探索する。顔画像認識部(20)及びは顔画像照合部(22)により、再生画像信号に含まれる顔画像の特徴量をデータベース(16)に照合して、画面内の人物を探索する。付加画像表示判定部(40)は、探索された発生者から、探索された人物を除外し、画面外の話者を特定する。付加画像生成部(24)は、特定された話者の付加画像をデータベース(16)から読み出し、表示画像生成部(26)に供給する。表示画像生成部(26)は、付加画像を再生画像信号に合成する。 (もっと読む)


【課題】問題対話の選別を効率的かつ高精度におこなうことにより、モニタリングの作業効率の向上を図ること。
【解決手段】録音音声データを取得し、抽出部401により韻律情報抽出処理を実行する。つぎに、検出部402により発話区間検出処理を実行する。取得部405により音声認識結果情報を取得する。このあと、基本対話分析部403による基本対話分析処理、対話構造分析部404による対話構造分析処理、発話内容分析部406による発話内容分析処理を実行する。このあと、決定部407により決定処理を実行し、出力部408により出力処理を実行する。 (もっと読む)


【課題】発話者の追跡の精度を向上させる。
【解決手段】この発明の複数信号区間推定装置は、センサ部と、音声信号区間推定部と、発話者方向推定部と、顔位置検出部と、情報統合部とを具備する。音声信号区間推定部はマイクロホンからの音響信号を周波数分析した周波数スペクトルを入力として、センサ部を中心とする平面の全領域に対する音声の存在確率を推定する。発話者方向推定部は音響信号の周波数スペクトルを用いて各領域における発話者の存在確率を推定する。顔位置検出部はカメラからの映像信号を入力として、談話参加者の顔の重心の方向に基づき各領域における談話参加者の存在確率を推定する。情報統合部は音声の存在確率と発話者の存在確率と談話参加者の存在確率を入力として各領域内の特定領域において談話参加者が発話した確率を算出する。 (もっと読む)


71 - 80 / 272