説明

国際特許分類[G10L15/20]の内容

物理学 (1,541,580) | 楽器;音響 (32,226) | 音声の分析または合成;音声認識;音響分析または処理 (17,022) | 音声認識 (6,879) | 不利な環境に特に適した音声認識技術,例.雑音またはアクセントのある音声 (334)

国際特許分類[G10L15/20]に分類される特許

81 - 90 / 334


【課題】音声を用いたコマンドコントロールシステムにおいて、コマンドと関係のない音声による誤動作を軽減することのできる技術を提供する。
【解決手段】撮影装置1の制御部11は、入力されたコマンド音節に含まれる音素に対応する音素を音素辞書から選択して、音素の列で構成されたコマンド音素列を生成する。また、制御部11は、生成したコマンド音素列と所定の類似度を有するダミーコマンド音素列を、予め定められたアルゴリズムに従って生成する。制御部11は、マイクロホン15によって収音された音声を表す音声信号を解析し、解析結果とコマンド音素列との類似度及び解析結果とダミーコマンド音素列との類似度に応じて、コマンドの認識処理を実行する。 (もっと読む)


【課題】本来音声認識用マイクロホンによってのみ受信されるべき音声が騒音除去用の騒音信号に混入してしまうことを抑制する。
【解決手段】騒音源11を内包するロボット筐体10の表面に設置された騒音用マイクロホン12は、エンクロージャー13によって覆われることにより、オペレータが発声した音声が入らぬ様、遮音されている。ロボット筐体10外部には、音声用マイクロホン14が設置されている。騒音用マイクロホン12が受信した振動音を騒音に変換するための周波数特性補正用フィルタ25の伝達が、騒音推定手段26にセットされている。騒音推定手段26は、騒音用マイクロホン12からの振動音観測信号に周波数特性補正用フィルタ25を施すことにより、騒音を推定する。騒音除去手段27は、音声用マイクロホン14からの観測信号及び推定された騒音に基づいて2チャンネルスペクトルサブトラクション法による処理を実行する。 (もっと読む)


【課題】発話において突発的な音量変化が生じた場合であっても、確実に認識漏れなく音声認識を行う。
【解決手段】受付端末20は、来訪者Mの発話音声により音声情報を入力するマイク207と、マイク207で入力された音声情報を増幅するオペアンプ217とを有し、互いに異なる複数の値N1,N2,N3が時系列的に順次繰り返されるようにオペアンプ217の増幅率を切替制御し、この切替制御に連動し、複数の値N1,N2,N3に制御された増幅率を用いてオペアンプ217で増幅された音声情報を所定周期でサンプリングし、音声データSDを取得し、この取得された音声データSDを、切替制御された増幅率の複数の値N1,N2,N3それぞれに対応させた複数のデータ群に分類して抽出し、この抽出された複数のデータ群のうち、特定のデータ群を選択し、この選択されたデータ群を用いて音声認識を行う。 (もっと読む)


【課題】全てのチャネルを使うことなく残響抑圧することができる残響抑圧装置及び残響抑圧方法を提供する。
【解決手段】音響信号が入力される複数の音響信号入力手段と、前記複数の音響信号入力手段に入力された音響信号から、残響抑圧処理に用いる音響信号を選択する信号選択手段22と、前記選択した音響信号に残響抑圧処理を行う残響抑圧処理手段23と、を備える。 (もっと読む)


【課題】ユーザの発話中に突発ノイズが発生した場合であっても、ユーザの発話内容の認識率向上を図ることのできる車載音声認識装置を提供する。
【解決手段】制御部17は、突発ノイズ発生判断部16によって突発ノイズが発生した旨判断されないことに基づいて、第1発話内容認識部11によってユーザの発話内容の認識を行なう一方、突発ノイズ発生判断部16によって突発ノイズが発生した旨判断されることに基づいて、第2発話内容認識部15によってユーザの発話内容の認識を行なう。 (もっと読む)


【課題】少ない演算負荷とデータ量で精度のよいフィラーモデルを構成する隠れマルコフモデルを生成すること。
【解決手段】所与の音声認識システムで音声認識に使用する隠れマルコフモデルを生成するためのプログラムであって、前記所与の音声認識システムで使用予定の複数の隠れマルコフモデルを含む使用予定モデル群を記憶する使用予定モデル群記憶部と、前記使用予定モデル群の全部又は少なくとも1部の隠れマルコフモデル群に基づき前記所与の音声認識システムでフィラーモデルとして使用する隠れマルコフモデルを生成するフィラーモデル生成部と、してコンピューターを機能させる。 (もっと読む)


【課題】単語に対する標準的な読み情報に加えて、標準読み情報に類似する読み情報を自動的に追加することにより、音声認識の精度を高めるようにした音声認識用辞書作成装置及び音声認識用辞書作成方法を提供する。
【解決手段】単語に対応して発声された音声を音声認識し、認識結果読み情報を決定する第1音声認識部と、標準読み情報または認識結果読み情報に基づいて複数の読み情報データを生成し、標準読み情報との類似度が認識結果読み情報と標準読み情報との類似度よりも高い読み情報データを追加候補データとして選択する追加候補選択部と、受け付けた音声信号を追加候補データに対応する音節または音素モデル列を用いて認識できるか否かを判定する第2音声認識部と、第2音声認識部において認識できた追加候補データのうち標準読み情報との類似度が高い追加候補データを音声認識用辞書の該当する単語の読み情報として追加する辞書更新部とを備える。 (もっと読む)


【課題】適切な生体情報を照合元として個人の認証を行うことが可能な個人認証装置、個人認証方法、および個人認証プログラムを提供する。
【解決手段】インターホンシステム1の子機10のマイク111から入力された来訪者の音声の情報が親機20に送信される。親機20では、受信した音声の情報から来訪者の声紋データが生成され、フラッシュROM220に登録されている複数の人物の声紋データと照合されることにより、来訪者が登録者であるか否を決定する認証処理が行われる。認証結果が表示モニタ213に表示され、屋内対応者に通知される。さらに、子機10の降雨センサ121により測定された降雨強度と、風速センサ122により測定された風速が、それぞれ、登録可否の判断基準として予め定められた第1の閾値および第2の閾値以下である場合には、取得された来訪者の声紋データが、フラッシュROM220に登録される。 (もっと読む)


【課題】 従来、ユーザがデジタルカメラを操作する際の口(音源)の位置を推定し、推定された音源から発せられる音を好適に取得するための対策が望まれていた。
【解決手段】 本発明に係る撮像装置は、ファインダとディスプレイとを備え、前記ファインダに画像を表示する表示モードと、前記ディスプレイに画像を表示する表示モードとを切替え、前記ファインダに画像を表示している場合、音声入力の処理を接話用のモードに設定し、前記ディスプレイに画像を表示している場合、音声入力の処理を非接話用のモードに設定し、設定された音声入力のモードに従って、予め設定された制御コマンドを音声入力する。 (もっと読む)


【課題】話者の発話音声を劣化させずに、定常ノイズだけを除去した音声信号を出力することができるノイズゲートを提供することにある。
【解決手段】収音装置1は、FFT処理部11、ノイズゲート12、及びIFFT処理部13を備える。収音装置1は、収音した音声信号NE’TをFFT処理部11にて周波数スペクトルNE’Nに変換する。収音装置1は、ノイズゲート12にて音声信号の周波数スペクトルNE’Nに基づいて定常ノイズのノイズスペクトルN’Nを推定する。収音装置1は、ノイズゲート12にて、音声信号の周波数スペクトルNE’NとノイズスペクトルN’Nとの信号レベル比が閾値以上の場合は、当該周波数スペクトルNE’Nをそのまま出力し、閾値未満の場合はゲインを低減して出力する。収音装置1は、定常ノイズN’Nを除去した後の周波数スペクトルCO’NをIFFT処理部13にて逆変換して生成した音声信号CO’Tを出力する。 (もっと読む)


81 - 90 / 334