説明

国際特許分類[G10L15/04]の内容

物理学 (1,541,580) | 楽器;音響 (32,226) | 音声の分析または合成;音声認識;音響分析または処理 (17,022) | 音声認識 (6,879) | セグメンテーション,または語区切れ検出 (272)

国際特許分類[G10L15/04]に分類される特許

51 - 60 / 272


【課題】好適なエンドポインタを提供する。
【解決手段】ルールに基づくエンドポインタは、音声ストリーム内に含まれる発話された発言を、バックグラウンドノイズおよび発話でないトランジェントから分離する。ルールに基づくエンドポインタは、様々な発話特性に基づいて発話された発言の開始および終了を決定するための複数のルールを含む。ルールは、音声ストリームまたは音声ストリームの一部分を、事象、事象の組み合わせ、事象の継続、または事象に関する継続に基づいて分析し得る。ルールは、音声ストリーム自体の特性、音声ストリーム内に含まれた予想される応答、または周囲環境条件を含み得る要因に応じて、手動で、あるいはダイナミックにカスタマイズされ得る。 (もっと読む)


【課題】雑音中であっても正確に使用者の発生する操作用の音声を聞き取り、それに基づき制御する電動車椅子を提供する。
【解決手段】電動車椅子は、ユーザ音声をマルチチャンネルで複数受音するために任意数のマイクロフォンを設けたマイクロフォンアレイ30a、30bを複数個相互に離間して配置してなる受音手段を備えた音声入力手段と、3次元空間中の任意の位置に配置された前記受音手段で受音したマルチチャネル音声データに基づいてMUSIC法によりユーザの発声位置を推定し発声位置推定信号を出力する発声位置推定手段と、前記発声位置推定信号に基づき車輪35a、35b、36bの駆動源を制御する制御手段を有する。 (もっと読む)


【課題】周囲の雑音や会話等の影響を受け難い上、発話の内容に類似したものが多かったり促音や撥音を含むことが多かったりする場合でも音声を利用して確実にデータを入力できるようにする。
【解決手段】音声入力の開始と終了を検出し、その検出された音声入力開始から終了までの区間内に入力された音声を認識する。認識された音声データで記憶手段に記憶されている対象毎の対象名音声データを検索して類似する複数の対象名音声データを抽出し、抽出された複数の対象毎の対象名音声データにそれぞれ対応する対象コード及び対象名を記憶手段から取得する。得られた複数の対象名を出力し、出力された複数の対象名の中から任意の対象名が選択されると、その対象名とともに記憶手段から読み出した対象コードを入力データとして処理する。 (もっと読む)


【課題】音源位置を推定せずに、雑音と区別して発話を検出する。
【解決手段】複数の指向性のマイクロホンと、前記複数の指向性のマイクロホン中の少なくとも1個のマイクロホンからの信号に対して音声認識を行う音声認識部とを備えた音声認識システムであって、無指向性のマイクロホンと、該無指向性のマイクロホンからの信号により発話区間を検出する発話検出部とを備え、前記音声認識部は発話区間の信号に対して音声認識を行う。 (もっと読む)


【課題】ユーザに対し操作コマンドの認識に成功する可能性を知らせることのできる入力装置及び入力装置の制御方法を提供する。
【解決手段】本発明の入力装置は、電子機器に接続又は内蔵される入力装置であって、ユーザの発する音及びユーザの動きのうち少なくともいずれかを認識して電子機器に対する操作コマンドへ変換する入力装置において、操作コマンドの認識成功率に影響を与える、入力装置の外部環境に関する情報を取得する環境取得手段と、外部環境ごとに、操作コマンドの認識成功率を表す情報を記憶している記憶手段と、環境取得手段により取得された情報と記憶手段に記憶された情報に基づいて、現在の外部環境における操作コマンドの認識成功率を取得する成功率取得手段と、成功率取得手段により取得された操作コマンドの認識成功率を表示部に表示する表示手段と、を有する。 (もっと読む)


【課題】入力信号の音量が小さいときでも、有音無音の判定精度を向上させること。
【解決手段】有音無音判定装置1aは、フレーム音量算出部11が計算したフレーム音量が閾値音量より小さいときに、フレーム音量を閾値音量に変更するフレーム音量選択部22と、フレーム音量と、推定された前回までの雑音音量とをもとに、今回の雑音音量を推定する雑音音量推定部12と、フレーム音量が今回の雑音音量をもとにした判定用閾値より大きいときに、前記フレーム音量の計算元となるフレームを有音フレームと判定する有音無音判定部13と、を有する。 (もっと読む)


【課題】
音声情報と画像情報を総合的に用いるマルチモーダル音声区間検出により、音声区間検出における音響雑音の影響を抑制することができる音声区間検出装置を提供する。
【解決手段】
音声区間検出装置100は、音響特徴量と画像特徴量を合わせた音響画像特徴量を生成して、該音響画像特徴量に基づいて音声区間を判定する第1マルチモーダルVAD部131と、音響特徴量のみを用いて音声区間の判定を行う音声ユニモーダルVAD部132と、画像特徴量のみを用いて音声区間の判定を行う画像ユニモーダルVAD部133と、音声ユニモーダルVAD部132及び画像ユニモーダルVAD部133の判定を統合して、音声区間の判定を行う第2マルチモーダルVAD部134と、第1マルチモーダルVAD部131、第2マルチモーダルVAD部134の判定結果を多数決原理で統合して音声区間の判定を行う第3マルチモーダルVAD部135を備える。 (もっと読む)


【課題】話者交替点検出および話者認識の精度のよい音響処理装置を提供する。
【解決手段】音響処理装置において、音素認識部が入力される音響特徴量データに基づき音素認識を行なう。音素クラス分類部が音素情報に基づいて音素クラス別音響特徴量を生成する。そして、話者交替点検出部は、音素クラスに関連付けられた音響特徴量データを読み出し、時間区間を区切って得られる第1区間と第2区間のそれぞれに属する音響特徴量データについて、音素クラス毎の統計量を算出し、第1区間および第2区間に対応する複数の音素クラスの統計量をクラスタ分析処理することによって、第1区間と第2区間が別クラスタであると判定される場合に話者交替点を検出する。話者クラスタリング部は、蓄積された複数の音素クラスの統計量と、予め話者モデルとして記憶された複数の音素クラスの統計量とに基づくクラスタ分析処理で、話者を識別する。 (もっと読む)


【課題】音素境界時刻の推定を従来よりも精度良く行なう。
【解決手段】マッチングスコア計算部3及び音素境界候補計算部5が、予め推定された初期音素境界に対応する複数のスペクトルテンプレートを用いて、その初期音素境界についての音素境界候補をひとつ以上決定する。最適音素境界探索部6が、連続するR個の音素を区切る音素境界候補の組が複数ある場合には、それらの連続するR個の音素の全体を考慮して最適な音素境界候補の組を選択する。これにより、音素境界の推定の精度が従来よりも高くなる。 (もっと読む)


【課題】無声化音素の有無を精度高く検出する。
【解決手段】初期セグメンテーションされた音声信号の音素ラベル列からルールに従って無声化判定対象音素を検出し、その無声化判定対象音素を含む無声化判定範囲を決める。入力音声信号の有声性尺度を求め、無声化判定範囲の有声性尺度を閾値と比較して無声化判定対象音素が無声化されているか判定し、無声化されている場合は無声化判定対象音素を削除して、音素境界時刻を修正する。 (もっと読む)


51 - 60 / 272