説明

国際特許分類[G10L15/04]の内容

物理学 (1,541,580) | 楽器;音響 (32,226) | 音声の分析または合成;音声認識;音響分析または処理 (17,022) | 音声認識 (6,879) | セグメンテーション,または語区切れ検出 (272)

国際特許分類[G10L15/04]に分類される特許

41 - 50 / 272


【課題】十分に良好な信号対雑音比を有する音声信号を検出すると共に、音声タイムスロットを決定する。
【解決手段】受信信号のエネルギ量が第1エネルギ閾値を越える場合に第1検出情報を送出するスイッチオン閾検出器11と、受信信号のエネルギ量が第1エネルギ閾値より小さな第2エネルギ閾値に満たない場合に第2検出情報を送出するスイッチオフ閾検出器12と、第1スイッチオフ期間の間に第2検出情報が入力された場合に音声タイムスロットを特徴付ける音声検出情報の生成を終了させる情報処理手段13とを含む。該情報処理手段は、第2スイッチオフ期間の間第1検出情報が入力されなかった場合、及び/又は第3スイッチオフ期間の間第1検出情報が入力されなかった場合にも音声検出情報の送出を追加的に終了させるように構成され、第3スイッチオフ期間の開始は第1検出情報が入力されなくなった後に第2検出情報が最初に入力される時として決定される。 (もっと読む)


【課題】マーケティングデータとして、顧客にとって「興味があるキーワード」や「興味がないキーワード」を、適切に記録することができる
【解決手段】キーワードを記憶しておくキーワードテーブル89と、店員と顧客との会話における音声データを取得する音声取得部102と、会話に含まれる顧客の音声データに基づいて、発話区間ごとに顧客満足度を算出する顧客満足度算出部156と、取得した音声データから、顧客満足度が閾値に達した会話区間の音声データを抽出する区間データ抽出部と、抽出した会話区間の音声データを音声認識する音声認識部154と、区間データから、所定のキーワードを抽出するキーワード抽出部と、抽出した所定のキーワードを、満足キーワードとしてデータベースに記録する満足キーワード記録部161と、を備えた。 (もっと読む)


【課題】特徴量に含まれる残留エコー成分を抑制する。
【解決手段】音声判別装置100は、第1音響信号の周波数スペクトルを解析する第1音響信号解析部103と、前記第1音響信号のエコー成分を第2音響信号から抑圧した第3音響信号から、前記第1音響信号の周波数スペクトルを除外して、前記第3音響信号の周波数スペクトルの特徴量を抽出する特徴抽出部101と、を備える。 (もっと読む)


【課題】分類の個数を事前に指定しなくても、音声を分類することができ、得られた分類結果の音声の種類を判別できるようにする。
【解決手段】本発明による音声分類装置は、複数の音声区間に分割された音声データを逐次的にクラスタリングして、クラスタリング結果をクラスタ情報として算出する逐次クラスタリング手段と、前記音声データ中の音声区間がいずれのクラスタラベルに対応するかを判別するための情報であるクラスタラベル判別情報を算出するクラスタラベル判別情報算出手段と、前記逐次クラスタリング手段が算出した前記クラスタ情報と、前記クラスタラベル判別情報算出手段が算出した前記クラスタラベル判別情報とを用いて、前記音声データ中の音声区間がいずれのクラスタラベルに対応するかを判別するクラスタラベル判別手段と、を備えたことを特徴とする。 (もっと読む)


【課題】精度良く発話区間の検出を行い、発話認識を行える発話認識装置、発話認識方法を提供することを課題としている。
【解決手段】音響を集音する音響集音部と、映像を撮像する映像撮像部と、集音された音響信号に基づき音響情報の特徴量を抽出する音響特徴量抽出部と、撮像された画像情報に基づき顔領域の特徴量と唇領域の特徴量を抽出する唇特徴量抽出部と、抽出された唇領域の特徴量に基づき唇の横方向の長さに関する視覚特徴量を抽出し、抽出された所定区間の視覚特徴量に対して3次以上の関数により時間軸方向にフィッティングして平滑化することで視覚特徴量を生成する視覚特徴量生成部と、生成された視覚特徴量と抽出された音響情報の特徴量とを統合して算出した発話確率に基づき発話区間を検出する発話区間検出部と、発話区間検出部が検出した発話区間の発話を認識する音声認識部とを備える。 (もっと読む)


【課題】ユーザの操作を簡素化することができ、ユーザの使い勝手を向上することが可能な情報処理装置、を提供することを目的とする。
【解決手段】本明細書に記載の情報処理装置は、音声を入力する音声入力部と、入力した音声をテキストデータに変換するテキストデータ生成部と、前記音声入力部が特定の周波数を入力した際に、前記テキストデータ生成部による変換を開始する制御部と、を備えたことを特徴とする情報処理装置である。 (もっと読む)


【課題】ノイズ環境の変動に適応して設置環境下で所期の識別性能を発揮できるか否かの判定を容易に行うことができ、発声検出装置等に適用可能な識別装置を提供する。
【解決手段】識別装置1は、入力信号の入力部2と、識別対象を含むモデル信号を記憶する記憶部8と、入力信号とモデル信号からテスト信号を生成するテスト信号生成部6と、識別モードとテストモードを切り替える切替部3と、両モードにおいて識別対象信号から識別対象を識別できるか否かを判定する識別部4を有する。テストモードで識別部がテスト信号から識別対象を識別できないと判定した場合には、識別モードにおいて識別装置が正常に動作しない異常状態にあることを環境判定出力部7が報知する。 (もっと読む)


音声区間検出(VAD)システムは、第1の音声区間検出器、第2の音声区間検出器、および制御ロジックを含む。第1の音声区間検出器は、デバイスに含まれ、第1のVAD信号を生成する。第2の音声区間検出器は、デバイスの外部に位置し、第2のVAD信号を生成する。制御ロジックは、第1および第2のVAD信号をVAD出力信号に組み合わせる。音声区間は、VAD出力信号に基づいて検出されるとしてもよい。第2のVAD信号は、デジタル化されたオーディオに含むパケット中に含まれているフラグとして表されることができる。パケットは、ワイヤレスリンクを越えて、外部に位置するVADからデバイスへ転送されることができる。 (もっと読む)


【課題】複数の通話端末装置間で行われる通話の通話区間を正確に推定する。
【解決手段】音声入力部11に、何れかの上記通話端末装置を基準とした送話側チャネルの音声信号と受話側チャネルの音声信号とが入力され、音声検出部12が、送話側チャネルの音声信号と受話側チャネルの音声信号とを用い、チャネル毎の音声区間と非音声区間とを検出し、通話区間推定部13が、或るチャネルの音声区間の開始時刻を第1起点とし、当該音声区間の開始時刻を除く或る時刻を第2起点とし、当該第2起点から一定時間T1以内に別のチャネルの音声区間が存在しない場合に、上記或るチャネル音声区間の音声は通話の音声ではないと判断し、当該第2起点から一定時間T1以内に別のチャネルの音声区間が存在する場合に、上記第1起点又は上記第1起点の一定時間T4前の時刻を通話区間の開始時刻として推定する(もっと読む)


【課題】手順説明語句に対応した補足語句を抽出すること。
【解決手段】オペレータ支援装置1は、対応関係記憶部2、操作時間取得部3、区間推定部4、補足語句抽出部5を有する。対応関係記憶部2は、手順説明語句と、該手順説明語句に係る操作部位とを対応付けて記憶する。操作時間取得部3は、切替操作時刻ごとにそこから操作対象となった操作部位を対応付けて記憶するPC操作ログ記憶部から所定の操作部位が切替操作された時点を示す操作時間を取得する。区間推定部4は、対応関係記憶部2から切替後の操作部位に係る手順説明語句を抽出する。区間推定部4は、音声記録から、手順説明語句出現の発話区間から先の操作時間以降に発話が開始された時点の発話区間の次に現れる、所定期間より長い発話区間の開始までを、手順説明語句の音声区間と推定する。補足語句抽出部5は、推定済みの音声区間から手順説明語句の補足語句を抽出する。 (もっと読む)


41 - 50 / 272