説明

国際特許分類[G10L15/04]の内容

物理学 (1,541,580) | 楽器;音響 (32,226) | 音声の分析または合成;音声認識;音響分析または処理 (17,022) | 音声認識 (6,879) | セグメンテーション,または語区切れ検出 (272)

国際特許分類[G10L15/04]に分類される特許

31 - 40 / 272


【課題】オーディオ情報の再生スタート時点を選択できるようにするためのマーカー指定に関し、誤って挿入されたマーカーの位置をユーザの意図する位置と一致するように修正する。
【解決手段】マーカー設定方法は、複数の無声領域および有声領域を含むオーディオ情報を受信するステップと、選択されたマーカー挿入時点に対する選択を受信するステップと、受信された選択および受信されたオーディオ情報に基づいて、選択されたマーカー挿入時点が有声領域に存在するかを判断するステップと、選択されたマーカー挿入時点が前記有声領域上に存在すると、受信されたオーディオ信号内の複数の無声領域の中で無声領域の時刻を決定し、決定された無声領域の時刻に対応するようにマーカーを設定するステップとを含む。 (もっと読む)


【課題】動画像上の被写体が動作区間を精度よく速やかに判別する。
【解決手段】本実施の形態においては、順次入力される各フレームの唇画像に順次注目し、注目した唇画像tを基準として、その前後それぞれのNフレームから成る合計2N+1枚の唇画像を所定の位置に配置して1枚の合成画像を生成する。この生成された1枚の合成画像に対して、ピクセル差分特徴量が演算される。本発明は、例えば、動画像の被写体である人物の発話区間を精度よく検出する場合に適用することができる。 (もっと読む)


【構成】
複数個の無指向性信号を増幅器で増幅し、無指向性信号を駆動回路で組み合わせて、音源の方向への指向性の有る指向性信号を求め、前記指向性信号あるいは前記無指向性信号に対して発話の有無を検出し、指向性信号を音声認識部で音声認識する。モード切替部により、無指向性信号中あるいは指向性信号中のノイズレベルを繰り返し測定し、ノイズレベルが低い際に、無指向性信号を音声認識部で音声認識するようにモードを切り替える。
【効果】 ノイズが少ない際に、音声認識部への入力信号の質を向上できる。 (もっと読む)


【課題】より正確に通話単位を検出することができる技術を提供する。
【解決手段】入電フレーズを構成する単語が各発話に含まれる割合である入電フレーズ一致率、及び、切電フレーズを構成する単語が各発話に含まれる割合である切電フレーズ一致率を計算する。入電フレーズ一致率が第一閾値よりも高い発話を入電発話とし、切電フレーズ一致率が第二閾値よりも高い発話を切電発話とする。仮検出された各通話を構成する発話の中に入電発話が含まれる場合にはその入電発話の直前でその各通話を分割し、各通話を構成する発話の中に切電発話が含まれる場合にはその切電発話の直後でその各通話を分割し、直前の通話を構成する最後の発話が切電発話ではなくかつ最初の発話が入電発話でない通話がある場合にはその通話とその直前の通話とを結合する。 (もっと読む)


【課題】より適切に保留に関連する発話を抽出することができる技術を提供する。
【解決手段】
音声特徴量算出部2が、音声信号の音声特徴量を抽出する。音声認識部3が、音声特徴量、音響モデル及び言語モデルを用いて上記音声信号に対して音声認識を行い、音声信号に含まれる発話を検出し、検出された発話についての情報を生成する。保留区間検出部4が、発話についての情報を用いて、隣接する発話の間隔が所定の時間以上である保留区間を検出する。抽出部5が、保留区間に隣接する発話の集合から、保留区間が長いほど多くの数の発話を抽出する。 (もっと読む)


【課題】音声入力時の操作性に優れた音声認識装置を提供する。
【解決手段】音声を記録する音声記録手段16と、音声に基づいて音声認識処理を行う音声認識手段33と、入力の開始または入力の終了を検出する入力手段14と、入力手段14が入力の開始を検出した場合に音声の記録を開始し、入力手段14が入力の開始を検出した後所定時間以内に入力の終了を検出した場合、その後再度入力の開始を検出した場合に音声の記録を終了させる第1の集音モードに制御し、入力手段14が入力の開始を検出したまま所定時間経過した場合、入力の終了を検出した場合に音声の記録を終了させる第2の集音モードに制御する集音モード制御手段30とを備えた。 (もっと読む)


【課題】複数のチャネルから音声認識に適した1のチャネルを選択し、選択されたチャネルの音声認識を行うチャネル統合方法、チャネル統合装置、プログラムを提供する。
【解決手段】チャネルごとに音声信号を入力とし、音声ディジタル信号を出力する音声入力部12と、チャネルごとに音声ディジタル信号を入力とし、パワー値を出力するパワー計算部21と、チャネルごとに音声ディジタル信号、パワー値を入力とし、パワー値が最大となるチャネルの音声ディジタル信号を出力音声ディジタル信号として出力するチャネル選択部22と、出力音声ディジタル信号、音響モデル、言語モデルを入力とし、認識結果テキストを出力する音声認識部23と、出力音声ディジタル信号を入力とし、保存音声信号ファイル情報を出力する音声信号保存部25と、保存音声信号ファイル情報と認識結果テキストとを対応付けて保存する音声/テキスト保存部26とを備える。 (もっと読む)


【課題】音声データを自動的に音声素片ごとに精度よく区分する。
【解決手段】音声データが表す音声を構成する各音声素片の境界時間の推定値である素片境界によって区分された各区分時間区間をそれぞれ1以上の状態境界で区分した複数の状態時間区間を求め、隣接する2つの区分時間区間からなる処理時間区間ごとに、当該処理時間区間に含まれる隣接した状態時間区間からなる組の集合の中から、当該組をなす隣接した状態時間区間それぞれの音声データの代表値の距離が最大となる組を選択し、選択した当該組をなす隣接した状態時間区間の状態境界又は素片境界を、当該処理時間区間での修正された素片境界とする。 (もっと読む)


【課題】単語の登録数を増加させた場合においても、認識精度を向上できる音声認識装置を提供すること。
【解決手段】音声認識装置100は、汎用的な単語に基づいて構成された第1言語モデルを記憶する第1言語モデルDB107bと、第1言語モデルよりも特定の表現に特化した単語に基づいて構成された第2言語モデルを記憶する第2言語モデルDB119bと、第1言語モデルを用いて、入力された音声に基づく音声波形を音声認識する第1音声認識部105と、第1音声認識部105の認識結果に基づいて、特定の表現を含む音声波形の区間を特定の区間として、抽出する再認識範囲抽出部111と、第2言語モデルを用いて、再認識範囲抽出部111により抽出された特定の区間の音声波形を音声認識する第2音声認識部117とを備える。 (もっと読む)


【課題】マーケティングデータの一つとして、会話比率と顧客満足度の関連性を把握するための接客データを記録する。
【解決手段】店員と顧客の会話を取得する会話取得部102と、取得した会話から、店員の話し掛けによる店員話し掛け区間と、顧客の話し掛けによる顧客話し掛け区間と、を抽出する話し掛け区間抽出部161と、店員話し掛け区間または顧客話し掛け区間の長さの、店員話し掛け区間と顧客話し掛け区間の長さの合計に対する比率である会話比率を算出する会話比率算出部155と、顧客話し掛け区間の音声に基づいて、顧客の感情を認識する顧客感情認識部162と、顧客感情認識部162の認識結果に基づいて、顧客満足度を算出する顧客満足度算出部163と、算出した会話比率に基づく会話比率データと、顧客満足度に基づく満足度データとを関連付け、接客データとして管理サーバー用データベースDB2に記録する接客データ記録部158と、を備えた。 (もっと読む)


31 - 40 / 272