説明

国際特許分類[G10L17/00]の内容

物理学 (1,541,580) | 楽器;音響 (32,226) | 音声の分析または合成;音声認識;音響分析または処理 (17,022) | 話者の同定または識別 (337)

国際特許分類[G10L17/00]に分類される特許

31 - 40 / 337


【課題】周囲の雑音による影響を受け難く、特定の話者の音声を精度よく翻訳して表示できる眼鏡型表示装置を提供する。
【解決手段】周囲の音を受音して音信号に変換し視界を撮像する眼鏡型表示装置1は、撮像された視界の画像データから話者の顔画像データ及び顔特徴データの少なくとも一方を抽出し、その顔画像データ及び顔特徴データ並びに周囲の音の音信号の少なくとも一つに基づいて、話者の音声信号を特定して抽出する。また、前記話者の音声信号をテキストデータに変換し、そのテキストデータを、そのテキストデータの言語とは異なる他の言語のテキストデータに変換する。他の言語に翻訳されたテキストデータは視界内に重ねて表示される。 (もっと読む)


【課題】処理遅延時間の短縮化と高精度な話者識別性能とを両立させる。
【解決手段】候補点で区切って得られる第1区間および第2区間それぞれに属する音響特徴量データについて各統計量を算出し、第1区間に対応する統計量と第2区間に対応する統計量とをベイズ情報量基準によってクラスタ分析処理し、両区間が別クラスタであると判定された場合に候補点を話者交替点として検出する話者交替点検出部22と、話者モデル記憶部26a,26b,26cと、判定対象区間に属する音響特徴量データについての統計量と話者モデル記憶部26a,26b,26cから読み出した統計量とをクラスタ分析処理して、判定対象区間の話者を判定するとともにその話者の信頼度である話者信頼度を計算する話者判定部25a,25b,25cと、話者信頼度に基づいて一の話者判定結果を選択する話者選択部27とを備えた。 (もっと読む)


【課題】ユーザ発話に基づいてユーザの意図を判定する装置および方法を実現する。
【解決手段】予め登録された複数の意図情報の各々に対応する意図モデル単位で、観測情報として得られるコンテキスト情報に基づく事前スコアを算出する事前スコア調整部、ユーザ発話に基づく入力音声に最も適合する単語系列の決定とその単語系列に付与される音響スコアと言語スコアを前記意図モデル単位で算出するマルチマッチング部、意図モデル単位の事前スコアと音響スコアと言語スコアから算出される総合スコアを比較して、最も高い総合スコアが得られた意図モデルに対応する意図情報をユーザ発話に対応する意図として決定する意図判定部を有し、意図モデル単位のスコア比較によりユーザの発話に対応するユーザの意図を判定する。 (もっと読む)


【課題】ストリーミング放送、電話会議、TV会議などの音量を制御する技術に関し、特に複数の対象物に対応する音の音量の制御を適切に行なうことを目的とする。
【解決手段】 取得されたデータに対応する音の音量を制御する音量制御装置であって、
前記音に対応する対象物を特定する特定手段と、対象物に対応する音量制御情報を記憶した記憶手段から、前記特定手段において特定された前記対象物に対応する音量制御情報を取得する取得手段と、前記取得手段において取得された前記音量制御情報に応じて、前記音の音量を制御する制御手段とを備える。 (もっと読む)


【課題】ユーザの自然な発話、動作によって機器を的確に指示制御することができ、ユーザが実際に指示を行っている場合のみ指示を取得するユーザ指示取得装置、ユーザ指示取得プログラムおよびテレビ受像機を提供する。
【解決手段】カメラCrによって撮影された映像から予め登録された複数のユーザのそれぞれを認識するとともにその顔の変化を検出し、当該顔の変化から複数のユーザのそれぞれの発話期間を生成する顔分析手段20と、映像から複数のユーザの手の動作を認識する手動作分析手段30と、発話期間に基づいて機器の周囲の音声を検出し、音響特徴量を用いて音声の内容および話者を認識する音声分析手段10と、顔分析手段20によって認識された複数のユーザに話者が含まれている場合、ユーザの顔の変化、手の動作、音声の内容に対して予め定められたコマンドを生成するコマンド生成手段40と、を備える。 (もっと読む)


【課題】ユーザに提示する情報を、ユーザにとって適切な音声で提示することができる音声情報提示装置を提供する。
【解決手段】
ユーザの音声を取得する取得手段120と、取得されたユーザの音声を保持する保持手段130と、ユーザの音声の基本周波数を検出する基本周波数検出手段120と、音声に係るユーザの性別を識別する識別手段120と、ユーザが女性であると識別された場合に、ユーザの音声において、基本周波数を男性の一般的な基本周波数の周波数帯域にシフトさせることにより、ユーザの音声を変更して情報提示用音声を生成する第1生成手段120と、ユーザが男性であると識別された場合に、ユーザの音声において、基本周波数を女性の一般的な基本周波数の周波数帯域にシフトさせることにより、ユーザの音声を変更して情報提示用音声を生成する第2生成手段120と、情報提示用音声を、ユーザに提示する提示手段140とを有することを特徴とする音声情報提示装置。 (もっと読む)


【課題】音声検索において、柔軟な検索結果を得る。
【解決手段】マッチング部56は、複数の検索結果対象単語列それぞれについて、検索結果対象単語列の発音シンボルの並びである検索結果対象発音シンボル列と、入力音声の音声認識結果の発音シンボルの並びである認識結果発音シンボル列とのマッチングをとる。生成部57は、マッチング結果に基づいて、複数の検索結果対象単語列からの、入力音声に対応する単語列の検索の結果である検索結果単語列を生成する。ユーザ情報推定部58は、入力音声の発話者の身体性、及び、心的態度のうちの少なくとも一方を推定して、その推定結果を表すユーザ情報を出力し、マッチング部56、及び、生成部57のうちの少なくとも一方は、ユーザ情報に応じて、処理を変更する。本発明は、例えば、音声検索を行う場合に適用できる。 (もっと読む)


【課題】音声の入力開始後、短時間で入力された言語を判定する。
【解決手段】言語判定部25は、入力音声の言語の特徴量を言語辞書25−2に記憶された言語特徴量と比較して、入力音声の言語を判定する。話者判定部27は、言語判定部25によって判定された言語と併せて、入力音声の発話者の特徴量を話者辞書27−2に記憶させると共に、入力音声の言語の特徴量を話者辞書27−2に記憶された話者特徴量と比較して、入力音声の発話者の判定し、更に、その発話者の発話する言語を判定する。翻訳方向判定部28は、会話の初期では、言語判定部25の判定により、また、会話が進むにつれて、話者判定部27の判定を重視して、入力音声の言語を判定する。 (もっと読む)


【課題】ビデオ会議中の参加者の映像を会議環境、参加者の配置、誰が発言しているかに基づいて動的に調整できることができるビデオ会議装置を提供する。
【解決手段】室内の話者を自動的に追跡し、制御された出席者ビューカメラ50Bと固定式の室内ビューカメラ50Aとの間を動的に切り換える。誰も発言していない場合、本装置10は遠端に室内ビューを示す。室内に優勢な話者がいる場合、本装置は、出席者ビューカメラを優勢な話者に向け、室内ビューカメラから出席者ビューカメラに切り換える。室内に新しい話者がいる場合、本装置は、最初に室内ビューカメラに切り換え、出席者ビューカメラを新しい話者に向け、そして新しい話者に向けられた出席者ビューカメラに切り換える。会話中の2人の近端話者がいる場合、本装置は、これらを追跡し、話者がともにビュー内に納まるように出席者ビューカメラをズームインする。 (もっと読む)


【課題】接客対象となる顧客別に接客区間を特定可能な接客支援装置、接客支援方法およびプログラムを提供する。
【解決手段】店員と顧客の会話を取得する会話取得部102と、取得した会話に含まれる店員および顧客の少なくとも一方の音声に基づいて、店員の接客対象となっている対象顧客の切り替わりを検出する接客切替検出部171と、店員を識別する店員識別情報と、接客切替検出部171の検出時刻と、を関連付け、切替検出データとして管理サーバー用データベースDB3に記録する切替検出データ記録部172と、を備えた。 (もっと読む)


31 - 40 / 337