説明

国際特許分類[G10L15/00]の内容

物理学 (1,541,580) | 楽器;音響 (32,226) | 音声の分析または合成;音声認識;音響分析または処理 (17,022) | 音声認識 (6,879)

国際特許分類[G10L15/00]の下位に属する分類

国際特許分類[G10L15/00]に分類される特許

141 - 150 / 1,893


【課題】映像の字幕を生成し、視聴端末で同期表示するように字幕と映像とを配信すること。
【解決手段】字幕生成配信システムは、音声を含む映像を取得する撮影装置10と、撮影装置10で取得された映像を所定時間遅延させる映像バッファ41と、編集端末20から受信した字幕情報とを視聴端末50に配信する配信部42を含む配信サーバ40と、撮影装置10で取得された映像に含まれる音声に対する音声認識結果を取得する音声認識サーバ30と、音声認識サーバ30で取得された音声認識結果をユーザが編集するための編集画面を表示し、編集画面から字幕を取得する編集部22と、映像バッファ41で映像を遅延させた所定時間と、音声認識サーバ30および編集部22での処理に要した時間とに応じて決定される時間、字幕を遅延させる字幕バッファ23とを含む編集端末20と、を備える。 (もっと読む)


【課題】
外国から日本へ観光等のため入国した旅行者の観光地や宿泊地等における購買及び支払行動に際し、店舗や宿泊業者とそれら旅行者との間の決済業務を支援すること。
【解決手段】
旅行者が有する決済用カードを容易に利用出来る仕組みを提供すると共に、決済内容について旅行者と国内の観光事業者や宿泊業者に、会話の通訳と購入内容明細を翻訳して記載したレシート(紙媒体の証拠書類)を提供することで、スムーズかつ信頼性の高い意思疎通を行うことが出来るようにする。このレシートには直近の為替レートで換算した旅行者の母国通貨の金額も併記されており、双方にとって納得度の高い取引として成立させることが出来る。 (もっと読む)


【課題】入力信号から楽曲を精度良く同定する。
【解決手段】マスクパターン生成部55は、時間周波数領域に変換された入力信号の各領域における楽曲らしさに応じた重み分布であるマスクパターンを生成し、類似度算出部71は、マスクパターンによる重み付けに基づいて、時間周波数領域に変換された入力信号の各領域における特徴量と、時間周波数領域に変換された参照信号の各領域における特徴量との類似度を算出する。本発明は、入力信号から楽曲を同定する信号処理装置に適用することができる。 (もっと読む)


【課題】 情報記録再生装置の使い勝手を向上させる。特にシーンの区切りの設定を簡便
化する。
【解決手段】 音声認識手段を備え、記録中に特徴抽出されたタイミングで、シーンの区
切りを設定し、同時にサムネールを設定する。再生時には、該サムネールと同時に、特徴
抽出時の音声を同時に出力する。 (もっと読む)


【課題】第三者に違和感又は不快感を与えずに話者の音声をマスキングするための音声出力を可能にする音声データ生成装置を提供する。
【解決手段】話者が発した音声をマスキングするための音声に係る音声データを生成するマスカ音生成装置1において、入力された話者の音声をデータ変換部21でテキストデータに変換する。データ選択部22が、データ変換部21で変換されたテキストデータに対応するテキストデータを、辞書DB111から選択する。音声特徴量抽出部23が、話者の音声の音声特徴量を抽出する。音声データ生成部24が、抽出した音声特徴量に基づいて、選択されたテキストデータを音声データに変換する。 (もっと読む)


【課題】 本発明は、ボイス制御する方法を特定することを目的とする。
【解決手段】 消費者電化製品に関連する装置のボイス制御において、ユーザの音声入力はディジタル化されたボイス信号に変換される。音声の個々の音の特性であり、従って口頭の音の認識を可能にする第1の特徴は、ディジタル化されたボイス信号から抽出される。更に、夫々のユーザの声の特性把握を可能にし、異なるユーザの音声入力間で区別するために使用される第2の特徴がディジタル化された音声信号から抽出される。これは、オペレータ制御コマンドを表わす、現在のユーザの音声入力と他の人による発声との間で区別し、現在のユーザのオペレータ制御コマンドにだけ応答するよう、装置が作動されることを可能にさせる。更に、異なるユーザの視聴傾向の分析の質はユーザ間の区別によって改善され得る。 (もっと読む)


【課題】利用者が外出先等で音声を入力して音声認識を行う場合においてその場所で入力された音声の音声認識結果の誤りを低減させる。
【解決手段】音声認識支援システムは、場所を示す場所情報と、該場所についての音声認識結果の精度を示す情報とを対応づけて出力する場所認識結果精度情報出力手段501と、前記場所認識結果精度情報出力手段によって出力された場所情報と音声認識結果の精度を示す情報とに基づいて、認識対象の音声を入力する場所として指定された場所が音声認識に適しているか否かの情報を出力する音声認識場所適否情報出力手段502とを備えている。 (もっと読む)


【課題】情報の欠落を抑えてパターン認識の判別能力を向上でき、多値離散量や連続量のデータに対して適応可能なRT法によるパターン認識方法を提供する。
【解決手段】複数のサンプルデータから構成される単位空間内に、判別対象のデータが属するか否かを判別するパターン認識方法であって、サンプルデータ及び判別対象のデータを定義する複数の項目を、係数及び切片を有する一次式によって平均値m、感度β及び、標準SN比ηに圧縮し、これらの値を用いて判別対象のデータが単位空間内に属するか否かを判別する。 (もっと読む)


【課題】非定常ノイズの影響を低減することによって音声入力中に他の操作を実行することができる携帯型電子機器を実現する。
【解決手段】実施形態によれば、携帯型電子機器は、タッチスクリーンディスプレイを備えた本体を具備し、タッチスクリーンディスプレイ上のタップ位置に対応する表示オブジェクトに関連づけられた機能を実行する。携帯型電子機器は、本体に取り付けられた少なくとも一つのマイクロホンと、本体内に設けられ、マイクロホンからの入力音声信号を処理する音声処理手段と、本体内に設けられ、音声処理手段によって処理された入力音声信号を認識および機械翻訳することによって得られる目的言語の翻訳結果を出力する翻訳結果出力手段とを具備する。音声処理手段は、入力音声信号内に含まれる、タッチスクリーンディスプレイ上をタップすることによって発生するタップ音信号を検出し、検出されたタップ音信号による入力音声信号への影響を軽減するために入力音声信号を補正する。 (もっと読む)


【課題】複数の単語を連続的に音声として入力した場合においても、ユーザの利便性を低下することなく、より適切な区切りの位置を抽出できる抽出装置を提供すること。
【解決手段】入力された音声について適切な単語の区切りを抽出する抽出装置100であって、入力された音声に基づく音声データ150について対応する発音記号を生成する発音記号生成部111と、ユーザにより入力された検索クエリ170に基づく文字列を記憶する検索クエリDB105と、発音記号に対応する文字列を、検索クエリDB105から抽出する抽出部113と、を備える。 (もっと読む)


141 - 150 / 1,893