説明

国際特許分類[G10L15/00]の内容

物理学 (1,541,580) | 楽器;音響 (32,226) | 音声の分析または合成;音声認識;音響分析または処理 (17,022) | 音声認識 (6,879)

国際特許分類[G10L15/00]の下位に属する分類

国際特許分類[G10L15/00]に分類される特許

971 - 980 / 1,893


音声処理方法は、音声録音の音声特性を変換するための一つまたは複数の変換プロファイルを構成し、各変換プロファイルに対してメタデータセットを生成する処理を備える。メタデータセットは、変換プロファイルデータと、録音のどこに変換プロファイルデータが適用されるべきかを示すロケーションデータとを備える。各メタデータセットは、対応する録音と関連づけて保存される。対応する音声再生方法は、録音と該録音に関連づけられたメタデータセットをストレージから読み出し、メタデータセットの変換プロファイルに従って録音データに変換を適用し、変換された録音を出力する処理を備える。 (もっと読む)


【課題】容易な方法で運転中の携帯電話による通話を防ぎ、走行中の危険を避けることのできる車両用通話警告装置の提供
【解決手段】車室内のマイクロフォン11により受けた音声を、音声変換部22において音声信号に変換し、音声信号分離部23において、この音声信号からオーディオ・ビジュアル装置3が出力した音声信号を取り除いた後、話者ごとの発声による音声信号に分離する。分離された音声信号に基づいて、話者人数判定部24が一人の話者のみの音声信号であると判定すると、声紋データ照合部25が当該音声信号から声紋データを検出した後、その声紋データを声紋登録装置17にあらかじめ登録された運転者の声紋データと照合する。発声している一人の話者による声紋データが運転者の声紋データと一致すると判定された場合、スピーカ6から運転者に対し、携帯電話の使用をやめるように警告を発する。 (もっと読む)


【課題】ユーザが文字の表示内容を充分確認することができ、言語学習の効果を高めることができる。
【解決手段】DVDドライブ7により読み出されたフレームおよびオーディオフレームと、音声認識部13によりオーディオフレームに基づき生成されたテキストデータとがRAM16に記憶され、MPEGデコーダ9は、第一の所定数のオーディオフレームに対応するテキストデータに基づきOSD部8が生成した表示画像信号と、第二の所定数のフレームを伸長させた各フレームとを合成して各合成信号を順次ビデオエンコーダ11に出力し、オーディオフレームを伸長してオーディオD/Aコンバータ12に出力することを行い、上記第二の所定数はリモコン操作により変更可能である。 (もっと読む)


【課題】より正確な検索結果を得ることができ、かつ種々のデータベースにも簡易に使用できる音声情報検索プログラムを提供すること。
【解決手段】音声情報に記録された音声素子を文字列に変換するステップと、前記音声情報の再生時間を測定するステップと、音声情報の再生時間が所定時間よりも長い場合には、前記音声情報の前記文字列を所定時間ごとに区切ってデータベースに登録し、音声情報の再生時間が所定時間以下である場合には、前記音声情報の前記文字列を区切らずにデータベースに登録するステップと、前記データベースに対して検索を行なう検索項目と、該検索項目についての検索条件と、を決定するステップと、前記検索条件に従って、前記データベースに対して検索を実行するステップと、前記検索の結果を出力するステップと、を少なくともコンピュータに実行させる音声情報検索プログラム。 (もっと読む)


【課題】音声認識を改善するシステムを提供すること。
【解決手段】音声認識エンジンに結合するように構成されたインタフェースと、該インタフェースに結合されたポスト認識プロセッサであって、該ポスト認識プロセッサは、該音声認識エンジンによって生成された認識音声データをメモリ内に保持されたコンテキストオブジェクトと比較し、修正済み認識音声データを生成し、該修正済み認識音声データを翻訳コンポーネントに送信する、該ポスト認識プロセッサとを備える、音声認識性能を改善するシステム。 (もっと読む)


【課題】 従来よりも複数の仮想音源の選択動作の自由度を高めることができる音源選択装置を提供することにある。
【解決手段】 頭部動作判定手段33が、配置パターンの変更動作が行われたことを判定すると、配置パターン選択手段43は、複数の仮想音源の定位音源配置パターンを、定位音源配置パターン記憶手段41に記憶されている別のパターンに変更する。頭部動作判定手段33が、音源を選択する受聴者の頭部の動作を判別すると、受聴者の正面にある音源を選択し、ミシング手段5は選択された音源の再生を継続する。 (もっと読む)


【課題】音声データや手書き文字データなどの入力データを認識して文字入力を行うときに、ユーザの意図通りの文字を簡単に得ることができる文字入力装置を実現する。
【解決手段】音声翻訳機100は、文字に変換する前の元情報を文字に変換する過程で生成された文字候補が、上記元情報に対応付けて認識文字候補記憶部に記憶されており、上記過程によって変換された文字を、文字表示領域にユーザが選択可能に表示する表示制御部13と、ユーザの第1操作によって上記表示された文字が選択された場合に、選択された文字の変換前の元情報に対応付けて上記文字候補記憶部に記憶されている文字候補をユーザが選択可能に表示する認識文字候補出力部26と、上記文字表示領域において上記第1操作と異なるユーザの第2操作が行われた場合に、上記候補表示手段が実行する処理とは異なる、該文字表示領域に表示された文字にかかる処理を実行する文字認識結果修正部29とを備えている。 (もっと読む)


【課題】その場にいるメンバが利用する単語の傾向を類推することにより音声認識の精度を高めることを可能とする。
【解決手段】
グループ内の利用者をサブグループに分割し、利用者が属するグループ内で共同利用されるネットワークシステム上のテキスト情報から前記利用者及び前記サブグループと関連付けて単語を抽出し、前記単語を利用者及び関連するサブグループ識別情報とともにカスタマイズ用辞書データベースに記憶しておき、音声入力装置の周囲に存在する利用者のサブグループを特定すると、認識対象語彙を格納した音声認識用辞書データベースに基づき単語を選択する際に、カスタマイズ用辞書データベースを参照してサブグループに応じて音声認識処理で選択する単語の優先順位を調節する。 (もっと読む)


【課題】常に発話した発話者の方向を向いた状態で発話者に応答することができる音声認識ロボット、その制御方法を提供すること。
【解決手段】音声の発生方向を特定する音源特定部と、音声を受信し、内容を認識する音声認識部と、2つ以上の方向につき撮像した画像を画像データとして取得する撮像部と、撮像画像内の人物の顔を検出する顔検出部と、検出した顔の位置・向きを判別する判別部と、検出した顔を抽出する抽出部を備えた音声認識ロボットにおいて、音源特定部で特定した音声の発生方向を撮像部で撮像し、撮像部で撮像した画像内に存在する人物の顔を顔検出部で検出し、検出した顔のうち判別部によりロボットの方向を向いている人物の顔を判別し、ロボットから最も近い位置の顔を抽出部で抽出し、撮像部の撮像する方向を抽出した顔の位置に併せて変更し、抽出した顔を撮像し続ける。 (もっと読む)


【課題】本発明は、台詞が関連付けられた一連の静止画像を順次切り替え表示させると共に、所定個所でナレーションを出力させる静止画像対応録音ナレーション自動出力システムに関し、ナレーションによるエンターテイメント性の向上、観覧意欲の喚起を図ることを目的とする。
【解決手段】一連で構成される静止画像毎に関連する所定の台詞に対応する録音ナレーションをNRデータDB38に記憶しおき、音声処理部21の音声認識手段31で入力した台詞音声を解析した音声データと、照合テーブル33の現に表示されている静止画像に対応する台詞キーワードとを音声照合手段32が照合し、一致したときの当該台詞キーワードで特定される照合個別信号に基づいてNR制御手段35が対応する録音ナレーションをNRデータDB38より抽出してNR出力制御部18に送出して出力させる構成とする。
(もっと読む)


971 - 980 / 1,893