説明

国際特許分類[G10L15/02]の内容

物理学 (1,541,580) | 楽器;音響 (32,226) | 音声の分析または合成;音声認識;音響分析または処理 (17,022) | 音声認識 (6,879) | 音声認識のための特徴抽出;認識単位の選択 (203)

国際特許分類[G10L15/02]に分類される特許

51 - 60 / 203


【課題】 音声の特徴自体によって直接的に制御を行うことを可能とした音声制御装置を提供する。
【手段】 音声取得部2は、音声を取得し電気信号に変換する。特徴量算出手段4は、音声電気信号を周波数解析し、特徴量を算出する。母音判定手段6は、算出した特徴量に基づいて、予め登録された母音との類似度に基づいて母音の判定を行う。制御手段8は、各母音を異なる方向に対応づけた平面または空間において、母音判定手段6によって判定された母音に対応する方向に、その類似度に対応する大きさのベクトルを想定する。制御手段8は、このようにして想定したベクトルに基づいて制御信号を出力する。このようにして、音声に基づいた制御を行うことができる。 (もっと読む)


【課題】
個々のユーザの発話の特徴を学習することにより、音声認識精度の向上を図った車載情報システムを提供することを課題とする。
【解決手段】
手動操作により指令を入力する第1入力手段と、音声を入力する第2入力手段と、前記第2入力手段に入力される音声を音声認識する音声認識手段と、前記第1入力手段に入力される指令の内容、又は前記音声認識手段によって音声認識される音声の意味内容に基づき、所定の情報を出力する情報処理手段と、前記第2入力手段に音声が入力された後の所定時間内に前記第1入力手段へ指令が入力されると、当該指令の内容を表すデータと、前記第2入力手段に入力される音声を表す音声データとに基づき、前記音声認識手段における認識手法を学習する学習手段とを含む。 (もっと読む)


【課題】 少ない演算負荷で特定音を識別することが可能なプログラム、情報記憶媒体及び特定音認識システムを提供すること。
【解決手段】 特定の音を認識する特定音認識システムのためのプログラムであって、入力された音信号に対して所定時間間隔でフーリエ変換を行い、所定時間間隔毎の各周波数成分の圧縮値と、時間的に隣り合う各周波数成分の差分の圧縮値とを含む特徴データを生成する特徴データ生成部と、生成された特徴データの比較対象となる複数の特徴データを記憶する記憶部と、生成された特徴データと前記記憶部に記憶された特徴データとを比較して、比較結果に基づき音認識処理を行う音認識処理部としてコンピュータを機能させることを特徴とする。 (もっと読む)


【課題】認識性能の低下を抑えつつ、元の状態に戻さずに認識でき、大幅にメモリ量を削減するように特徴ベクトルの圧縮を行う。
【解決手段】量子化処理20は、特徴ベクトル入力処理201、並べ替え処理202、初期化処理203、量子化区間探索処理204、誤差・量子化数量化処理205、再探索準備処理206、量子化特徴ベクトル出力処理207からなり、特徴抽出部102で生成された入力特徴ベクトルと辞書特徴ベクトルに対して、量子化関数を生成し、その量子化関数に基づいて特徴ベクトルの各成分の量子化処理を行う。 (もっと読む)


【課題】歌唱しているユーザの音声に基づき、そのユーザに類似した歌手を推薦する。
【解決手段】通常の会話に係る音声の発声者を特徴づける第一の音声特徴素を発声者別に格納した音響モデル辞書221と、歌唱時の音声に係る発声者を特徴づける第二の音声特徴素を、発声者別に格納した歌唱モデル辞書222と、デジタル化された音声データを、音響モデル辞書221に格納されている第一の音声特徴素と比較分析し、音声データと類似する第一の音声特徴素の発声者を抽出する音響モデル検索部231と、デジタル化された音声データを、歌唱モデル辞書222に格納されている第二の音声特徴素と比較分析し、音声データと類似する前記第二の音声特徴素の発声者を抽出する歌唱モデル検索部232と、を備え、音響モデル検索部231での抽出結果及び歌唱モデル検索部232での抽出結果から、音声データに類似する音声の発声者をリストアップする。 (もっと読む)


【課題】発話を処理単位に分割する際に、ポーズをともなわない処理単位への分割の精度を向上できる処理単位分割装置を提供する。
【解決手段】発話に応じたテキストの形態素列情報を受け付ける形態素列情報受付部14と、前記発話された音声から抽出された基本周波数のフレーズ成分に関する基本周波数情報を受け付ける基本周波数情報受付部16と、教師テキストデータが形態素に分割された教師形態素列情報と、教師テキストデータの分割位置を示す教師分割情報と、教師基本周波数情報とを有する教師データが記憶される教師データ記憶部18と、教師データを学習し、形態素列情報と、基本周波数情報とを用いて、形態素列情報に対応するテキストデータにおける処理単位の分割位置を示す分割情報を構成する分割部19と、分割情報を出力する出力部20と、を備える。 (もっと読む)


【課題】従来よりもアラインメント精度を高めることができる音楽音響信号と歌詞の時間的対応付けを自動で行うシステムを提供する。
【解決手段】非摩擦音区間抽出部4は、音楽音響信号から摩擦音が存在しない区間を抽出する。アラインメント部17は、時間的対応付け用特徴量に対応する音素を推定する歌声用音響モデル15を備える。アラインメント部17は、時間的対応付け用特徴量抽出部11から得た時間的対応付け用特徴量と、歌声区間推定部9から得た歌声区間と非歌声区間に関する情報と、音素ネットワークSNとを入力として、少なくとも非歌声区間には音素が存在しないという条件及び摩擦音が存在しない区間には摩擦音となる音素が存在しないという条件の下で、アラインメント動作を実行する。 (もっと読む)


【課題】音声認識性能に影響を与えるユーザ音声の物理量の改善を支援する音声診断装置及びユーザ音声診断方法を提供する。
【解決手段】ユーザ音声診断装置10の音声信号入力部101は、ユーザの発声による音声信号を入力し、物理量算出部102は、入力された音声信号に基づいて母音間距離と話者固有度の両方を含む物理量を算出する。物理量提示部103は、算出された物理量をユーザに提示する。 (もっと読む)


【課題】留守番メッセージの内容を容易かつ速やかに認識可能にして、携帯通信端末の留守応答録音機能をより有効に利用可能にする。
【解決手段】留守番メッセージとして録音され、メモリに格納された音声データの文字変換指示が入力されると(S1)、制御部の音声認識機能により、当該音声データをテキストデータに変換する(S2)。次に、入力された音声データの音量、周波数、音声速度を解析し(S3)、また発呼者IDに対するデータ表示変更情報が予めメモリに格納されているか否かを調べる(S4)。データ表示変更情報がメモリに格納されていない場合(S4,No)は、S3での解析結果に基づいて変換されたテキストデータの表示文字を変更して表示する(S7)。データ表示変更情報がメモリに格納されている場合(S4,Yes)は、当該発呼者IDに対するデータ表示変更情報を参照し、該データ表示変更情報を更に加味した表示の変更を行って表示する(S6)。 (もっと読む)


【課題】発音区間の特定の精度を向上する。
【解決手段】特徴量算定部54は、音解析装置80が音信号Sの解析に使用する特徴量Cを音信号Sの各フレームFについて順次に算定する。フレーム情報生成部56は、音信号Sの各フレームFについてフレーム情報F_HISTを生成して記憶部64に格納する。第1区間特定部30は、音信号Sについて発音区間P1を特定する。出力制御部62は、発音区間P1の各フレームFの特徴量Cを順次に音解析装置80に出力する。第2区間特定部40は、発音区間P1を短縮した発音区間P2を、記憶部64に格納されたフレーム情報F_HISTに基づいて特定して音解析装置80に通知する。 (もっと読む)


51 - 60 / 203