説明

国際特許分類[G10L11/00]の内容

物理学 (1,541,580) | 楽器;音響 (32,226) | 音声の分析または合成;音声認識;音響分析または処理 (17,022) | 15/00〜21/00のグループ中のどれか一つに限定されない音声または音響の特徴量の測定または検出 (1,940)

国際特許分類[G10L11/00]の下位に属する分類

国際特許分類[G10L11/00]に分類される特許

991 - 1,000 / 1,456


【課題】外部機器の信号遅延に影響されずに正しく歌唱採点できるカラオケ装置を実現する。
【解決手段】カラオケ演奏に先立って曲演奏出力とテレビ音声出力との時間差から外部機器(デジタルテレビ300)で生じる出力遅延時間Δtを検出する。カラオケ演奏の際には、歌唱音のピッチ情報およびビブラート情報と、曲メモリ13から読み出される曲情報中から抽出され、出力遅延時間Δtの遅れが付加された採点評価比較情報とを比較してユーザの歌唱内容を採点評価する。これにより、歌唱音のピッチ情報およびビブラート情報と採点評価比較情報とが同期する結果、外部機器(デジタルテレビ300)の信号遅延に影響されずに正しく歌唱採点する個とが可能になる。 (もっと読む)


【課題】楽曲のカテゴリ分類に際し、楽曲の雰囲気に大きな影響を与える音程感の強弱と音の厚みを直接反映する特徴量を精度良く抽出して分類に反映させる。
【解決手段】音響データを複数の周波数バンドに分割し、周波数バンド毎に単位時間毎の周波数成分である時間周波数データを生成する周波数分析部12と、生成された時間周波数データから、基準時間長以上同一周波数の周波数成分が持続する領域を持続領域として検出する持続領域検出部20と、検出された持続領域の個数と持続領域の周波数成分の大きさとのうち少なくとも一方である持続領域関連データに基づき特徴量を算出する特徴量計算部と特徴量に基づき楽曲をカテゴリに分類するカテゴリ分類部14とを備える構成とした。 (もっと読む)


【課題】実際に各モデル次数での符号量を求めることなく線形予測モデルの最適モデル次数を決定する。
【解決手段】入力信号から、モデル次数mまでの各線形予測モデルのPARCOR係数と、モデル次数mのときの前向き予測誤差系列および/または後向き予測誤差系列とをそれぞれ算出する。そして、モデル次数mのときの前向き予測誤差系列および/または後向き予測誤差系列から、モデル次数mの線形予測モデルの予測値と入力信号との誤差である予測誤差波形の符号量を推定する。また、モデル次数mまでの各PARCOR係数に対応した個別符号量、あるいは全てのPARCOR係数に対応する全体符号量を算出する。複数のモデル次数について、各モデル次数mにおける、全体符号量あるいはモデル次数mまでの各個別符号量の合計と、予測誤差波形の推定された符号量との合計符号量を求め、合計符号量からモデル次数を1つに決定する。 (もっと読む)


【課題】 音声を音節や音素や音素片等のサブワードユニットの符号列として認識した上で、符号列を直接分析して音声の意味的な階層化を行う。
【解決手段】 トピック分割処理方法は、マルチメディアコンテンツに含まれる音声を入力し、入力した音声に対するデータ処理をコンピュータにより実行し、コンテンツを意味的に等質な部分に分割するため、音声を音節や音素や音素片等のサブワードユニットの符号列として認識する音声符号化過程と、前記符号列に対して文字列カーネルを用いて計算して符号化された音声どうしの類似性を表す類似性行列を生成する類似性行列生成過程と、類似性行列を用いて、隣接した類似音声区間を併合することを繰り返して意味的な階層化を行う階層化過程との処理を実行する。 (もっと読む)


【課題】オーディオビジュアルファイルに、自動的に、適切なタグを付ける方法を提供する。
【解決手段】手動タグ付についての異なるタグの間に成り立つ関係が、現在タグ付け中の入力ファイルについても成り立つとの仮定に基づき、タグの初期推定値を生成し、次に(特に拡張及び/又は精緻化のために)その推定値を修正することにより、オーディオビジュアルファイル用のメタデータ(タグ)を生成することができる。初期タグ推定値はオーディオビジュアルファイルを示す信号の物理特性に基づいているので、全自動法及びシステムは信号ベースアプローチと機械学習アプローチとのハイブリッドとなる。入力されたコンテンツが、信号特性に関して入力オーディオビジュアルファイルと全体的類似性を有するトレーニングデータベースの同種のファイルと同じタグを有することになると推論することにより、初期タグ推定値を生成することもできる。 (もっと読む)


【課題】可能な限りインデクスの作成対象の映像又は音声の内容構成をよく表す分類項目だけを利用してインデクスの作成を可能にする。
【解決手段】特徴量抽出部110はインデクスの作成対象の映像などの信号から特徴量を抽出し、情報取得部120はその映像等の映像音声情報を取得し、分類決定部130はその映像等の映像音声情報を基に複数の分類項目を決定し、決定した複数の分類項目に映像等を分類するための分類基準データを決定し、判別部140は決定された分類基準データと抽出された特徴量とを基に分類項目の判別を行い、インデクス作成部150は判別部140の判別結果を映像等のインデクスを作成する。 (もっと読む)


【課題】臨場感を高めた仮想空間生成技術を提供する。
【解決手段】環境提供部10は、利用者200に対して、音声および映像の少なくとも一方を含む環境データを提供する。送風用ファン22は、利用者200の周囲に配置される。風圧制御部24は、環境提供部10により利用者200に提供される環境データに応じて、送風用ファンの回転数を制御する。風圧制御部24は、たとえば環境提供部10により再生すべき音声データを参照し、当該音声データが示す音量に応じて、送風用ファンの回転数を制御する。 (もっと読む)


【課題】従来の音声処理装置においては、言語的特徴の差から生じる課題を克服できない、という課題があった。
【解決手段】バイリンガル話者の第一言語の教師第一言語音声情報を格納しており、ユーザから第一言語の音声の入力を受け付け、サンプリング周波数の変換率に関する情報であり、バイリンガル話者の第二言語の音声情報である教師第二言語音声情報と、ユーザが発声した第二言語の音声情報であるユーザ第二言語音声情報を用いて算出された声道長正規化パラメータと、バイリンガル話者の音声のサンプリング周波数である第一サンプリング周波数を用いて算出された第二サンプリング周波数で、受け付けた第一言語の音声に対して、サンプリング処理を行い、第二音声データを得て、教師第一言語音声情報を用いて、前記第二音声データを処理する音声処理装置により、言語的特徴の差から生じる課題を克服できる。 (もっと読む)


【課題】可変レートボコーダのエンコーディングレートを決定する装置および方法を提供する。
【解決手段】入力信号を受取り、予め定められたサブバンドエネルギ計算フォーマットにしたがって複数のサブバンドエネルギ値を計算するサブバンドエネルギ計算手段4, 6と、それら複数のサブバンドエネルギ値を受取って、複数のサブバンドエネルギ値にしたがってそのエンコーディングレートを選択または決定するエンコーディングレート決定手段16とを具備している。 (もっと読む)


【課題】記録している音楽データを解析するパーソナルコンピュータ等の音楽解析装置において、ユーザに対して解析に要する時間を意識させることがない音楽解析システム、音楽解析装置及びコンピュータプログラムを提供する。
【解決手段】音楽解析装置1は、最後に操作を受け付けてからの経過時間が所定時間に到達し、かつ制御手段の処理負荷が予め設定されている所定値以下であると判定した場合(S101:YES,S102:YES)、音楽データを解析する音楽データ解析処理の実行を開始する(S103)。そして音楽解析装置1は、音楽解析処理として、記録している未解析の音楽データの中で解析の優先度が最も高い音楽データを選択し、選択した音楽データを解析プログラムにて解析し、解析プログラムによる解析結果を音楽データに付加して記録する。 (もっと読む)


991 - 1,000 / 1,456