説明

国際特許分類[G10L17/00]の内容

物理学 (1,541,580) | 楽器;音響 (32,226) | 音声の分析または合成;音声認識;音響分析または処理 (17,022) | 話者の同定または識別 (337)

国際特許分類[G10L17/00]に分類される特許

51 - 60 / 337


【課題】サービスやシステムが第三者に不正に利用されてしまうことを防止する。
【解決手段】入力を受け付けた音声信号に基づく音声と、予め記憶された音声とが、同一人物によって発声された音声であるかどうかを判定することで、ユーザ認証を行う認証装置であって、ユーザを一意に識別するIDと、当該ユーザが発声した複数の言葉毎に生成された複数の音声データとを対応付けて記憶し、さらに、複数の音声データのそれぞれと、ID毎に固有の情報である複数の固有情報とを対応付けて記憶し、端末からIDを受信すると、受信したIDの複数の固有情報のいずれかを特定するための特定情報を当該端末へ送信し、その後、当該端末から送信された音声信号を受信すると、特定情報にて特定される固有情報に対応する音声データを変換した音声信号の特徴と、受信した音声信号の特徴とを比較することにより、同一人物によって発声された音声であるかどうかを判定する。 (もっと読む)


【課題】任意の人物の音声を識別し、識別した音声を改善する音声変更装置、音声変更方法、プログラム及び記録媒体を提供する。
【解決手段】複数の人物が撮影されたカットを含むビデオデータのうち、ユーザに指定された人物のみが撮影されたカットを検索する検索手段と、前記検索手段により検索されたカットから音声を認識する音声認識手段と、前記音声認識手段により認識された音声と同じ人物の音声を変更する音声変更手段と、を備えることを特徴とする。 (もっと読む)


【課題】動画像コンテンツの画像上に登場する特定の人物の動きを継続的に追尾する。
【解決手段】顔検出部13は、フレーム上に存在する人の顔を検出する。顔識別部14は、検出された顔の特徴量を算出し、算出した特徴量を人物-顔データベース15に照合して、その人物を特定する。人物特定部16は、顔識別部14にてその人物を特定できなかった顔について、その顔が検出されたときの音声情報を、人物-音声データベース17に照合することによって、検出された顔の人物を特定する。人物追尾部18は、人物が特定された顔の動きを追尾する。音声検出部19は、顔検出部13にて顔が検出され、その顔の口が動いているときの音声を抽出する。音声解析部20は、抽出された音声の周波数分布を算出する。本発明は、人物追尾装置に適用できる。 (もっと読む)


【課題】複数話者が同時に発声している場合にも、新しい手法を用いてシーケンシャル・グルーピング処理を行うことで、複数話者の識別と照合を適切に行う。
【解決手段】1つの既知音声信号を所定時間間隔の中で信号の最大振幅で正規化した後、サンプルN点の短時間フーリエ変換でM*Nに要素化し、短時間フーリエ変換データのM*N要素をk-means法でK個のクラスターにグループ分けし、クラスター化されたグループを1つのピッチ・クラスター・マップ(PCM)としてPCMデータベースに収納し、以上の操作を繰り返してPCMデータベースを構築しておき、照合のための入力音声信号のスペクトルと、前記PCMデータベース中のPCMのスペクトルとを用いて類似性距離の計算を行い、その類似性距離の計算結果に基づいて、複数話者のスペクトルを、各個人に対するコードブック内のピッチ・クラスター・スペクトルとして分離可能とした。 (もっと読む)


【課題】音声信号中の話者の同定を精度高く実施できる話者クラスタリング装置および話者クラスタリング方法を提供すること。
【解決手段】話者クラスタリング装置100は、ベクトル量子化手段30と、出現頻度生成手段40と、類似度算出手段50と、クラスタリング手段60と、を備えている。ベクトル量子化手段30は、入力された音声信号を符号に変換する。出現頻度生成手段40は、符号中の各符号の出現回数を成分とする出現頻度ベクトルを発話ごとに生成する。類似度算出手段50は、各発話の出現頻度ベクトルを用いて、発話間のコサイン距離を算出し、このコサイン距離から発話間の類似度を求める。クラスタリング手段60は、類似度に基づいてスペクトラルクラスタリングにより発話のクラスタリングを行う。 (もっと読む)


【課題】 自動的且つ効率的にAVデータにおける話者の会話区間を検索する。
【解決手段】 情報抽出装置20では、入力部11から入力されたAVデータの音声信号D11は、ケプストラム抽出部12に入力されて、LPC分析が施され、得られたLPC係数がLPCケプストラム係数に変換される。そのLPCケプストラム係数の一部D12は、ベクトル量子化部13に入力されて、ベクトル量子化が施される。その量子化歪みD14は、話者識別部14に入力されて評価され、さらに閾値データD15を用いて、所定の認識ブロック毎に話者の識別及び判定を行う。識別された話者D16は、話者判別頻度計算部15に入力され、所定の評価区間毎に区間内の各話者の認識された話者判別頻度が計算され、話者の出現頻度情報D17として出力される。情報検索装置は、この出現頻度情報に基づいて、所望の話者が所望の頻度で会話している部分等を検索する。 (もっと読む)


【課題】話者交替点検出および話者認識の精度のよい音響処理装置を提供する。
【解決手段】音響処理装置において、音素認識部が入力される音響特徴量データに基づき音素認識を行なう。音素クラス分類部が音素情報に基づいて音素クラス別音響特徴量を生成する。そして、話者交替点検出部は、音素クラスに関連付けられた音響特徴量データを読み出し、時間区間を区切って得られる第1区間と第2区間のそれぞれに属する音響特徴量データについて、音素クラス毎の統計量を算出し、第1区間および第2区間に対応する複数の音素クラスの統計量をクラスタ分析処理することによって、第1区間と第2区間が別クラスタであると判定される場合に話者交替点を検出する。話者クラスタリング部は、蓄積された複数の音素クラスの統計量と、予め話者モデルとして記憶された複数の音素クラスの統計量とに基づくクラスタ分析処理で、話者を識別する。 (もっと読む)


【課題】複数のカラオケ装置が通信網を介してデータベースサーバーに接続される通信カラオケシステムにあって、顧客の歌声の特徴に基づいて顧客を特定して顧客の個人情報に基づくメッセージを出力するというサービスを、システムの処理負担および通信負荷が過大にならないように効率良く実行させる。
く作成させる。
【解決手段】データベースサーバー200は、顧客の個人情報と、顧客の声特徴データを対応付けて集約した顧客データベース210を備え、カラオケ装置100は、歌声信号を分析して声特徴データを生成し、生成した声特徴データが、直近の所定期間に生成・記録されていない場合は、上記声特徴データベース210に問い合わせて対応する個人情報を取得し、この個人情報に基づいてメッセージを作成して顧客に向けて出力する。 (もっと読む)


【課題】顧客がカラオケ楽曲を歌唱する際に、その顧客が歌唱の度に個人ID等を入力する面倒を行わなくても、データとしての使い勝手が良好で、カラオケ利用者へのサービス提供に利用する情報としての利便性が高い顧客別歌唱履歴を、カラオケ装置ごとに自動的に効率良く作成させる。
【解決手段】データベースサーバー200は、顧客の個人IDと、顧客の声特徴データを対応付けて集約した声特徴データベース210を備え、カラオケ装置100は、歌声信号を分析して声特徴データを生成し、生成した声特徴データが、直近の所定期間に生成・記録されていない場合は、上記声特徴データベース210に問い合わせて対応する個人IDを取得し、この個人IDを楽曲IDと演奏日時に対応付けて顧客別演奏履歴を作成・記録する。 (もっと読む)


【課題】顧客がカラオケ楽曲を歌唱する際は、その顧客が歌唱の度に顧客IDを入力する面倒を行わなくても、その顧客の歌唱履歴を自動的に記録させることができる一方、そのデータベースの記録データを活用するサービスを提供する際には、そのデータベースに記録された歌唱履歴の検索を少ない処理負担で高速に行うことを可能にする。
【解決手段】データベースサーバー200は、カラオケ装置100から楽曲ID・歌唱日時・声特徴データの情報セットを受信し、受信した声特徴データに最も近似する声特徴データを声特徴データベース210から検索し、該当する顧客IDを抽出し、抽出した顧客IDに基づいて、顧客データベース220における該当の歌唱履歴に、受信した楽曲IDと歌唱日時の記録を追記する。 (もっと読む)


51 - 60 / 337