説明

国際特許分類[G10L17/00]の内容

物理学 (1,541,580) | 楽器;音響 (32,226) | 音声の分析または合成;音声認識;音響分析または処理 (17,022) | 話者の同定または識別 (337)

国際特許分類[G10L17/00]に分類される特許

181 - 190 / 337


【課題】話者が3名以上であっても、詳細に、音声信号ストリーム中の複数の話者による対話状況の区切りや対話状況を推定したり、音声信号ストリームの内容を推定することができる対話状況区切り推定方法、対話状況推定方法、対話状況推定システムおよび対話状況推定プログラムを提供する。
【解決手段】音声区間検出部1は、音声区間を検出し、発話者決定部2は、音声区間の発話者を決定する。ストリーム分割部3は、音声信号ストリームを時間窓で分割する。発話量抽出部4は、各話者の発話量を求める。ばらつき度合い抽出部5は、話者間の発話量のばらつき度合いを求める。対話状況区切り推定部6は、ばらつき度合いを特徴量として、対話状況区切りを推定する。 (もっと読む)


【課題】複数の回線を用いなくても一地点から複数人が音声会議に参加することができ、かつ、話者の識別が容易な音声会議システムを提供する。
【解決手段】本発明の音声会議端末装置は、話者の音声を集音し、その話者の音声を示す音声情報を出力するマイクと、マイクの近傍に設けられ、話者を特定する所有者情報を記録した記録媒体から読み出したその所有者情報に基づいて識別情報を出力する識別手段と、音声情報に、識別情報を付加する識別情報付加手段と、識別情報が付加された音声情報を送信する送信手段とを有する。 (もっと読む)


【課題】ユーザの手を煩わせることなく、処理対象の音声データ中の目的とする部分を迅速に見つけ出して利用することができるようにする。
【解決手段】マイク131(1)、131(2)を通じて取り込んだ信号から検出される音声信号部分から、音声信号処理部136により話者の位置を特定すると共に、この話者の位置をも考慮して、音声特徴解析部143により処理対象の音声信号の変化点を検出する。マイク131(1)、131(2)を通じて取り込んだ信号は、デジタル信号に変換し、検出された話者の変化点の情報と共にデータ記憶装置111に記録する。データ記憶装置111に記憶された情報の再生時には、話者の変換点の情報に基づいて、デジタル信号の再生に同期して、記憶保持されている話者に関連する表示情報をLCD135に表示する。 (もっと読む)


【課題】容易な方法で運転中の携帯電話による通話を防ぎ、走行中の危険を避けることのできる車両用通話警告装置の提供
【解決手段】車室内のマイクロフォン11により受けた音声を、音声変換部22において音声信号に変換し、音声信号分離部23において、この音声信号からオーディオ・ビジュアル装置3が出力した音声信号を取り除いた後、話者ごとの発声による音声信号に分離する。分離された音声信号に基づいて、話者人数判定部24が一人の話者のみの音声信号であると判定すると、声紋データ照合部25が当該音声信号から声紋データを検出した後、その声紋データを声紋登録装置17にあらかじめ登録された運転者の声紋データと照合する。発声している一人の話者による声紋データが運転者の声紋データと一致すると判定された場合、スピーカ6から運転者に対し、携帯電話の使用をやめるように警告を発する。 (もっと読む)


【課題】その場にいるメンバが利用する単語の傾向を類推することにより音声認識の精度を高めることを可能とする。
【解決手段】
グループ内の利用者をサブグループに分割し、利用者が属するグループ内で共同利用されるネットワークシステム上のテキスト情報から前記利用者及び前記サブグループと関連付けて単語を抽出し、前記単語を利用者及び関連するサブグループ識別情報とともにカスタマイズ用辞書データベースに記憶しておき、音声入力装置の周囲に存在する利用者のサブグループを特定すると、認識対象語彙を格納した音声認識用辞書データベースに基づき単語を選択する際に、カスタマイズ用辞書データベースを参照してサブグループに応じて音声認識処理で選択する単語の優先順位を調節する。 (もっと読む)


【課題】ユーザが音声源とその音声に基づき生成される字幕との対応関係を確実かつ容易に認識することができる字幕生成装置、字幕生成方法および字幕生成プログラムを提供する。
【解決手段】字幕生成装置200において、映像認識部3aにより、入力される映像信号V1の映像認識処理が行われる。これにより、映像上の動作物体が識別される。また、音声認識部3bにより、入力される音声信号A1の音声認識処理が行われる。これにより、音声源の位置が推定される。制御部4は、映像認識処理により識別された動作物体の情報と、音声認識処理により推定された音声源の位置情報とを比較することにより紐付け処理を行う。それにより、音声信号A1に基づいて生成された字幕の位置が、映像上の動作物体の近傍に設定される。 (もっと読む)


【課題】ユーザ間の対話を阻害することなく割り込み発声の出力を制御する機械翻訳装置を提供すること。
【解決手段】複数の音声の入力を受付ける入力受付部101と、受付けた音声の話者を検出する検出部102と、受付けた音声を認識する認識部103と、認識部103による認識結果を対訳文に翻訳する翻訳部104と、受付けた複数の音声のうち先に入力された第1音声の受付から出力までの処理段階と、第1音声に対して検出された話者と、複数の音声のうち第1音声の後に入力された第2音声に対して検出された話者との少なくとも1つに基づいて、対訳文の出力の有無および対訳文の出力の中断を制御する出力制御部105と、を備えた。 (もっと読む)


【課題】認証時雑音に拘わらず認証の精度と利便性との均衡を維持する。
【解決手段】特性分析部20は、認証時に被認証者の周囲に発生する認証時雑音の特性を分析する。閾値設定部50は、特性分析部20が分析した認証時雑音の特性に応じて閾値THを設定する。認証部40は、予め登録された登録音声と被認証者から採取された認証音声との特徴量の距離DISTを算定し、距離DISTと閾値設定部50が設定した閾値THとの比較の結果に応じて被認証者を認証する。閾値設定部50は、登録音声の登録時に発生する登録時雑音と登録音声との音量比EN_SNに対し、音量被EN_SNと認証時雑音および認証音声の音量比V_SNとの差分値DIF_SNに応じた直線に沿って閾値THが変化するように閾値を設定する。 (もっと読む)


【課題】話者である自分の音声と相手の音声がどれくらい似ているかを定量的に測定並びに表示すること。
【解決手段】話者が音声類似度判断クライアント装置と音声類似度判断サーバ装置を使って、自分の入力した音声と対象となる相手の音声とがどれくらい似ているか、音声認証技術を用いて定量的に測定し、その結果を音声類似度判断クライアント装置に接続する表示装置に表示することにより、本課題を解決することが可能となる。 (もっと読む)


【課題】認証時雑音に拘わらず認証の精度と利便性との均衡を維持する。
【解決手段】特性分析部20は、認証時に被認証者の周囲に発生する認証時雑音の特性を分析する。設定部51は、特性分析部20が分析した認証時雑音の特性に応じて補正値Aaを設定する。補正部44は、予め登録された登録音声と被認証者から採取された認証音声との特徴量の距離D0を、設定部51が設定した補正値Aaに基づいて補正する。判定部46は、補正部44による補正後の距離D1と所定の閾値TH0との比較によって被認証者の正当性を判定する。 (もっと読む)


181 - 190 / 337